新詞發(fā)現(xiàn)是一個(gè)老生常談的任務(wù)了,對(duì)怎么算“詞”,有一個(gè)很好的比喻:怎樣判斷兩個(gè)人是情侶?首先,我們得經(jīng)??吹剿麄?cè)谝黄穑皇墙裉炜吹紸和B在一起,明天看到A和C,B和D,那...
新詞發(fā)現(xiàn)是一個(gè)老生常談的任務(wù)了,對(duì)怎么算“詞”,有一個(gè)很好的比喻:怎樣判斷兩個(gè)人是情侶?首先,我們得經(jīng)??吹剿麄?cè)谝黄穑皇墙裉炜吹紸和B在一起,明天看到A和C,B和D,那...
糾錯(cuò)廣泛應(yīng)用于諸如搜索的query分析等領(lǐng)域。 糾錯(cuò)思路如圖。這里主要解讀一下pycorrector源碼。 先對(duì)文本預(yù)處理,切分句子,對(duì)句子detect_sentence找m...
1. Two Sum[https://leetcode-cn.com/problems/two-sum/] 字典(哈希表)解決法,開(kāi)始犯了2個(gè)問(wèn)題,一個(gè)是直接把所有值先存入字...
最近做項(xiàng)目,接觸到知識(shí)圖譜,開(kāi)始覺(jué)得很高大上,其實(shí)更多是一個(gè)概念和很多細(xì)枝末節(jié)的實(shí)踐。引用書(shū)上的一種定義: 知識(shí)圖譜包含了一堆互相關(guān)聯(lián)的實(shí)體和屬性。 說(shuō)新不新,本質(zhì)上就是一種...
時(shí)間過(guò)太久有點(diǎn)忘了,你試試take()和collect()
利用pyspark實(shí)現(xiàn)基于用戶(hù)的協(xié)同過(guò)濾的推薦假如有一些用戶(hù)對(duì)物品的評(píng)分?jǐn)?shù)據(jù),怎么預(yù)測(cè)用戶(hù)的喜好并給他推送感興趣的物品呢?我們常常能想到的一種成熟方法就是協(xié)同過(guò)濾,這里只談?wù)劵谟脩?hù)相似度的協(xié)同過(guò)濾。原理很好理解,物以類(lèi)...
同問(wèn),有數(shù)據(jù)sample嗎
xgboost實(shí)現(xiàn)learning to rank算法以及調(diào)參前言 最近在做搜索排序的一個(gè)項(xiàng)目,要使用到排序算法,因此對(duì)learning to rank做了一番調(diào)研。Learning to rank分為三大類(lèi):pointwise,pai...
講的很清楚
HMM(隱馬爾科夫)用于中文分詞隱馬爾可夫模型(Hidden Markov Model,HMM)是用來(lái)描述一個(gè)含有隱含未知參數(shù)的馬爾可夫過(guò)程。本文閱讀了2篇blog,理解其中的意思,附上自己的代碼,共同學(xué)習(xí)...
好久沒(méi)來(lái)更新,好慚愧,現(xiàn)在也沒(méi)了當(dāng)初做這個(gè)的心情,就大概記錄一下吧。首先BERT模型是一個(gè)像word2vec這種的預(yù)訓(xùn)練模型,word2vec結(jié)構(gòu)比較簡(jiǎn)單就是一個(gè)最簡(jiǎn)單的神經(jīng)...
最近對(duì)“有多少人工就有多少智能”有了一些理解。雖然以前很鄙視這個(gè)話(huà),覺(jué)得是說(shuō)很多工程用人工的方法來(lái)包裝成智能?,F(xiàn)在對(duì)這句話(huà)有了更深的理解。最近做情感分析,用的標(biāo)注的一萬(wàn)多條語(yǔ)...
假如有一些用戶(hù)對(duì)物品的評(píng)分?jǐn)?shù)據(jù),怎么預(yù)測(cè)用戶(hù)的喜好并給他推送感興趣的物品呢?我們常常能想到的一種成熟方法就是協(xié)同過(guò)濾,這里只談?wù)劵谟脩?hù)相似度的協(xié)同過(guò)濾。原理很好理解,物以類(lèi)...
用詞向量加深度學(xué)習(xí)的方法做情感分析的基本思路是:1.訓(xùn)練詞向量 2.句子預(yù)處理、分詞,句子變成一個(gè)個(gè)詞的序列,指定序列最大長(zhǎng)度,多砍少補(bǔ),詞分配索引、對(duì)應(yīng)上詞向量。3. 定義...