新詞發(fā)現(xiàn)是一個老生常談的任務(wù)了,對怎么算“詞”,有一個很好的比喻:怎樣判斷兩個人是情侶?首先,我們得經(jīng)常看到他們在一起,而不是今天看到A和B在一起,明天看到A和C,B和D,那...
新詞發(fā)現(xiàn)是一個老生常談的任務(wù)了,對怎么算“詞”,有一個很好的比喻:怎樣判斷兩個人是情侶?首先,我們得經(jīng)常看到他們在一起,而不是今天看到A和B在一起,明天看到A和C,B和D,那...
糾錯廣泛應(yīng)用于諸如搜索的query分析等領(lǐng)域。 糾錯思路如圖。這里主要解讀一下pycorrector源碼。 先對文本預(yù)處理,切分句子,對句子detect_sentence找m...
1. Two Sum[https://leetcode-cn.com/problems/two-sum/] 字典(哈希表)解決法,開始犯了2個問題,一個是直接把所有值先存入字...
時間過太久有點(diǎn)忘了,你試試take()和collect()
利用pyspark實(shí)現(xiàn)基于用戶的協(xié)同過濾的推薦假如有一些用戶對物品的評分?jǐn)?shù)據(jù),怎么預(yù)測用戶的喜好并給他推送感興趣的物品呢?我們常常能想到的一種成熟方法就是協(xié)同過濾,這里只談?wù)劵谟脩粝嗨贫鹊膮f(xié)同過濾。原理很好理解,物以類...
同問,有數(shù)據(jù)sample嗎
xgboost實(shí)現(xiàn)learning to rank算法以及調(diào)參前言 最近在做搜索排序的一個項目,要使用到排序算法,因此對learning to rank做了一番調(diào)研。Learning to rank分為三大類:pointwise,pai...
講的很清楚
HMM(隱馬爾科夫)用于中文分詞隱馬爾可夫模型(Hidden Markov Model,HMM)是用來描述一個含有隱含未知參數(shù)的馬爾可夫過程。本文閱讀了2篇blog,理解其中的意思,附上自己的代碼,共同學(xué)習(xí)...
好久沒來更新,好慚愧,現(xiàn)在也沒了當(dāng)初做這個的心情,就大概記錄一下吧。首先BERT模型是一個像word2vec這種的預(yù)訓(xùn)練模型,word2vec結(jié)構(gòu)比較簡單就是一個最簡單的神經(jīng)...
最近對“有多少人工就有多少智能”有了一些理解。雖然以前很鄙視這個話,覺得是說很多工程用人工的方法來包裝成智能。現(xiàn)在對這句話有了更深的理解。最近做情感分析,用的標(biāo)注的一萬多條語...
假如有一些用戶對物品的評分?jǐn)?shù)據(jù),怎么預(yù)測用戶的喜好并給他推送感興趣的物品呢?我們常常能想到的一種成熟方法就是協(xié)同過濾,這里只談?wù)劵谟脩粝嗨贫鹊膮f(xié)同過濾。原理很好理解,物以類...
用詞向量加深度學(xué)習(xí)的方法做情感分析的基本思路是:1.訓(xùn)練詞向量 2.句子預(yù)處理、分詞,句子變成一個個詞的序列,指定序列最大長度,多砍少補(bǔ),詞分配索引、對應(yīng)上詞向量。3. 定義...