知識(shí)累積
word2vec
原理
核心:將詞變?yōu)橄蛄?,?lái)源是網(wǎng)絡(luò)中每個(gè)詞的參數(shù)
方法:hierarchic softmax,negative sample
訓(xùn)練:邏輯回歸+極大似然
文本處理方式:CBOW多對(duì)一,Skip-gram一對(duì)多
參考資料:
比較詳細(xì)的說(shuō)明:
https://www.cnblogs.com/peghoty/p/3857839.html
我看這個(gè)看懂的:
http://www.cnblogs.com/pinard/p/7243513.html
源碼閱讀
關(guān)于Word2vec的c源碼,其中有一些細(xì)節(jié),除了上面兩篇,下面這個(gè)也有說(shuō)明:
文本詞嵌入(Word Embeddings)的方法
參見(jiàn):https://www.analyticsvidhya.com/blog/2017/06/word-embeddings-count-word2veec/
2.1 Frequency based Embedding
2.1.1 Count Vectors
2.1.2 TF-IDF
2.1.3 Co-Occurrence Matrix
關(guān)于這節(jié)將的不是特別清楚,參考另一篇文章,
2.2 Prediction based Embedding
2.2.1 CBOW
2.2.2 Skip-Gram
GloVe
概覽:作者想利用LSA中的全局矩陣信息和Word2Vec中的局部向量信息來(lái)得到每個(gè)word的向量表示v。作者首先假設(shè)得到了這個(gè)向量表示,然后通過(guò)開腦洞的方式想辦法將這個(gè)向量中包含的規(guī)律與(共現(xiàn)概率比)保持一致來(lái)拼湊出函數(shù)表示。
GloVe和其他方法的聯(lián)系
其他方法(Skip-gram)可以表示為一個(gè)softmax回歸問(wèn)題,對(duì)該公式進(jìn)行修改后可以表示為的帶權(quán)交叉熵,把交叉熵?fù)p失更換為均方損失就可以得到GloVe的優(yōu)化公式
共現(xiàn)矩陣權(quán)重計(jì)算方式
對(duì)于窗口內(nèi)的單詞對(duì),考慮利用兩者的間隔距離來(lái)設(shè)置權(quán)重,如果兩者相隔的距離遠(yuǎn),那么共現(xiàn)次數(shù)就少于1,論文中按兩個(gè)單詞的間隔d來(lái)設(shè)置,若單詞對(duì)中兩個(gè)單詞相隔d-1個(gè)單詞,那么他們的權(quán)重計(jì)算為
NCE噪聲對(duì)比估計(jì)
fasttext
概覽:基于word2vec, 利用Word2vec原有的詞袋特征,加上ngram特征,訓(xùn)練網(wǎng)絡(luò)
對(duì)句子的意思表示是通過(guò)所有的詞向量的求和取平均。
trick:
利用hash減少n-gram的存儲(chǔ)
參考資料:
學(xué)習(xí)詞向量的兩個(gè)模型族
主要是Matrix Factorization和Shallow Window-Based Methods。前者主要是LSA, pLSA, LDA系列,后者是Word2Vec系列
LSA潛在語(yǔ)義分析
基于global matrix factorization
首先對(duì)文檔統(tǒng)計(jì)次數(shù),計(jì)算Count Vector或者TFIDF Vector創(chuàng)建單詞m-文檔n矩陣,然后利用SVD,然后降維
Am×n=Um×mΣm×nVTn×n≈Um×kΣk×kVTk×n
Uil 是第i個(gè)文本與第l個(gè)主題的相關(guān)度,Vjm 是第j個(gè)單詞和第m個(gè)主題的相關(guān)度,Σlm 是第l個(gè)主題和第m個(gè)主題的相關(guān)度。
LSA優(yōu)勢(shì):
首先文章和單詞都映射到同一個(gè)語(yǔ)義空間。在該空間內(nèi)即能對(duì)文章進(jìn)行聚類也能對(duì)單詞進(jìn)行聚類。重要的是我們能通過(guò)這些聚類結(jié)果實(shí)現(xiàn)基于單詞的文獻(xiàn)檢索,反之亦然。
語(yǔ)義空間的維度明顯明顯少于源單詞-文章矩陣。更重要的是這樣經(jīng)過(guò)特定方式組合而成維度包含源矩陣的大量信息,同時(shí)降低了噪聲的影響。這些特性有助于后續(xù)其他算法的加工處理。
最后,LSA 是一個(gè)全局最優(yōu)化算法,其目標(biāo)是尋找全局最優(yōu)解而非局部最優(yōu)解,因此它能求出基于局部求解算法得不到的全局信息。有時(shí)LSA會(huì)結(jié)合一些局部算法,如最近領(lǐng)域法,使得LSA性能得到進(jìn)一步提升
LSA缺陷:
首先LSA是假設(shè)服從高斯分布和2范數(shù)規(guī)范化的,因此它并非適合于所有場(chǎng)景。例如,單詞在語(yǔ)料庫(kù)中服從的是Poisson 分布而不是高斯分布
LSA不能有效處理一詞多義問(wèn)題。因?yàn)長(zhǎng)SA的基本假設(shè)之一是單詞只有一個(gè)詞義
LSA的核心是SVD,而SVD的計(jì)算復(fù)雜度十分高并且難以更新新出現(xiàn)的文獻(xiàn)。不過(guò)最近已經(jīng)出現(xiàn)一些有效的方法用于解決SVD的基于文獻(xiàn)更新問(wèn)題。
LSA的升級(jí)版PLSA
Probability Latent Semantic Analysis, 基于LSA定義了概率模型
LDA
LSA可以尋找文本的主題分布,可以產(chǎn)生文本對(duì)應(yīng)的向量。在主題分布的范圍內(nèi),也有LDA的方法:
LDA是一種文檔生成模型,給定k個(gè)主題,
local context window局部窗口
skip-gram和CBOW
encoder-decoder seq2sekeyword
q模型
attention
xgboost&lightGBM
兩者分布式的實(shí)現(xiàn),相互有什么區(qū)別
第二篇文章,其中對(duì)分布式的實(shí)現(xiàn)做了綜述
分布式通信模型的區(qū)別
主流的分布式通信模型有四個(gè):
- MapReduce
- AllReduce
- Parameter Server
- Reduce-Scatter
原理待學(xué)習(xí)
xgboost分布式
xgboost的分布式實(shí)現(xiàn)在陳天奇的一篇文章中說(shuō)初版的XGBoost分布式實(shí)現(xiàn)是Allreduce
相關(guān)閱讀
lightGBM分布式
HMM - 生成模型
CRF - 判別模型
推薦相關(guān) FM FFM
比賽總結(jié) - 騰訊廣告大賽
檢索算法BM25
對(duì)文本語(yǔ)義理解的辦法
對(duì)字、詞、短語(yǔ)、句子、段落、文章的理解難度依次遞增,對(duì)語(yǔ)義理解方向,有Extraction和Abstractive兩種方法。Extraction是抽取式的,基于對(duì)單詞短語(yǔ)的重要性排序而來(lái),可以通過(guò)TFIDF、Word2Vec來(lái)展現(xiàn)。排序算法有Textrank、TextTeaser
為什么神經(jīng)網(wǎng)絡(luò)需要初始化權(quán)重
- 不能全為0,因?yàn)樘荻雀乱蕾嚈?quán)重的值,如果權(quán)重為0,會(huì)導(dǎo)致所有的bp誤差為0,無(wú)法更新
- 不能初始化為相同值,因?yàn)榍跋蚝笏械墓?jié)點(diǎn)值一樣,bp時(shí)所有的誤差都一樣,導(dǎo)致所有的權(quán)重變化都一樣,導(dǎo)致節(jié)點(diǎn)沒(méi)有差異性
- 初始化差異不能過(guò)大,否則在某些節(jié)點(diǎn)誤差更新過(guò)大,某些節(jié)點(diǎn)誤差更新過(guò)小,累積下來(lái)會(huì)導(dǎo)致梯度問(wèn)題(彌散或者爆炸)
- 每一層輸出的方差盡量相等,xavier(隨機(jī)均勻分布)可以保證此條件
- 隨機(jī)高斯分布
ROC曲線的物理意義以及計(jì)算方法
- AUC的含義是任選一個(gè)正樣本和負(fù)樣本,正樣本預(yù)測(cè)值大于負(fù)樣本預(yù)測(cè)值的概率
- 計(jì)算方法,先對(duì)所有樣本預(yù)測(cè)值排序,由原點(diǎn)開始,有正樣本沿y方向走,有負(fù)樣本沿x方向走,畫出一條鋸齒形的曲線
隨機(jī)森林的采樣極限
假設(shè)數(shù)據(jù)量為m,分別為,有放回的均勻采樣,每次拿一個(gè)出來(lái),每次取不到A的概率是
,經(jīng)過(guò)n次抽樣后,每次都取不到A的概率為
,當(dāng)m,n都趨于無(wú)窮時(shí),公式趨于
,結(jié)果為36.8%,這部分沒(méi)有被采樣到的數(shù)據(jù),我們稱之為袋外數(shù)據(jù)