知識(shí)累積

知識(shí)累積

word2vec

原理

核心:將詞變?yōu)橄蛄?,?lái)源是網(wǎng)絡(luò)中每個(gè)詞的參數(shù)
方法:hierarchic softmax,negative sample
訓(xùn)練:邏輯回歸+極大似然
文本處理方式:CBOW多對(duì)一,Skip-gram一對(duì)多
參考資料:
比較詳細(xì)的說(shuō)明:
https://www.cnblogs.com/peghoty/p/3857839.html
我看這個(gè)看懂的:
http://www.cnblogs.com/pinard/p/7243513.html

源碼閱讀

關(guān)于Word2vec的c源碼,其中有一些細(xì)節(jié),除了上面兩篇,下面這個(gè)也有說(shuō)明:

文本詞嵌入(Word Embeddings)的方法

參見(jiàn):https://www.analyticsvidhya.com/blog/2017/06/word-embeddings-count-word2veec/
2.1 Frequency based Embedding
2.1.1 Count Vectors
2.1.2 TF-IDF
2.1.3 Co-Occurrence Matrix
關(guān)于這節(jié)將的不是特別清楚,參考另一篇文章,
2.2 Prediction based Embedding
2.2.1 CBOW
2.2.2 Skip-Gram

GloVe

概覽:作者想利用LSA中的全局矩陣信息和Word2Vec中的局部向量信息來(lái)得到每個(gè)word的向量表示v。作者首先假設(shè)得到了這個(gè)向量表示,然后通過(guò)開腦洞的方式想辦法將這個(gè)向量中包含的規(guī)律與Ratio=\frac{P_{ij}}{P_{jk}}(共現(xiàn)概率比)保持一致來(lái)拼湊出函數(shù)表示。

GloVe和其他方法的聯(lián)系

其他方法(Skip-gram)可以表示為一個(gè)softmax回歸問(wèn)題,對(duì)該公式進(jìn)行修改后可以表示為P_{ij}和Q_{ij}的帶權(quán)交叉熵,把交叉熵?fù)p失更換為均方損失就可以得到GloVe的優(yōu)化公式

共現(xiàn)矩陣權(quán)重計(jì)算方式

對(duì)于窗口內(nèi)的單詞對(duì),考慮利用兩者的間隔距離來(lái)設(shè)置權(quán)重,如果兩者相隔的距離遠(yuǎn),那么共現(xiàn)次數(shù)就少于1,論文中按兩個(gè)單詞的間隔d來(lái)設(shè)置,若單詞對(duì)中兩個(gè)單詞相隔d-1個(gè)單詞,那么他們的權(quán)重計(jì)算為\frac1d

NCE噪聲對(duì)比估計(jì)

fasttext

概覽:基于word2vec, 利用Word2vec原有的詞袋特征,加上ngram特征,訓(xùn)練網(wǎng)絡(luò)
對(duì)句子的意思表示是通過(guò)所有的詞向量的求和取平均。
trick:
利用hash減少n-gram的存儲(chǔ)
參考資料:

  1. 知乎
  2. 源碼分析

學(xué)習(xí)詞向量的兩個(gè)模型族

主要是Matrix Factorization和Shallow Window-Based Methods。前者主要是LSA, pLSA, LDA系列,后者是Word2Vec系列

LSA潛在語(yǔ)義分析

基于global matrix factorization
首先對(duì)文檔統(tǒng)計(jì)次數(shù),計(jì)算Count Vector或者TFIDF Vector創(chuàng)建單詞m-文檔n矩陣,然后利用SVD,然后降維
Am×n=Um×mΣm×nVTn×n≈Um×kΣk×kVTk×n
Uil 是第i個(gè)文本與第l個(gè)主題的相關(guān)度,Vjm 是第j個(gè)單詞和第m個(gè)主題的相關(guān)度,Σlm 是第l個(gè)主題和第m個(gè)主題的相關(guān)度。
LSA優(yōu)勢(shì):
首先文章和單詞都映射到同一個(gè)語(yǔ)義空間。在該空間內(nèi)即能對(duì)文章進(jìn)行聚類也能對(duì)單詞進(jìn)行聚類。重要的是我們能通過(guò)這些聚類結(jié)果實(shí)現(xiàn)基于單詞的文獻(xiàn)檢索,反之亦然。
語(yǔ)義空間的維度明顯明顯少于源單詞-文章矩陣。更重要的是這樣經(jīng)過(guò)特定方式組合而成維度包含源矩陣的大量信息,同時(shí)降低了噪聲的影響。這些特性有助于后續(xù)其他算法的加工處理。
最后,LSA 是一個(gè)全局最優(yōu)化算法,其目標(biāo)是尋找全局最優(yōu)解而非局部最優(yōu)解,因此它能求出基于局部求解算法得不到的全局信息。有時(shí)LSA會(huì)結(jié)合一些局部算法,如最近領(lǐng)域法,使得LSA性能得到進(jìn)一步提升
LSA缺陷:
首先LSA是假設(shè)服從高斯分布和2范數(shù)規(guī)范化的,因此它并非適合于所有場(chǎng)景。例如,單詞在語(yǔ)料庫(kù)中服從的是Poisson 分布而不是高斯分布
LSA不能有效處理一詞多義問(wèn)題。因?yàn)長(zhǎng)SA的基本假設(shè)之一是單詞只有一個(gè)詞義
LSA的核心是SVD,而SVD的計(jì)算復(fù)雜度十分高并且難以更新新出現(xiàn)的文獻(xiàn)。不過(guò)最近已經(jīng)出現(xiàn)一些有效的方法用于解決SVD的基于文獻(xiàn)更新問(wèn)題。

LSA的升級(jí)版PLSA

Probability Latent Semantic Analysis, 基于LSA定義了概率模型

LDA

LSA可以尋找文本的主題分布,可以產(chǎn)生文本對(duì)應(yīng)的向量。在主題分布的范圍內(nèi),也有LDA的方法:
LDA是一種文檔生成模型,給定k個(gè)主題,

local context window局部窗口

skip-gram和CBOW

encoder-decoder seq2sekeyword

q模型

attention

xgboost&lightGBM

兩者分布式的實(shí)現(xiàn),相互有什么區(qū)別
第二篇文章,其中對(duì)分布式的實(shí)現(xiàn)做了綜述

分布式通信模型的區(qū)別

主流的分布式通信模型有四個(gè):

  • MapReduce
  • AllReduce
  • Parameter Server
  • Reduce-Scatter

原理待學(xué)習(xí)

xgboost分布式

xgboost的分布式實(shí)現(xiàn)在陳天奇的一篇文章中說(shuō)初版的XGBoost分布式實(shí)現(xiàn)是Allreduce

相關(guān)閱讀

  1. XGBoost 與 Spark 在廣告排序中的應(yīng)用
  2. 知乎 - 如何看待騰訊開源的Angel

lightGBM分布式

HMM - 生成模型

CRF - 判別模型

推薦相關(guān) FM FFM

比賽總結(jié) - 騰訊廣告大賽

檢索算法BM25

對(duì)文本語(yǔ)義理解的辦法

對(duì)字、詞、短語(yǔ)、句子、段落、文章的理解難度依次遞增,對(duì)語(yǔ)義理解方向,有Extraction和Abstractive兩種方法。Extraction是抽取式的,基于對(duì)單詞短語(yǔ)的重要性排序而來(lái),可以通過(guò)TFIDF、Word2Vec來(lái)展現(xiàn)。排序算法有Textrank、TextTeaser

為什么神經(jīng)網(wǎng)絡(luò)需要初始化權(quán)重

  1. 不能全為0,因?yàn)樘荻雀乱蕾嚈?quán)重的值,如果權(quán)重為0,會(huì)導(dǎo)致所有的bp誤差為0,無(wú)法更新
  2. 不能初始化為相同值,因?yàn)榍跋蚝笏械墓?jié)點(diǎn)值一樣,bp時(shí)所有的誤差都一樣,導(dǎo)致所有的權(quán)重變化都一樣,導(dǎo)致節(jié)點(diǎn)沒(méi)有差異性
  3. 初始化差異不能過(guò)大,否則在某些節(jié)點(diǎn)誤差更新過(guò)大,某些節(jié)點(diǎn)誤差更新過(guò)小,累積下來(lái)會(huì)導(dǎo)致梯度問(wèn)題(彌散或者爆炸)
  4. 每一層輸出的方差盡量相等,xavier(隨機(jī)均勻分布)可以保證此條件
  5. 隨機(jī)高斯分布

ROC曲線的物理意義以及計(jì)算方法

  1. AUC的含義是任選一個(gè)正樣本和負(fù)樣本,正樣本預(yù)測(cè)值大于負(fù)樣本預(yù)測(cè)值的概率
  2. 計(jì)算方法,先對(duì)所有樣本預(yù)測(cè)值排序,由原點(diǎn)開始,有正樣本沿y方向走,有負(fù)樣本沿x方向走,畫出一條鋸齒形的曲線

隨機(jī)森林的采樣極限

假設(shè)數(shù)據(jù)量為m,分別為X_1,X_2,X_3,...,X_m,有放回的均勻采樣,每次拿一個(gè)出來(lái),每次取不到A的概率是1-\frac1m,經(jīng)過(guò)n次抽樣后,每次都取不到A的概率為(1-\frac1m)^n,當(dāng)m,n都趨于無(wú)窮時(shí),公式趨于\frac1e,結(jié)果為36.8%,這部分沒(méi)有被采樣到的數(shù)據(jù),我們稱之為袋外數(shù)據(jù)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 前面的文章主要從理論的角度介紹了自然語(yǔ)言人機(jī)對(duì)話系統(tǒng)所可能涉及到的多個(gè)領(lǐng)域的經(jīng)典模型和基礎(chǔ)知識(shí)。這篇文章,甚至之后...
    我偏笑_NSNirvana閱讀 14,439評(píng)論 2 64
  • 1.磨豆機(jī)為什么要調(diào)整平衡,目的是什么 2.調(diào)整平衡的原理及方法 1.磨豆機(jī)調(diào)整平衡的目的其實(shí)很明顯就是為了能進(jìn)一...
    阿叁兒閱讀 4,112評(píng)論 0 2
  • 1.NLP當(dāng)前熱點(diǎn)方向 詞法/句法分析 詞嵌入(word embedding) 命名實(shí)體識(shí)別(Name Entit...
    __Aragorn閱讀 6,341評(píng)論 1 9
  • ML & DM 集成學(xué)習(xí) 模型融合 ensemble http://wakemeup.space/?p=109 E...
    章魚哥呀閱讀 2,118評(píng)論 0 6
  • 大清早的,就聽見(jiàn)救護(hù)車叫著!我最怕聽見(jiàn)那種聲音,給人的感覺(jué)太糟糕了! 八點(diǎn)去上班,聽司機(jī)說(shuō),那個(gè)叫某某某的人去世了...
    邱嵐閱讀 308評(píng)論 0 0

友情鏈接更多精彩內(nèi)容