From Word Embedding To Document Distances

1.摘要

論文作者首先提出了WMD(word mover's distance)這個概念,即:單詞移動距離。一個新穎的,描述兩篇文章的距離函數(shù)。 這個方法是建立在已經(jīng)盡可能學(xué)習(xí)到語義距離的詞嵌入模型基礎(chǔ)上來實(shí)現(xiàn)的。WMD通過量化最小詞嵌入向量空間的距離測度了兩篇文檔的相異性,并證明了該方法是EMD距離(搬土距離,基于運(yùn)輸問題的效率 提出的一種直方圖相似度量。 它是歸一化的從一個分布變?yōu)榱硪粋€分布的最小代價, 可以用來測量兩個分布(multi-dimensional distributions)之間的距離)的一個實(shí)例。且此距離方法沒有任何超參數(shù),是一個簡單而直接的算法實(shí)現(xiàn),并且在該論文中以八個真實(shí)文檔為例子證明了該方法相較于k近鄰擁有更低分類錯誤率(classification error rates)

2. 介紹

由于時間緊迫,不細(xì)描述,只做重要細(xì)節(jié)摘要

????1. 兩種最常見represent文檔的方法:BOW(bag of bow)以及 tf-idf(term frequency and inverse document frequency)。由于高頻或0頻次的單詞(frequent near-orthogonality)并不能正確表示文檔的真實(shí)語義距離,這兩種方法通常不適用于文檔距離的度量。

????2. 所以本論文作者提出了一種全新的矩陣方法來表示兩篇文章的編輯距離。并指出,針對該方法WMD實(shí)現(xiàn)的優(yōu)化問題實(shí)際是EMD距離的一種具體實(shí)例化體現(xiàn)。且,WMD 是個無超參, 高可解釋性的距離計(jì)算方法

????3. 詞嵌入模型Word2Vec?:13年提出,可以通過skip-gram 模型的方式來訓(xùn)練,具體公式為,懶得手打了。。


其中T為文檔中所有單詞的集合(數(shù)), nb(t) 為單詞t的鄰居單詞,即所謂的上下文表示

或者所謂的語義窗口(因?yàn)閣ord2vec的假設(shè)是 語義相近的單詞,在出現(xiàn)位置上也是相近的)

值得注意的是:logp(wj|wt)做了一層層次化的softmax

該論文也指出,word2vec提出的比較早,存在一定的語義理解不到位的問題,建議大家可以試試別的詞嵌入模型(elmo啊等等)。但是對于當(dāng)前論文,word2vec來做基礎(chǔ)數(shù)據(jù),這已經(jīng)夠用了(因?yàn)橛?xùn)練得夠快哈哈哈哈)

????4. WMD:

? ? ? ? ? ? 首先提出nbow(normalized bag-of-words)的表示:簡單來說,即統(tǒng)計(jì)單詞i,? 分別在文檔d中的詞頻概率。生成一個向量空間d, 由于很多詞都不會出現(xiàn)在其他文檔里,所以d應(yīng)該是一個非常稀疏的矩陣。nbow簡單給出了一個詞頻在文檔中的分布,他完全表示不了單詞和單詞間的語義關(guān)系。兩篇語義距離很近的文章,會被nbow錯誤得計(jì)算。

? ? ? ? ? ?單詞距離:論文作者提出了一個目標(biāo),想將納入了語義距離詞嵌入模型中的單詞對來放入文檔距離矩陣中。自然而然的,歐式距離被引進(jìn)來去做單詞對之間的cost計(jì)算

? ? ? ? ? ?文檔距離:單詞距離是建設(shè)文檔距離的基礎(chǔ)。論文做也此處提出一個處理方法為:假設(shè)文章中所有單詞都可以轉(zhuǎn)變?yōu)榱硪黄恼碌乃袉卧~,用一個n*n的矩陣來描述每個單詞i的轉(zhuǎn)變損耗(距離)。所以,整篇文章的距離,應(yīng)該是最小化所有單詞的損耗矩陣之和

? ? ? ? ? ?優(yōu)化或運(yùn)輸問題:面對上述提出的優(yōu)化問題,實(shí)際上正是EMD搬土距離的應(yīng)用

5. WMD的簡化距離計(jì)算

? ? 5.1 快速距離計(jì)算(非WMD)

? ? ? ? 質(zhì)心距離:該距離計(jì)算應(yīng)小于WMD

? ? RWMD(松弛的WMD): 移除了第二個約束條件。具體的優(yōu)化實(shí)現(xiàn)是:遞歸舍棄了所有單詞對應(yīng)著最相似單詞的概率權(quán)重,每一輪只優(yōu)化T*


選取和快速修剪:通過質(zhì)心距離WCD來預(yù)排序文檔,然后精確計(jì)算頭部k篇文章的WMD距離.隨后,我們關(guān)注剩下的文章。對于剩下的每一篇,我們首先去檢驗(yàn)和第k篇文章的RWMD的下界,如果是, 那就舍棄,如果不是,那就計(jì)算一次和第k篇文章的WMD.如果RWMD的估計(jì)值非常緊縮,那么上述處理可以裁剪掉95%及以上的文章。

6. 結(jié)果和證明:

該論文采取了7種不同的baseline( BOW, TFIDF, BM25 OKapi, LSI, LDA, mSDA, CCG)

?6.1 文檔分類

文檔相似度通過knn 決策方式對于分類而言是個非常好的標(biāo)注手段

平均而言,WMD導(dǎo)致了僅有0.42的BOW錯誤率,勝過其他7種手段和方法。

6.2 詞嵌入模型

論文考量了不同的詞嵌入模型對WMD的性能影響

6.3 下界和優(yōu)化剪枝

WMD提升了文檔分類的準(zhǔn)確性,但是他是擁有最慢的矩陣計(jì)算效率。。

7. 貢獻(xiàn)和討論

? WMD矩陣的確使得分類擁有最小的錯誤率,且越好的詞嵌入模型,WMD性能越好。相較于lda, lsi這兩種適用 latent 先驗(yàn)分布的方法,不縮放且未做優(yōu)化的做法可能抵消了大量數(shù)據(jù)的優(yōu)勢。

WMD首個吸引人的特性是他的可解釋性,他可以方便得可視化給人類研究者。另一個吸引點(diǎn)是可以將文檔結(jié)構(gòu)納入了距離計(jì)算中。比如說加入正則懲罰項(xiàng)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容