利用詞嵌入的短文本主題模型（論文閱讀筆記）

李晨亮于2016SIGIR

關(guān)鍵詞：

主題模型、短文本、詞嵌入

目標(biāo)問題：

利用詞嵌入來充實(shí)短文本的主題模型是本文的關(guān)鍵。

本文提出了簡單、快速和有效的短文本主題模型——GPU-DMM。

GPU-DMM基于DMM模型，GPU-DMM模型使用GPU模型通過抽樣過程提高在相同主題的語義相關(guān)詞。

模型（GPU-DMM）：

模型圖解如下：

GPU-DMM overview.png

GPU-DMM模型擴(kuò)展了DMM模型，其在主題推斷過程中通過GPU模型結(jié)合從大語料中訓(xùn)練得到的詞向量。

具體來說：

Gibbs Sampling：在對短文本抽取一個(gè)主題后，GPU-DMM模型提高同一個(gè)主題的語義相關(guān)的詞。即GPU-DMM模型把語義相關(guān)的詞連接起來。
Word Filtering：這個(gè)模型對語義相關(guān)的詞進(jìn)行過濾，只有適當(dāng)?shù)臄U(kuò)展知識才可以被抽取的主題利用。

模型貢獻(xiàn)：

GPU-DMM使用word embeddings作為外部擴(kuò)展知識，既快速又靈活。在英文搜索引擎的片段和中文問答系統(tǒng)的問題中，GPU-DMM發(fā)現(xiàn)更突出的主題，實(shí)現(xiàn)了更好的分類準(zhǔn)確率。具體貢獻(xiàn)如下：

開發(fā)了簡單、快速和有效的短文本主題模型GPU-DMM。該模型通過GPU模型直接使用從大文本語料中訓(xùn)練得到的word embeddings。
通過和其他短文本主題模型對比評價(jià)該模型。發(fā)現(xiàn)該模型在主題一致性、文本分類準(zhǔn)確率和學(xué)習(xí)速度方面有極大的優(yōu)越性。
以經(jīng)驗(yàn)方法研究兩種文檔表達(dá)推理模型的影響。結(jié)果表明，短文檔的詞分布的和更適合文本分類等任務(wù)應(yīng)用。

模型詳解：

對于一個(gè)給定的短文本，GPU-DMM模型首先基于條件概率（類似于DMM模型）抽取一個(gè)主題。然后選擇和這個(gè)主題中最相關(guān)的詞，接著利用GPU模型對這些詞的語義相關(guān)詞進(jìn)行擴(kuò)展。

DMM模型——一個(gè)生成概率模型

假設(shè)：一個(gè)文檔由單個(gè)主題生成。即一個(gè)文檔中的詞由同樣的主題分布生成。

D：短文本語料庫；V：詞匯表大??；K：預(yù)訓(xùn)練好的主題。每個(gè)d只有一個(gè)k。在d中的詞N由k的分布生成。

DMM在生成過程中的隱含變量由吉布斯抽樣估計(jì)。

Auxiliary Word Embedding

利用從大語料學(xué)習(xí)到的詞嵌入能夠極大的提高短文本的主題模型。

通過GPU模型利用詞嵌入

基于于詞共現(xiàn)的主題一致性是主題質(zhì)量的可靠標(biāo)準(zhǔn)

GPU模型：從一個(gè)主題中抽取一個(gè)詞，不僅提高這個(gè)詞的概率，同時(shí)也提高這個(gè)詞語義相關(guān)詞的概率。

本文通過余弦相似度來計(jì)算兩個(gè)詞向量之間的相似度。由此可以構(gòu)建一個(gè)相似矩陣，用來保存詞之間的相似度。這時(shí)使用一個(gè)閾值來過濾不是很相關(guān)的詞對。
詞過濾：短文本中的某些詞的相關(guān)詞和這個(gè)短文本的主題不符。所以需要強(qiáng)制規(guī)定只有這個(gè)文檔中的強(qiáng)語義相關(guān)的詞才可以提高它的語義相關(guān)詞的概率。
模型推理：GPU-DMM和DMM有相同的衍生過程和圖解表示，在主題推理過程不同。
模型復(fù)雜度：GPU-DMM的時(shí)間復(fù)雜度為O(KDl+Dlt+KV)。

實(shí)驗(yàn)：

利用GPU-DMM模型，在兩個(gè)不同語言的真實(shí)短文本數(shù)據(jù)集中進(jìn)行實(shí)驗(yàn)，取得了很好的結(jié)果。在英文搜索引擎的片段和中文問答系統(tǒng)的數(shù)據(jù)庫就主題連貫性和文本分類進(jìn)行評測。

數(shù)據(jù)集

BaiduQA 爬取百度知道的648541條問題，每個(gè)問題都被提問者打上了標(biāo)簽。對數(shù)據(jù)集進(jìn)行預(yù)處理：分詞和去除停用詞。我們?nèi)コ酥话粋€(gè)詞的問題。

Web Snippet 包括12340條網(wǎng)頁搜索片段。這些片段總共包含8類。預(yù)處理如下：全部轉(zhuǎn)化為小寫；去除數(shù)字和停用詞；去除小于3個(gè)詞的文本；去除df小于3的詞；去除一個(gè)文本中的重復(fù)的詞。

dataset.png

實(shí)驗(yàn)步驟

Word Embeddings: 對于Snippet數(shù)據(jù)集，使用從Google News corpus預(yù)訓(xùn)練好的300維詞向量；對于BaiduQA數(shù)據(jù)集，使用爬取的百度百科的700萬數(shù)據(jù)集訓(xùn)練的100維詞向量。如果一個(gè)詞沒有詞向量，則認(rèn)為沒有詞和該詞相關(guān)。

人工實(shí)驗(yàn)決定詞向量相似的閾值。最優(yōu)的閾值依賴于外部語料和訓(xùn)練詞向量的算法。

實(shí)驗(yàn)忽略相關(guān)詞大于20的詞。

關(guān)于詞向量的準(zhǔn)備和本文所述模型獨(dú)立，可線下操作。

方法和參數(shù)設(shè)置：實(shí)驗(yàn)將與四個(gè)已有的主題模型進(jìn)行比較，分別有BTM（Biterm Topic Model）：直接在短文本中訓(xùn)練；SATM（Self-Aggregation based Topic Model）：假設(shè)每個(gè)短文本從文檔集合的長文本中抽取出來；DMM（Dirichlet Multinomial Mixture Model）：假設(shè)每個(gè)文檔僅僅有一個(gè)主題；LF-DMM（Latent Feature model with DMM）：結(jié)合DMM和Word Embeddings。

本文就主題一致性和文本分類準(zhǔn)確率來評價(jià)模型的性能。

主題一致性評價(jià)

短文本分類評價(jià)

基于主題分布的方法：

效率

Figure2.png

Figure3.png

Table3.jpg

Table4.jpg

Table5.jpg

Figure4.png

Table6.jpg

1.摘要：

很多應(yīng)用需要短文本的語義理解。傳統(tǒng)的主題模型極大的依賴于文檔集合中的詞共現(xiàn)來生成主題。

但是短文本就詞共現(xiàn)來說存在極大的稀疏性。數(shù)據(jù)稀疏性成為了提高短文本主題模型結(jié)果的瓶頸。

然而，人類理解短文本的時(shí)候，并不單單基于短文本的內(nèi)容，還依靠其背景知識（語義相關(guān)的詞）。而詞嵌入很好的做到這一點(diǎn)。

2. 背景介紹

常見的短文本：網(wǎng)頁片段、新聞提要、文本廣告、tweets、狀態(tài)更新和問答系統(tǒng)。

常見的用途：用戶興趣分析、話題檢測、評論總結(jié)、文本特征提取和分類。

傳統(tǒng)的主題模型技術(shù)：pLSA和LDA。

主題模型：每個(gè)文檔被表示為一個(gè)關(guān)于主題的多項(xiàng)分布，每個(gè)主題被表示為一個(gè)詞的多項(xiàng)分布。

統(tǒng)計(jì)技術(shù)（如吉布斯采樣）：基于高位詞共現(xiàn)模式，應(yīng)用于識別每個(gè)文檔隱藏的主題分布，每個(gè)主題的詞分布。

由于短文本的詞共現(xiàn)限制，傳統(tǒng)的主題模型技術(shù)出現(xiàn)極大的性能退化。（表現(xiàn)如下：數(shù)據(jù)稀疏阻礙產(chǎn)生有區(qū)別的文檔主題分布，而且結(jié)果缺少語義連貫性）

用來解決短文本數(shù)據(jù)稀疏問題的策略：

把短文本集合成為一個(gè)偽長文檔。缺點(diǎn)是有的文本沒有課獲得的元數(shù)據(jù)。
限制文檔主題分布。如一個(gè)文檔只有一個(gè)主題（一元混合模型和Dirichlet多元混合模型）。
通過利用外部詞共現(xiàn)信息，設(shè)計(jì)一個(gè)新的主題模型。（問題：如果兩個(gè)詞有很強(qiáng)的語義相關(guān)性但是很少在短文本中共現(xiàn)，這個(gè)模型不能完全俘獲兩個(gè)詞的語義相關(guān)性）

利用外部詞匯知識來指導(dǎo)短文本的主題推斷工作：
依賴外部主題詞表
來源于某個(gè)特定領(lǐng)域的文檔的詞匯知識

3. 相關(guān)工作

短文本的主題模型

Phan通過已經(jīng)從維基百科訓(xùn)練好的隱含主題來推測短文本的主題結(jié)構(gòu)。
Jin使用長文本的語義聚類來推測短文本的隱含主題。
DMM模型的假設(shè)：每個(gè)文檔只有一個(gè)隱含主題。Gibbs Sampling算法在DMM中表示在短文本聚類中非常有效。
BTM模型：產(chǎn)生一些共現(xiàn)詞而不是單個(gè)詞。
SATM模型：每個(gè)短文本是一個(gè)偽長文本的片段，所以共享相同的主題。但是比較耗時(shí)。

使用詞嵌入的短文本主題模型

LF-DMM：以DMM的二元混合代替多元分布。
GPU-DMM：GPU模型明顯減少了計(jì)算成本。

——血楓，2016/7/22于楓園一舍。初次發(fā)布文章，歡迎各種批評指點(diǎn)。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Topic Modeling for Short Texts with Auxiliary Word Embeddings

Topic Modeling for Short Texts with Auxiliary Word Embeddings

利用詞嵌入的短文本主題模型（論文閱讀筆記）

關(guān)鍵詞：

目標(biāo)問題：

模型（GPU-DMM）：

模型圖解如下：

模型貢獻(xiàn)：

模型詳解：

實(shí)驗(yàn)：

數(shù)據(jù)集

實(shí)驗(yàn)步驟

主題一致性評價(jià)

短文本分類評價(jià)

效率

1.摘要：

2. 背景介紹

3. 相關(guān)工作

短文本的主題模型

使用詞嵌入的短文本主題模型

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Topic Modeling for Short Texts with Auxiliary Word Embeddings

利用詞嵌入的短文本主題模型（論文閱讀筆記）

關(guān)鍵詞：

目標(biāo)問題：

模型（GPU-DMM）：

模型圖解如下：

模型貢獻(xiàn)：

模型詳解：

實(shí)驗(yàn)：

數(shù)據(jù)集

實(shí)驗(yàn)步驟

主題一致性評價(jià)

短文本分類評價(jià)

效率

1.摘要：

2. 背景介紹

3. 相關(guān)工作

短文本的主題模型

使用詞嵌入的短文本主題模型

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av