利用詞嵌入的短文本主題模型(論文閱讀筆記)
李晨亮 于2016SIGIR
關(guān)鍵詞:
主題模型、 短文本、 詞嵌入
目標(biāo)問題:
利用詞嵌入來充實(shí)短文本的主題模型是本文的關(guān)鍵。
本文提出了簡單、快速和有效的短文本主題模型——GPU-DMM。
GPU-DMM基于DMM模型,GPU-DMM模型使用GPU模型通過抽樣過程提高在相同主題的語義相關(guān)詞。
模型(GPU-DMM):
模型圖解如下:

GPU-DMM模型擴(kuò)展了DMM模型,其在主題推斷過程中通過GPU模型結(jié)合從大語料中訓(xùn)練得到的詞向量。
具體來說:
- Gibbs Sampling:在對短文本抽取一個(gè)主題后,GPU-DMM模型提高同一個(gè)主題的語義相關(guān)的詞。即GPU-DMM模型把語義相關(guān)的詞連接起來。
- Word Filtering:這個(gè)模型對語義相關(guān)的詞進(jìn)行過濾,只有適當(dāng)?shù)臄U(kuò)展知識才可以被抽取的主題利用。
模型貢獻(xiàn):
GPU-DMM使用word embeddings作為外部擴(kuò)展知識,既快速又靈活。在英文搜索引擎的片段和中文問答系統(tǒng)的問題中,GPU-DMM發(fā)現(xiàn)更突出的主題,實(shí)現(xiàn)了更好的分類準(zhǔn)確率。具體貢獻(xiàn)如下:
- 開發(fā)了簡單、快速和有效的短文本主題模型GPU-DMM。該模型通過GPU模型直接使用從大文本語料中訓(xùn)練得到的word embeddings。
- 通過和其他短文本主題模型對比評價(jià)該模型。發(fā)現(xiàn)該模型在主題一致性、文本分類準(zhǔn)確率和學(xué)習(xí)速度方面有極大的優(yōu)越性。
- 以經(jīng)驗(yàn)方法研究兩種文檔表達(dá)推理模型的影響。結(jié)果表明,短文檔的詞分布的和更適合文本分類等任務(wù)應(yīng)用。
模型詳解:
對于一個(gè)給定的短文本,GPU-DMM模型首先基于條件概率(類似于DMM模型)抽取一個(gè)主題。然后選擇和這個(gè)主題中最相關(guān)的詞,接著利用GPU模型對這些詞的語義相關(guān)詞進(jìn)行擴(kuò)展。
DMM模型——一個(gè)生成概率模型
假設(shè):一個(gè)文檔由單個(gè)主題生成。即一個(gè)文檔中的詞由同樣的主題分布生成。
D:短文本語料庫;V:詞匯表大??;K:預(yù)訓(xùn)練好的主題。每個(gè)d只有一個(gè)k。在d中的詞N由k的分布生成。
DMM在生成過程中的隱含變量由吉布斯抽樣估計(jì)。
Auxiliary Word Embedding
利用從大語料學(xué)習(xí)到的詞嵌入能夠極大的提高短文本的主題模型。
通過GPU模型利用詞嵌入
基于于詞共現(xiàn)的主題一致性是主題質(zhì)量的可靠標(biāo)準(zhǔn)
-
GPU模型:從一個(gè)主題中抽取一個(gè)詞,不僅提高這個(gè)詞的概率,同時(shí)也提高這個(gè)詞語義相關(guān)詞的概率。
本文通過余弦相似度來計(jì)算兩個(gè)詞向量之間的相似度。由此可以構(gòu)建一個(gè)相似矩陣,用來保存詞之間的相似度。這時(shí)使用一個(gè)閾值來過濾不是很相關(guān)的詞對。
-
詞過濾:短文本中的某些詞的相關(guān)詞和這個(gè)短文本的主題不符。所以需要強(qiáng)制規(guī)定只有這個(gè)文檔中的強(qiáng)語義相關(guān)的詞才可以提高它的語義相關(guān)詞的概率。
-
模型推理:GPU-DMM和DMM有相同的衍生過程和圖解表示,在主題推理過程不同。
-
模型復(fù)雜度:GPU-DMM的時(shí)間復(fù)雜度為O(KDl+Dlt+KV)。
實(shí)驗(yàn):
利用GPU-DMM模型,在兩個(gè)不同語言的真實(shí)短文本數(shù)據(jù)集中進(jìn)行實(shí)驗(yàn),取得了很好的結(jié)果。在英文搜索引擎的片段和中文問答系統(tǒng)的數(shù)據(jù)庫就主題連貫性和文本分類進(jìn)行評測。
數(shù)據(jù)集
BaiduQA 爬取百度知道的648541條問題,每個(gè)問題都被提問者打上了標(biāo)簽。對數(shù)據(jù)集進(jìn)行預(yù)處理:分詞和去除停用詞。我們?nèi)コ酥话粋€(gè)詞的問題。
Web Snippet 包括12340條網(wǎng)頁搜索片段。這些片段總共包含8類。預(yù)處理如下:全部轉(zhuǎn)化為小寫;去除數(shù)字和停用詞;去除小于3個(gè)詞的文本;去除df小于3的詞;去除一個(gè)文本中的重復(fù)的詞。

實(shí)驗(yàn)步驟
Word Embeddings: 對于Snippet數(shù)據(jù)集,使用從Google News corpus預(yù)訓(xùn)練好的300維詞向量;對于BaiduQA數(shù)據(jù)集,使用爬取的百度百科的700萬數(shù)據(jù)集訓(xùn)練的100維詞向量。如果一個(gè)詞沒有詞向量,則認(rèn)為沒有詞和該詞相關(guān)。
人工實(shí)驗(yàn)決定詞向量相似的閾值。最優(yōu)的閾值依賴于外部語料和訓(xùn)練詞向量的算法。
實(shí)驗(yàn)忽略相關(guān)詞大于20的詞。
關(guān)于詞向量的準(zhǔn)備和本文所述模型獨(dú)立,可線下操作。
方法和參數(shù)設(shè)置:實(shí)驗(yàn)將與四個(gè)已有的主題模型進(jìn)行比較,分別有BTM(Biterm Topic Model):直接在短文本中訓(xùn)練;SATM(Self-Aggregation based Topic Model):假設(shè)每個(gè)短文本從文檔集合的長文本中抽取出來;DMM(Dirichlet Multinomial Mixture Model):假設(shè)每個(gè)文檔僅僅有一個(gè)主題;LF-DMM(Latent Feature model with DMM):結(jié)合DMM和Word Embeddings。
本文就主題一致性和文本分類準(zhǔn)確率來評價(jià)模型的性能。
主題一致性評價(jià)
短文本分類評價(jià)
基于主題分布的方法:
效率







1.摘要:
很多應(yīng)用需要短文本的語義理解。傳統(tǒng)的主題模型極大的依賴于文檔集合中的詞共現(xiàn)來生成主題。
但是短文本就詞共現(xiàn)來說存在極大的稀疏性。數(shù)據(jù)稀疏性成為了提高短文本主題模型結(jié)果的瓶頸。
然而,人類理解短文本的時(shí)候,并不單單基于短文本的內(nèi)容,還依靠其背景知識(語義相關(guān)的詞)。而詞嵌入很好的做到這一點(diǎn)。
2. 背景介紹
常見的短文本:網(wǎng)頁片段、新聞提要、文本廣告、tweets、狀態(tài)更新和問答系統(tǒng)。
常見的用途:用戶興趣分析、話題檢測、評論總結(jié)、文本特征提取和分類。
傳統(tǒng)的主題模型技術(shù):pLSA和LDA。
主題模型:每個(gè)文檔被表示為一個(gè)關(guān)于主題的多項(xiàng)分布,每個(gè)主題被表示為一個(gè)詞的多項(xiàng)分布。
統(tǒng)計(jì)技術(shù)(如吉布斯采樣):基于高位詞共現(xiàn)模式,應(yīng)用于識別每個(gè)文檔隱藏的主題分布,每個(gè)主題的詞分布。
由于短文本的詞共現(xiàn)限制,傳統(tǒng)的主題模型技術(shù)出現(xiàn)極大的性能退化。(表現(xiàn)如下:數(shù)據(jù)稀疏阻礙產(chǎn)生有區(qū)別的文檔主題分布,而且結(jié)果缺少語義連貫性)
用來解決短文本數(shù)據(jù)稀疏問題的策略:
- 把短文本集合成為一個(gè)偽長文檔。缺點(diǎn)是有的文本沒有課獲得的元數(shù)據(jù)。
- 限制文檔主題分布。如一個(gè)文檔只有一個(gè)主題(一元混合模型和Dirichlet多元混合模型)。
- 通過利用外部詞共現(xiàn)信息,設(shè)計(jì)一個(gè)新的主題模型。(問題:如果兩個(gè)詞有很強(qiáng)的語義相關(guān)性但是很少在短文本中共現(xiàn),這個(gè)模型不能完全俘獲兩個(gè)詞的語義相關(guān)性)
利用外部詞匯知識來指導(dǎo)短文本的主題推斷工作: - 依賴外部主題詞表
- 來源于某個(gè)特定領(lǐng)域的文檔的詞匯知識
3. 相關(guān)工作
短文本的主題模型
- Phan通過已經(jīng)從維基百科訓(xùn)練好的隱含主題來推測短文本的主題結(jié)構(gòu)。
- Jin使用長文本的語義聚類來推測短文本的隱含主題。
- DMM模型的假設(shè):每個(gè)文檔只有一個(gè)隱含主題。Gibbs Sampling算法在DMM中表示在短文本聚類中非常有效。
- BTM模型:產(chǎn)生一些共現(xiàn)詞而不是單個(gè)詞。
- SATM模型:每個(gè)短文本是一個(gè)偽長文本的片段,所以共享相同的主題。但是比較耗時(shí)。
使用詞嵌入的短文本主題模型
- LF-DMM:以DMM的二元混合代替多元分布。
- GPU-DMM:GPU模型明顯減少了計(jì)算成本。
——血楓,2016/7/22于楓園一舍。初次發(fā)布文章,歡迎各種批評指點(diǎn)。