Latent Dirichlet Allocation(隱狄利克雷分配模型)——論文翻譯與分析

本文是經(jīng)典論文《Latent Dirichlet Allocation》的翻譯及注解。
Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. J Machine Learning Research Archive, 2003, 3:993-1022.

本文雖然盡可能的講解涉及的外圍知識(shí),但如果有看不懂的地方請(qǐng)點(diǎn)擊“參考”后面的鏈接,進(jìn)行閱讀理解。

強(qiáng)烈建議結(jié)合通俗理解LDA主題模型閱讀本篇內(nèi)容。

本文相當(dāng)長(zhǎng),請(qǐng)做好心理準(zhǔn)備。本文是作者花費(fèi)大量時(shí)間精力整理的原創(chuàng)文檔,謝絕轉(zhuǎn)載。

由于作者水平有限,如有錯(cuò)漏之出,請(qǐng)不吝賜教,非常感謝。

摘要

我們描述潛在的狄利克雷分配(LDA),它是一種用于離散數(shù)據(jù)集合(如文本語(yǔ)料庫(kù))的生成概率模型。 LDA是一個(gè)三層次的貝葉斯模型,其中一個(gè)集合中的每個(gè)項(xiàng)目都被建模為一組潛在的話題(主體)類型的有限混合。反過來(lái),每個(gè)主題都被建模為一組潛在主題概率的無(wú)限混合。 在文本建模的背景下,主題概率提供了文檔的明確表示。我們提出了基于變分方法和經(jīng)驗(yàn)貝葉斯參數(shù)估計(jì)的EM算法的高效近似推理技術(shù)。 我們會(huì)報(bào)告LDA在文檔建模,文本分類和協(xié)作過濾上的實(shí)驗(yàn)結(jié)果,并與一元混合模型( unigrams model)和概率LSI模型相比較。

1 介紹

在本文中,我們考慮建模文本語(yǔ)料庫(kù)和其他離散數(shù)據(jù)集合的問題。我們的目標(biāo)是找到對(duì)一個(gè)集合的成員的簡(jiǎn)短描述,它不僅可以高效處理大型集合,同時(shí)保留對(duì)分類,異常檢測(cè),摘要(概括)以及相似性和相關(guān)性判斷等基本任務(wù)有用的必要統(tǒng)計(jì)關(guān)系。

信息檢索(IR)領(lǐng)域的研究人員已經(jīng)在這個(gè)問題上取得了重大進(jìn)展(Baeza-Yates和Ribeiro-Neto,1999)。IR研究人員為文本語(yǔ)料庫(kù)提出的基本方法 (一種在現(xiàn)代互聯(lián)網(wǎng)搜索引擎中成功部署的方法)將語(yǔ)料庫(kù)中的每個(gè)文檔變?yōu)閷?shí)數(shù)表示的向量,每個(gè)實(shí)數(shù)都表示(詞匯的)計(jì)數(shù)比率。流行的tf-idf方案(Salton和McGill,1983),對(duì)于文集中的每個(gè)文檔選擇了“詞”或“術(shù)語(yǔ)”作為基本單位,并且計(jì)數(shù)由每個(gè)詞的出現(xiàn)次數(shù)。在適當(dāng)?shù)臍w一化之后,將該術(shù)語(yǔ)頻率計(jì)數(shù)與逆向文檔頻率計(jì)數(shù)進(jìn)行比較,該逆向文檔頻率計(jì)數(shù)度量整個(gè)語(yǔ)料庫(kù)中的詞的出現(xiàn)次數(shù)(通常以對(duì)數(shù)刻度,并且再次適當(dāng)標(biāo)準(zhǔn)化)。 最終結(jié)果是文檔術(shù)語(yǔ)矩陣X,其列包含文檔集中每個(gè)文檔的tf-idf值。 因此,tf-idf方案將任意長(zhǎng)度的文檔縮減為固定長(zhǎng)度的數(shù)字列表。

對(duì)tf-idf描述不太明白,可以參考博客:https://blog.csdn.net/zrc199021/article/details/53728499

盡管tf-idf規(guī)約具有一些吸引人的特征 - 特別是(在對(duì)集合中的文檔進(jìn)行區(qū)分的)單詞集合的基本識(shí)別中,但是在(對(duì)文檔的)描述長(zhǎng)度上,該方法并沒有減少多少,并且揭示出很少的文檔內(nèi)或文檔間的統(tǒng)計(jì)結(jié)構(gòu)。為了解決這些缺點(diǎn),IR研究人員提出了其他幾種降維技術(shù),其中最著名的是潛在語(yǔ)義索引(LSI)(Deerwester等,1990)。LSI使用X矩陣的奇異值分解來(lái)標(biāo)識(shí)tf-idf特征空間中的線性子空間,該子空間捕獲集合中的大部分變異數(shù)(variance)。這種方法可以在大型集合中實(shí)現(xiàn)顯著壓縮。此外,Deerwester等人 認(rèn)為L(zhǎng)SI的衍生特征(即原始tf-idf特征的線性組合),可以捕捉基本語(yǔ)言學(xué)概念的某些方面,比如同義詞和多義詞等。

為了證實(shí)關(guān)于LSI的主張,并研究其相對(duì)的優(yōu)缺點(diǎn),開發(fā)文本語(yǔ)料庫(kù)的生成概率模型和研究LSI從數(shù)據(jù)中恢復(fù)生成模型方面的能力是有用的(Papadimitriou et al。,1998)。然而,目前尚不清楚,考慮文本的生成模型的時(shí)候,為什么應(yīng)該采用LSI方法 - (其實(shí))可以嘗試更直接地進(jìn)行,(比如)使用最大似然法或貝葉斯方法將模型與數(shù)據(jù)相匹配(即得到數(shù)據(jù)的模型)。

Hofmann(1999)在這方面邁出了重要的一步,他將LSI的概率LSI(pLSI)模型(也稱為特征模型aspect model)作為L(zhǎng)SI的替代品。我們?cè)诘?.3節(jié)中詳細(xì)描述的pLSI方法將文檔中的每個(gè)單詞作為混合模型中的樣本進(jìn)行建模,其中混合組件是多項(xiàng)隨機(jī)變量,可以將其視為“主題topics”的表示。因此,每個(gè)單詞都是從單個(gè)主題生成的,而文檔中的不同單詞可以從不同的主題生成。每個(gè)文檔都被表示為這些混合組件的混合比例列表,從而將其簡(jiǎn)化為一組固定主題的概率分布。 這種分布是與文檔相關(guān)的“簡(jiǎn)化描述”。

雖然霍夫曼的工作是向文本概率建模邁出的有用的一步,但它并不完整,因?yàn)樗鼪]有提供文檔層面的概率模型。在pLSI中,每個(gè)文檔都被表示為一個(gè)數(shù)字列表(數(shù)字的值是主題的混合比例),并且這些數(shù)字沒有生成概率模型。這導(dǎo)致了幾個(gè)問題:(1)模型中參數(shù)的數(shù)量與語(yǔ)料庫(kù)的大小成線性增長(zhǎng),這導(dǎo)致過度擬合的嚴(yán)重問題;(2)不清楚如何將概率分配給訓(xùn)練集之外的文檔。

要了解如何超越pLSI,讓我們考慮包括LSI和pLSI在內(nèi)的一類降維方法的基本概率假設(shè)。所有這些方法都基于“詞袋”的假設(shè) - 文檔中的單詞順序可以忽略不計(jì)。此外,盡管不經(jīng)常正式說明,但這些方法也假定文檔是可相互交換的; 文集中文檔的具體排序也可以忽略不計(jì)。

受益于Finetti(1990),一個(gè)經(jīng)典表示理論認(rèn)為:任何可交換隨機(jī)變量的集合都具有混合分布(通常是無(wú)限混合)的表示。因此,如果我們想考慮文件和單詞的可交換表示,我們需要考慮能捕獲單詞和文檔的可交換性的混合模型。這一思路促使我們?cè)诋?dāng)前論文中提出潛在狄利克雷分配(LDA)模型。

需要強(qiáng)調(diào)的是,可交換性的假設(shè)并不等同于隨機(jī)變量獨(dú)立同分布的假設(shè)。相反,可交換性本質(zhì)上可以被解釋為“條件獨(dú)立且分布相同”,其中的條件是與概率分布的潛在隱參數(shù)有關(guān)的。在一定條件下,隨機(jī)變量的聯(lián)合分布是簡(jiǎn)單的,但如果圍繞隱參數(shù)考慮,聯(lián)合分布可能相當(dāng)復(fù)雜。因此,雖然可交換性的假設(shè)是文本建模領(lǐng)域的一個(gè)主要的簡(jiǎn)化假設(shè),并且其主要理由是它是一種會(huì)導(dǎo)致計(jì)算效率較高的方法,但可交換性假設(shè)對(duì)簡(jiǎn)單頻率的計(jì)數(shù)或線性操作并不是一個(gè)必要的條件。在當(dāng)前的論文中,我們的目標(biāo)是,通過認(rèn)真考慮de Finetti定理,可以通過混合分布獲取重要的文檔內(nèi)統(tǒng)計(jì)結(jié)構(gòu)。

同樣值得注意的是,可交換性的基本概念有大量的總結(jié)概括,包括各種形式的部分可交換性,并且上面提到的表示法也可用于部分可交換的情況(Diaconis,1988)。因此,雖然我們?cè)诋?dāng)前論文中討論的工作集中在簡(jiǎn)單的“詞袋”模型上(這表現(xiàn)為單個(gè)單詞(unigrams)的混合分布),但我們的方法也適用于涉及較大結(jié)構(gòu)混合的更豐富的模型,如n-grams或段落。

本文的結(jié)構(gòu)如下: 在第2節(jié)中,我們介紹基本的表示法和術(shù)語(yǔ)。 LDA模型在第3節(jié)中介紹,并與第4節(jié)中的相關(guān)潛變量模型進(jìn)行比較。我們?cè)诘?節(jié)討論LDA的推理和參數(shù)估計(jì)。第6節(jié)提供了LDA擬合數(shù)據(jù)的一個(gè)說明性例子。文本建模,文本分類和協(xié)作過濾的實(shí)驗(yàn)結(jié)果在第7節(jié)中給出。最后,第8節(jié)給出我們的結(jié)論。

2 表示法和術(shù)語(yǔ)

我們?cè)谡撐闹惺褂?strong>文本集合的說法,指的是諸如“單詞”,“文檔”和“語(yǔ)料庫(kù)”等實(shí)體。這很有用,因?yàn)樗兄谥笇?dǎo)靠直覺來(lái)感知的知識(shí)的處理(intuition),特別是當(dāng)我們引入旨在捕捉抽象概念(如主題)的潛在變量時(shí)(潛在變量和隱變量說的是一回事)。然而,需要指出的是,LDA模型不一定與文本相關(guān),并且可應(yīng)用于涉及數(shù)據(jù)集合的其他問題,包括來(lái)自諸如協(xié)同過濾,基于內(nèi)容的圖像檢索和生物信息學(xué)等領(lǐng)域的數(shù)據(jù)。 事實(shí)上,在7.3節(jié)中,我們將呈現(xiàn)在協(xié)同過濾領(lǐng)域的實(shí)驗(yàn)結(jié)果。

在形式上,我們定義下列術(shù)語(yǔ):
? 單詞是離散數(shù)據(jù)的基本單位,假設(shè)有一個(gè)V個(gè)詞組成的詞匯表(詞典),索引通過{1......V}表示,里面每一項(xiàng)代表一個(gè)單詞。我們使用單位向量表示單詞,它里面一項(xiàng)等于1其他項(xiàng)等于零。我們使用上標(biāo)來(lái)表示第幾個(gè)成分,因此第v個(gè)詞在V維向量w中表示為:wv = 1 and wu = 0 for u ≠ v
? 文檔中的詞來(lái)自一個(gè)包含N個(gè)詞的詞典,一個(gè)文檔可以表示成N個(gè)詞組成的序列,可以表示為w = (w1,w2......wN),下標(biāo)表示第幾個(gè)詞。(注意,每個(gè)詞用一個(gè)V維的向量表示,每篇文檔有最多有N個(gè)不同的詞,不要搞混了)
? 一個(gè)語(yǔ)料庫(kù)是含有M個(gè)文檔的集合,用D = (w1,w2......wM)----注意有加粗

我們希望找到一個(gè)語(yǔ)料庫(kù)的概率模型,它不僅為語(yǔ)料庫(kù)成員分配高概率,而且為其他“類似”文檔分配高概率。(意思就是說,語(yǔ)料庫(kù)中某一文檔的某個(gè)topic概率比較高,那么測(cè)試相似文檔。也能得到相同的概率分布)

3 隱狄利克雷分配模型

隱在狄利克雷分配(LDA)是語(yǔ)料庫(kù)的生成概率模型。 其基本思想是文檔被表示為潛在主題的隨機(jī)混合,每個(gè)主題都是有不同的文字(詞)分布特征的。

LDA為語(yǔ)料庫(kù)D中的每個(gè)文檔w假定以下生成過程:

  1. 選擇N?泊松(ξ),即假設(shè)詞典中的詞服從泊松分布;

  2. 選擇θ?Dir(α),即假設(shè)θ服從參數(shù)為α的狄利克雷分布,θ本身認(rèn)為是一個(gè)多項(xiàng)式分布。θt表示文檔t中所包含的每個(gè)話題的比例,它是文檔t的主題分布,是個(gè)向量。

  3. 對(duì)于N中的每個(gè)詞wn(對(duì)于每篇分檔中的第n個(gè)詞的處理):
    (a) 根據(jù)θt進(jìn)行話題指派,得到文檔t中詞n的話題zt,n,即從文檔中的主題分布采樣詞n的主題zn;
    (b) 然后根據(jù)指派的主題所對(duì)應(yīng)的詞分布中采樣出詞wn(每個(gè)主題有各自的詞分布,詞分布同樣是多項(xiàng)分布,服從Dirichlet分布,參數(shù)為β)。
    重復(fù)上述過程,直到M篇文檔都完成。

“主題”也常稱為“話題”

在這個(gè)基本模型中做了幾個(gè)簡(jiǎn)化的假設(shè),其中一些我們?cè)诤竺娴恼鹿?jié)中會(huì)刪除。首先,Dirichlet分布的維度k(以及主題變量z的維度)被假定為已知并且是固定的。其次,單詞概率通過k×V矩陣β進(jìn)行參數(shù)化,其中βij = p(w j = 1 | zi = 1)(猜測(cè):它表示在某個(gè)主題中索引為i的詞出現(xiàn)的條件下,文檔中第j個(gè)詞出現(xiàn)的概率),現(xiàn)在我們將其視為待估計(jì)的固定量。最后,泊松假設(shè)對(duì)隨后的任何事情都不是關(guān)鍵的,并且可以根據(jù)需要使用更真實(shí)的文檔長(zhǎng)度分布。此外,請(qǐng)注意,N與所有其他數(shù)據(jù)生成變量(θ和z)無(wú)關(guān)。 因此它是一個(gè)輔助變量,我們通常會(huì)忽略它在隨后發(fā)展中的隨機(jī)性。

z表示主題向量,k是主題的個(gè)數(shù)

一個(gè)k維Dirichlet隨機(jī)變量θ可以從(k ? 1)-simplex(單形或單純形)中取值,并且在這個(gè)單純形中有以下概率密度:


在幾何中,單形是將三角形或四面體概念推廣到任意維的概念。具體來(lái)說,k單形是一個(gè)k維多面體,它是k + 1個(gè)頂點(diǎn)的凸包。形式化的說,如果k + 1個(gè)點(diǎn)是仿射無(wú)關(guān)的,那么單形用這些點(diǎn)來(lái)定義的話,符合以下集合:



用圖形來(lái)看可能更直觀


一個(gè)常規(guī)3-單形或叫四面體

對(duì)于一組向量,如果其中任一向量都不能被其他向量仿射組合而成則稱仿射無(wú)關(guān)或者線性獨(dú)立。更詳細(xì)解釋,請(qǐng)參考這篇博客https://blog.csdn.net/hqh45/article/details/49591403

α參數(shù)是一個(gè)k維向量,并且α的每一項(xiàng)都滿足αi > 0,另外Γ(x)是伽馬函數(shù)。狄利克雷分布在單形(屬于指數(shù)族)上是一種實(shí)用的分布,具有有限維數(shù)的充分統(tǒng)計(jì)量,并且與多項(xiàng)分布共軛。

在機(jī)器學(xué)習(xí)領(lǐng)域中,常用概率模型來(lái)對(duì)問題進(jìn)行建模,有幾點(diǎn)好處:1)當(dāng)給定參數(shù)分布的假設(shè)空間后,可以通過很嚴(yán)格的數(shù)學(xué)推導(dǎo),得到模型的似然分布,這樣模型可以有很好的概率解釋;2)可以利用現(xiàn)有的EM算法或者Variational method來(lái)學(xué)習(xí)。通常為了方便推導(dǎo)參數(shù)的后驗(yàn)分布,會(huì)假設(shè)參數(shù)的先驗(yàn)分布是似然的某個(gè)共軛分布,這樣后驗(yàn)分布和先驗(yàn)分布具有相同的形式,這對(duì)于建模過程中的數(shù)學(xué)推導(dǎo)可以大大的簡(jiǎn)化,保證最后的形式是tractable。
先介紹一個(gè)概念——共軛先驗(yàn)(Conjugate Prior)。在貝葉斯統(tǒng)計(jì)理論中,如果某個(gè)隨機(jī)變量Θ的后驗(yàn)概率 p(θ|x)和先驗(yàn)概率p(θ)屬于同一個(gè)分布簇,那么稱p(θ|x)和p(θ)為共軛分布,同時(shí),也稱p(θ)為似然函數(shù)p(x|θ)的共軛先驗(yàn)。
通過數(shù)學(xué)推導(dǎo)可以證明狄利克雷分布和多項(xiàng)式分布共軛。話句話說,可以證明狄利克雷分布是多項(xiàng)式分布的共軛先驗(yàn)概率分布。
參考:https://www.cnblogs.com/wybang/p/3206719.html
https://www.cnblogs.com/yutingliuyl/p/7064997.html

在第5節(jié)中,這些屬性將有助于開發(fā)LDA的推理和參數(shù)估計(jì)算法。

給定參數(shù)α和β,主題混合分布θ、主題z和文檔w的聯(lián)合分布為:

圖1,LDA的盤式記法圖。 這些框是代表可以不斷重復(fù)操作的“盤”。 外盤代表文件,而內(nèi)盤代表文件中主題和詞語(yǔ)的重復(fù)選擇。

其中,p(zn | θ)表示的是主題分布為θ的情況下,從某篇文檔w中采樣得到詞n的主題zn的概率,對(duì)于一個(gè)詞匯,若出現(xiàn)在主題zn中,則zni = 1,對(duì)θ進(jìn)行積分并在z上求和,我們得到文檔的邊際分布:

邊際分布亦稱“邊緣分布”。邊緣分布(Marginal Distribution)指在概率論統(tǒng)計(jì)學(xué)的多維隨機(jī)變量中,只包含其中部分變量的概率分布。


參考:https://baike.baidu.com/item/%E8%BE%B9%E7%BC%98%E5%88%86%E5%B8%83/15571865?fr=aladdin

上式表示給定參數(shù)α和β的條件下,文檔的概率分布。

最后,利用單個(gè)文檔邊際概率的乘積,得到一個(gè)語(yǔ)料庫(kù)的概率分布:


LDA模型在圖1中表示為概率圖模型。如圖所示,LDA表示有三個(gè)層次。參數(shù)α和β是語(yǔ)料庫(kù)層面的參數(shù),假設(shè)在生成語(yǔ)料庫(kù)的過程中抽樣一次得到。 變量θd是文檔級(jí)變量,每個(gè)文檔采樣一次。 最后,變量zdn和wdn是字(詞)級(jí)變量,并針對(duì)每個(gè)文檔中的每個(gè)單詞采樣一次。

zdn表示第d篇文檔中第n個(gè)詞的主題,wdn表示第d篇文檔中的第n個(gè)詞。注意不是原文檔,而是文檔的向量化表示之后的w。

區(qū)分LDA和簡(jiǎn)單的Dirichlet多項(xiàng)式聚類模型很重要。 經(jīng)典的聚類模型會(huì)涉及到一個(gè)兩層模型:其中,一個(gè)Dirichlet為一個(gè)語(yǔ)料庫(kù)抽樣一次,一個(gè)多項(xiàng)式聚類變量為語(yǔ)料庫(kù)中的每個(gè)文檔選擇一次,并且以聚類變量為條件,為文檔選擇一組詞語(yǔ) 。與許多聚類模型一樣,這種模型將文檔限制為與單個(gè)主題相關(guān)聯(lián)。另一方面,LDA涉及三個(gè)層次,特別是主題節(jié)點(diǎn)在文檔中被重復(fù)采樣。在這種模式下,文檔可以與多個(gè)主題相關(guān)聯(lián)。

圖1所示類似結(jié)構(gòu)通常在貝葉斯統(tǒng)計(jì)建模中研究,它們被稱為分層模型(Gelman等,1995),或者更準(zhǔn)確地說,是條件獨(dú)立的分層模型(Kass和Steffey,1989)。這種模型通常也被稱為參數(shù)經(jīng)驗(yàn)貝葉斯模型(parametric empirical Bayes models),這個(gè)術(shù)語(yǔ)不僅指特定的模型結(jié)構(gòu),而且還指用于估計(jì)模型參數(shù)的方法(Morris,1983)。事實(shí)上,正如我們?cè)诘?節(jié)中討論的那樣,我們采用經(jīng)驗(yàn)貝葉斯方法來(lái)估計(jì)一個(gè)LDA簡(jiǎn)單實(shí)現(xiàn)中的參數(shù)(比如,α和β等),但我們也考慮了更充分的貝葉斯方法。

3.1 LDA和可交換性

如果聯(lián)合分布對(duì)于置換是不變的,那么一個(gè)有限的隨機(jī)變量集{z1......zN}被認(rèn)為是可交換的。 如果π(此π非彼π)表示某種整數(shù)從1到N的置換規(guī)則,則:

p(z1......zN) = p(zπ(1)......zπ(N))

如果每個(gè)有限的子序列是可交換的,則無(wú)限序列的隨機(jī)變量是無(wú)限可交換的。

De Finetti的表示定理指出,隨機(jī)變量的無(wú)限可交換序列的聯(lián)合分布就好像從一些分布中抽取的一個(gè)隨機(jī)參數(shù),以該參數(shù)為條件,所討論的隨機(jī)變量是獨(dú)立同分布的。

在LDA中,我們假設(shè)單詞是由主題(通過固定的條件分布)生成的,而且這些主題在文檔中是無(wú)限可交換的。根據(jù)菲內(nèi)蒂定理,一組詞匯和話題的概率必須具有以下這種形式:



θ是關(guān)于主題的多項(xiàng)式的隨機(jī)參數(shù)。通過邊緣化主題變量并賦予θ狄利克雷分布,在公式(3)中,我們獲得了文檔的LDA分布。

邊緣化是一種方法,它要求對(duì)一個(gè)變量的可能值求和,以確定另一個(gè)變量的邊緣貢獻(xiàn)。在這里對(duì)主題變量θ進(jìn)行累加求和,則拿到的就是其他變量的邊緣貢獻(xiàn)。
參考:http://baijiahao.baidu.com/s?id=1591331715705872783&wfr=spider&for=pc

3.2 一元模型(unigrams)的連續(xù)混合

unigram 一元分詞,把句子分成一個(gè)一個(gè)的漢字
bigram 二元分詞,把句子從頭到尾每?jī)蓚€(gè)字組成一個(gè)詞語(yǔ)
trigram 三元分詞,把句子從頭到尾每三個(gè)字組成一個(gè)詞語(yǔ)

圖1所示的LDA模型比傳統(tǒng)分層貝葉斯文獻(xiàn)中經(jīng)常研究的兩層模型要復(fù)雜得多。然而,通過邊緣化隱藏的主題變量z,我們可以將LDA理解為兩層模型。

特別是,讓我們來(lái)構(gòu)造單詞分布p(w|θ,β):



請(qǐng)注意,這是一個(gè)隨機(jī)量,因?yàn)樗Q于θ。

我們現(xiàn)在為文檔w定義下面的生成過程:(對(duì)每篇文檔)

  1. 選擇θ ~ Dir(α),即選擇一個(gè)服從狄利克雷分布的θ;
  2. 對(duì)于N中的每個(gè)詞wn:
    (a) 從p(wn | θ,β)中得到wn的值。

該過程將文檔的邊際分布定義為連續(xù)混合分布:(注意下式表示的是語(yǔ)料庫(kù),而非一篇文檔 的分布)


其中,p(wn | θ,β)是混合成分,p(θ | α)是混合權(quán)重。

混合分布,參考:https://blog.csdn.net/jasonding1354/article/details/43702125

圖2說明了LDA的這種解釋。 它描繪了LDA模型的一個(gè)特定實(shí)例引發(fā)的p(w| θ,β)的分布。請(qǐng)注意,在(V-1) - simplex中的這種分布僅通過k + kV個(gè)參數(shù)實(shí)現(xiàn),但展現(xiàn)出非常有趣的多模式結(jié)構(gòu)。


圖2,本例子展示了LAD方法,對(duì)3個(gè)單詞和4個(gè)主題的一元分布p(w| θ,β)產(chǎn)生的密度圖示。嵌入x-y平面中的三角形是代表三個(gè)單詞上所有可能的多項(xiàng)分布的二維單純形。三角形的每個(gè)頂點(diǎn)對(duì)應(yīng)于一個(gè)確定分布,它逐個(gè)賦予每個(gè)單詞概率; 邊緣的中點(diǎn)給出兩個(gè)單詞各0.5的概率; 三角形的質(zhì)心是所有三個(gè)詞的均勻分布。用x標(biāo)記的四個(gè)點(diǎn)是四個(gè)主題中每個(gè)主題的多項(xiàng)式分布p(w | z)的位置,單純形頂部顯示的外觀是, LDA給出的(V-1) - 單純形(詞的多項(xiàng)分布)上的一個(gè)密度表示的例子。

4 與其他潛在(latent)變量模型的關(guān)系

在本節(jié)中,我們將LDA與文本的簡(jiǎn)單潛(隱)變量模型(一元模型,一元模型的混合模型和pLSI模型)進(jìn)行比較。 此外,我們提出了這些模型的統(tǒng)一幾何解釋,突出了它們的主要區(qū)別和相似之處。


圖3:離散數(shù)據(jù)的不同模型的圖形模型化表示。

4.1 一元模型( Unigram model)

在一元模型下,每個(gè)文檔的單詞都是獨(dú)立的按照某個(gè)多項(xiàng)分布而繪制的,生成文檔的概率為:


這在圖3a中的圖形模型中進(jìn)行了說明。p(wn)表示wn的先驗(yàn)概率,w = (w1......wN)。

Unigram Model 中假設(shè)了文檔之間是獨(dú)立可交換的,而文檔中的詞也是獨(dú)立可交換的,所以一篇文檔相當(dāng)于一個(gè)袋子,里面裝了一些詞,而詞的順序信息就無(wú)關(guān)緊要了,這樣的模型也稱為詞袋模型(Bag-of-words),有的地方也直接稱 Unigram Model為詞袋模型。大家想要判斷兩篇文檔是否相似,最簡(jiǎn)單直接的方法就是看文檔里出現(xiàn)的詞是否一樣,其個(gè)數(shù)是否相近。于Unigram Model(詞袋模型)就是實(shí)現(xiàn)這樣的思路設(shè)計(jì)的
一元模型最簡(jiǎn)單的一個(gè)例子:
1 上帝找到一個(gè)V面的骰子,然后利用它來(lái)進(jìn)行投擲生成文檔。
2 每投擲一次骰子便得到一個(gè)詞匯,重復(fù)N次,便得到一篇文檔
3 重復(fù)第二步M次,便得到了M篇文檔
其中V是詞匯量的個(gè)數(shù),N是每篇文檔的單詞個(gè)數(shù),M代表所有文檔的個(gè)數(shù)。
參考:https://blog.csdn.net/pipisorry/article/details/42560693
https://blog.csdn.net/suibianti/article/details/60754999
https://blog.csdn.net/zhazhiqiang/article/details/21186353

4.2 混合一元模型(Mixture of unigrams)

如果我們用一個(gè)離散的隨機(jī)主題變量z(圖3b)來(lái)擴(kuò)充一元模型,我們就可以得到一個(gè)混合一元模型(Nigam et al.,2000)。在這個(gè)混合模型下,首先選擇一個(gè)主題z,然后從條件多項(xiàng)式p(w | z)獨(dú)立的生成N個(gè)單詞,從而生成每個(gè)文檔(該文檔中的所有詞都來(lái)自一個(gè)主題)。一篇文檔的概率分布:



在每個(gè)文檔僅顯示一個(gè)主題的假設(shè)背景下,當(dāng)從語(yǔ)料庫(kù)做概率估計(jì)時(shí),可以將詞語(yǔ)分布視為主題的表示。正如第7節(jié)的實(shí)證結(jié)果所示,這種假設(shè)通常限制性太強(qiáng),以至于無(wú)法有效地建模量大的文獻(xiàn)。

相反,LDA模型允許文檔在不同程度上展示多個(gè)主題。這是以(增加)一個(gè)額外參數(shù)為代價(jià)實(shí)現(xiàn)的:在混合一元模型中有與p(z)相關(guān)的參數(shù)有k-1個(gè),而在LDA中與p(θ | α)有關(guān)的參數(shù)有k個(gè)。

4.3 概率潛在語(yǔ)義索引

概率潛在語(yǔ)義索引(pLSI)是另一個(gè)廣泛使用的文檔模型(Hofmann,1999)。 如圖3c所示,給定了未知的主題z,pLSI模型假設(shè)文檔標(biāo)簽d和單詞wn是條件獨(dú)立的:


pLSI模型試圖放寬混合一元模型中,每個(gè)文檔僅由一個(gè)主題生成的簡(jiǎn)化假設(shè)。從某種意義上說,它確實(shí)捕捉到一個(gè)文檔可能包含多個(gè)主題的可能性,使用p(z | d)充當(dāng)一個(gè)特定文檔d的主題的混合權(quán)重。但是,需要注意的是,d是訓(xùn)練集中文檔列表中的虛擬索引(dummy index)。因此,d是一個(gè)多項(xiàng)式隨機(jī)變量,d的取值多少和訓(xùn)練集中文檔數(shù)量正相關(guān),模型只能為訓(xùn)練集上的文檔學(xué)的混合權(quán)重p(z | d)。出于這個(gè)原因,pLSI不是一個(gè)良好定義的文檔生成模型,它沒有辦法將概率分配給訓(xùn)練集之外的文檔。

使用pLSI的另一個(gè)困難(也是來(lái)自于通過訓(xùn)練文檔進(jìn)行索引的分布的使用)是必須估計(jì)的參數(shù)數(shù)量與訓(xùn)練文檔的數(shù)量呈線性增長(zhǎng)。k-主題pLSI模型的參數(shù)是在k個(gè)未知主題上,V和M混合大小的k個(gè)多項(xiàng)式分布。這給出了kV + kM個(gè)參數(shù),因此在M中線性增長(zhǎng)。參數(shù)的線性增長(zhǎng)表明該模型容易出現(xiàn)過度擬合,并且根據(jù)經(jīng)驗(yàn)確定,過擬合確實(shí)是一個(gè)嚴(yán)重的問題(參見第7.1節(jié))。在實(shí)踐中,使用回火試探來(lái)平滑模型的參數(shù)以獲得可接受的預(yù)測(cè)性能。 然而,已經(jīng)表明,即使在使用回火時(shí)也可能發(fā)生過度擬合(Popescul et al.,2001)。

LDA通過將主題混合權(quán)重視為一個(gè)k個(gè)參數(shù)的隱藏的隨機(jī)變量,而不是大量與訓(xùn)練集明確關(guān)聯(lián)的單個(gè)參數(shù),來(lái)克服這兩個(gè)問題。如第3節(jié)所述,LDA是一個(gè)良好定義的生成模型,可輕松推廣到新文檔。此外,k-topic LDA模型中的k + kV個(gè)參數(shù)不會(huì)隨著訓(xùn)練語(yǔ)料庫(kù)的大小而增長(zhǎng)。我們將在7.1節(jié)看到,LDA不會(huì)遇到與pLSI相同的過度擬合問題。

pLSI資料參考:https://blog.csdn.net/m0_37788308/article/details/78115378

4.4 一個(gè)幾何解釋

說明LDA和其他潛在主題模型之間差異的一種好方法是考慮潛在空間的幾何形狀,并了解每個(gè)模型下文檔在該幾何體中的表示方式。

潛在空間(latent space)的解釋,下面列出Quora上的回答,我認(rèn)為說的比較好:The word “l(fā)atent” means “hidden”. It is pretty much used that way in machine learning — you observe some data which is in the space that you can observe, and you want to map it to a latent space where similar data points are closer together.
For instance, consider these 4 images:


In the pixel space that you observe(一般的圖像處理方法,大都考慮的像素這一維度), there is no immediate similarity between any two images. However, if you were to map it to a latent space, you would want the images on the left to be closer to each other in the latent space than to any of the images on the right. (椅子更靠近椅子,而非桌子)So your latent space captures the structure of your data w.r.t(with regard to with reference to 關(guān)于的意思) your task.
In LDA, you model the task in a way that documents belonging to similar topics are closer in the latent space of topics.
In word embeddings, you want to map words to a latent vector space such that words with similar meaning are closer in that space.
更簡(jiǎn)潔的說:The "Latent Space" is the vector space within which the vectors that make up the topics found by LDA are found. These topics are latent within the text - that is, they are not immediately apparent, but are found or discovered by the LDA algorithm. In the same way, the vector space within which they reside is latent, or waiting, to be populated.
因?yàn)槎际且恍┖?jiǎn)單的英語(yǔ)句子,我就不翻譯了,相信大家都可以看懂。

上述所有四種模型(unigram, mixture of unigrams, pLSI, and LDA)都是在單詞分布空間中進(jìn)行操作的。每個(gè)這樣的分布可以被看作是(V-1) - simplex上的一個(gè)點(diǎn),我們稱之為詞單純形(the word simplex)。

一元模型在詞單純形上找到一個(gè)單一的點(diǎn),并假定文集中的所有單詞來(lái)自相應(yīng)的分布。潛變量模型考慮詞單純形上的k個(gè)點(diǎn),并根據(jù)這些點(diǎn)構(gòu)成子單形體,我們稱之為主題單純形。請(qǐng)注意,主題單純形上的任何一點(diǎn)也是單詞單純形上的一個(gè)點(diǎn)。不同的潛在變量模型以不同的方式使用主題單純形來(lái)生成文檔。


圖4,以三個(gè)詞為例,這三個(gè)詞的主題單純形是嵌入在詞單純形內(nèi)的。詞單純形的角部對(duì)應(yīng)于三個(gè)分布,其中每個(gè)詞在這里(分別)具有概率1。主題單純形的三點(diǎn)對(duì)應(yīng)于詞的三種不同分布。混合一元模型將每個(gè)文檔放在主題單純形的一個(gè)角落。pLSI模型引發(fā)了由x表示的主題單純形的經(jīng)驗(yàn)分布。LDA在由等高線表示的主題單純形上進(jìn)行平滑分布。

? 混合一元模型假設(shè),對(duì)于每個(gè)文檔,詞單純形中的k個(gè)點(diǎn)(即,主題單純形的那些角中的一個(gè))中的一個(gè)一旦隨機(jī)選擇后,文檔的所有單詞都從對(duì)應(yīng)于那一點(diǎn)的分布中獲取。

? pLSI模型假定訓(xùn)練文檔的每個(gè)單詞來(lái)自隨機(jī)選擇的主題。這些主題本身來(lái)自于文檔在主題上的特征分布,也就是主題單純形上的一個(gè)角點(diǎn)。每個(gè)文件有一個(gè)這樣的分布,訓(xùn)練文檔集因此定義了關(guān)于主題單純形的經(jīng)驗(yàn)分布。

? LDA假定觀察到的(訓(xùn)練集)和未看到的(驗(yàn)證集)文檔中的每個(gè)詞都是由隨機(jī)選擇的主題生成的,該主題是從具有一個(gè)隨機(jī)選擇參數(shù)的分布中抽取的。 從主題單純形的平滑分布中,每個(gè)文檔對(duì)此參數(shù)進(jìn)行一次采樣。

這些差異在圖4中突出顯示。

5. 推理和參數(shù)估計(jì)

我們描述了使用LDA背后的動(dòng)機(jī),并說明了其與其他潛在主題模型相比的概念優(yōu)勢(shì)。在本節(jié)中,我們將注意力轉(zhuǎn)向LDA下的推理和參數(shù)估計(jì)。


左邊是LDA的圖解模型,右邊是變化的分布對(duì)LDA后驗(yàn)的近似的表示

5.1 推理

為了使用LDA我們需要解決的關(guān)鍵推理問題是計(jì)算給定文檔的隱藏變量的后驗(yàn)分布:

先驗(yàn)分布:與試驗(yàn)結(jié)果無(wú)關(guān),或與隨機(jī)抽樣無(wú)關(guān),反映在進(jìn)行統(tǒng)計(jì)試驗(yàn)之前根據(jù)其他有關(guān)參數(shù)口的知識(shí)而得到的分布。在抽取樣本X之前,人們對(duì)所要估計(jì)的未知參數(shù)θ所了解的信息,通常稱為先驗(yàn)信息。先驗(yàn)分布是總體分布參數(shù)θ的一個(gè)概率分布。
后驗(yàn)分布:在抽取樣本X之前,人們對(duì)未知參數(shù)θ有個(gè)了解,即先驗(yàn)分布P(θ)。抽取樣本X,得到樣本信息,即似然函數(shù)P(X|θ),由于樣本中包含未知參數(shù)θ的信息,所以樣本信息可以修正抽樣之前的先驗(yàn)分布P(θ)。P(θ|X)為參數(shù)θ的后驗(yàn)分布,即抽樣加入新的信息后,對(duì)先驗(yàn)分布P(θ)進(jìn)行修正,后驗(yàn)分布綜合運(yùn)用了先驗(yàn)分布P(θ)和樣本信息P(X|θ)。
參考:https://blog.csdn.net/xbmatrix/article/details/63253177


不幸的是,這種分布通常難以計(jì)算。 實(shí)際上,為了規(guī)范化分布,我們將忽視隱藏變量并根據(jù)模型參數(shù)重寫方程(3):



這是一個(gè)由于在潛在主題的總和中θ和β之間的耦合,而難以處理的函數(shù)(Dickey,1983)。Dickey表示這個(gè)函數(shù)是在Dirichlet分布的特定擴(kuò)展下的期望,可以用特殊的超幾何函數(shù)表示。它在貝葉斯環(huán)境中可用于刪除(或?qū)彶?,censored 暫時(shí)不明白怎么翻譯)離散數(shù)據(jù),以表示θ的后驗(yàn)(在該設(shè)置中,θ是隨機(jī)參數(shù))(Dickey等,1987)。

盡管后驗(yàn)分布對(duì)于精確推斷是難以處理的,但是對(duì)于LDA可以考慮各種各樣的近似推理算法,包括拉普拉斯近似,變分近似和馬爾可夫鏈蒙特卡羅(Jordan,1999)。在本節(jié)中,我們描述了一個(gè)簡(jiǎn)單的基于凸性的變分算法,用于推斷LDA,并討論了第8節(jié)中的一些替代方案。

5.2 變分推斷

變分推斷的概念參考:https://www.cnblogs.com/yifdu25/p/8181185.html

基于凸性的變分推理的基本思想是利用Jensen不等式來(lái)獲得對(duì)數(shù)似然的可調(diào)下界(Jordan et al。,1999)。本質(zhì)上,人們考慮一系列下界,它們由一組變分參數(shù)索引。變分參數(shù)由優(yōu)化程序選擇,該程序試圖找到最可能的下限。

獲得易處理的下界族的簡(jiǎn)單方法是考慮原始圖形模型的簡(jiǎn)單修改,原始圖形模型中一些邊和節(jié)點(diǎn)已被移除。特別考慮圖5(左)中所示的LDA模型。 θ和β之間的有問題的耦合是由于θ,z和w之間的邊界而產(chǎn)生的。 通過丟棄這些邊和w節(jié)點(diǎn),并賦予所得到的簡(jiǎn)化圖形模型以及自由變分參數(shù),我們獲得了潛在變量的一個(gè)分布族。這個(gè)分布族以下面這個(gè)變分分布為特征:


其中Dirichlet參數(shù)γ和多項(xiàng)參數(shù)(Φ1...ΦN)是自由變分參數(shù)。

已經(jīng)指定了簡(jiǎn)化的概率分布族,下一步是建立一個(gè)確定變分參數(shù)γ和Φ的值的優(yōu)化問題。 正如我們?cè)诟戒汚中所示,找到對(duì)數(shù)似然的緊密下界的期望直接轉(zhuǎn)化為以下優(yōu)化問題:



因此,通過最小化變分分布和真實(shí)后驗(yàn)p(θ, z | w,α,β)之間的KullbackLeibler(KL)發(fā)散來(lái)找到變分參數(shù)的優(yōu)化值。這種最小化可以通過迭代定點(diǎn)方法實(shí)現(xiàn)。 特別是,我們?cè)诟戒汚.3中表明,通過計(jì)算KL散度的導(dǎo)數(shù)并將它們?cè)O(shè)置為零,我們得到以下一對(duì)更新方程:


最近有新的項(xiàng)目做,沒時(shí)間翻譯啦,以后有時(shí)間再填坑,此處省略3000字......

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • LDA的代碼實(shí)現(xiàn):http://blog.csdn.net/u010551621/article/details/...
    wlj1107閱讀 34,461評(píng)論 0 31
  • Neil Zhu,簡(jiǎn)書ID Not_GOD,University AI 創(chuàng)始人 & Chief Scientist...
    朱小虎XiaohuZhu閱讀 34,839評(píng)論 4 63
  • https://mp.weixin.qq.com/s/BuHiG9FjX-OiSNWx3KquQQ 17.隨機(jī)梯度...
    _龍雀閱讀 4,024評(píng)論 0 4
  • 華北水利水電大學(xué)電力學(xué)院暑期社會(huì)實(shí)踐 --小馬達(dá)愛暖社區(qū)實(shí)踐隊(duì) 此次暑期社會(huì)實(shí)踐活動(dòng)給我們提供了一個(gè)更加廣闊的服務(wù)...
    NCWU_Messi閱讀 211評(píng)論 0 0
  • 引言 各種新技術(shù)出現(xiàn)都離不開不變的底層原理,弄懂底層原理才能更好的理解與優(yōu)化出現(xiàn)的新技術(shù)。不要當(dāng)框架小子。 --s...
    StackFing閱讀 297評(píng)論 0 0

友情鏈接更多精彩內(nèi)容