概率潛在語(yǔ)義分析(Probabilistic Latent Semantic Analysis,PLSA)是一種利用概率生成模型對(duì)文本集合進(jìn)行話題分析的無(wú)監(jiān)督學(xué)習(xí)方法。模型最大特點(diǎn)是用隱變量表示話題。整個(gè)模型表示文本生成話題,話題生成單詞。假設(shè)每個(gè)文本由一個(gè)話題分布決定,每個(gè)話題由一個(gè)單詞分布決定。

直觀上,語(yǔ)義相近的單詞和語(yǔ)義相近的文本會(huì)被聚到相同的“軟類(lèi)別”,話題表示的就是這樣的“軟類(lèi)別”。圖中三個(gè)框框各自表示一個(gè)話題。
1、生成模型
生成模型中,單詞變量與文本變量
是觀測(cè)變量,話題變量
是隱變量。也就是說(shuō)模型生成的是單詞-話題-文本三元組
三元組的集合,但觀測(cè)到的是單詞-文本二元組
的集合。觀測(cè)數(shù)據(jù)表示為單詞-文本矩陣
的形式,
的行表示單詞,列表示文本,元素表示單詞-文本對(duì)
出現(xiàn)的次數(shù)。

從數(shù)據(jù)生成過(guò)程可以推出,文本-單詞共現(xiàn)數(shù)據(jù)出現(xiàn)的概率為:
表示
出現(xiàn)的次數(shù),每個(gè)單詞-文本對(duì)生成的概率如下:
最后一個(gè)等號(hào)基于在話題給定條件下單詞
與文本
條件獨(dú)立的假設(shè):
2、共現(xiàn)模型
與生成模型一樣,文本-單詞共現(xiàn)數(shù)據(jù)出現(xiàn)的概率為:
每個(gè)單詞-文本對(duì)生成的概率如下:
共現(xiàn)模型同樣假設(shè)在話題給定條件下單詞
與文本
條件獨(dú)立:
其直觀圖示如下:

容易驗(yàn)證生成模型和共現(xiàn)模型是等價(jià)的。但兩者性質(zhì)不同,生成模型中單詞變量和文本變量
是不對(duì)稱(chēng)的,而共現(xiàn)模型中單詞變量
和文本變量
是對(duì)稱(chēng)的。因此兩個(gè)模型的學(xué)習(xí)算法形式也有所不同。
3、PLSA參數(shù)估計(jì)的EM算法
設(shè)單詞集合為,文本集合為
,話題集合為
,給定單詞-文本共現(xiàn)數(shù)據(jù)
,
,
,目標(biāo)是估計(jì)PLSA生成模型的參數(shù)。使用極大似然估計(jì),對(duì)數(shù)似然函數(shù)為:
接下來(lái)通過(guò)EM算法迭代學(xué)習(xí)模型的參數(shù)即可,最終得到和
。