概率潛在語(yǔ)義分析(PLSA)

概率潛在語(yǔ)義分析(Probabilistic Latent Semantic Analysis,PLSA)是一種利用概率生成模型對(duì)文本集合進(jìn)行話題分析的無(wú)監(jiān)督學(xué)習(xí)方法。模型最大特點(diǎn)是用隱變量表示話題。整個(gè)模型表示文本生成話題,話題生成單詞。假設(shè)每個(gè)文本由一個(gè)話題分布決定,每個(gè)話題由一個(gè)單詞分布決定。

直觀上,語(yǔ)義相近的單詞和語(yǔ)義相近的文本會(huì)被聚到相同的“軟類(lèi)別”,話題表示的就是這樣的“軟類(lèi)別”。圖中三個(gè)框框各自表示一個(gè)話題。

1、生成模型

生成模型中,單詞變量w與文本變量d是觀測(cè)變量,話題變量z是隱變量。也就是說(shuō)模型生成的是單詞-話題-文本三元組(w,z,d)三元組的集合,但觀測(cè)到的是單詞-文本二元組(w,d)的集合。觀測(cè)數(shù)據(jù)表示為單詞-文本矩陣T的形式,T的行表示單詞,列表示文本,元素表示單詞-文本對(duì)(w,d)出現(xiàn)的次數(shù)。

從數(shù)據(jù)生成過(guò)程可以推出,文本-單詞共現(xiàn)數(shù)據(jù)T出現(xiàn)的概率為:

P(T)=\prod_{(w,d)}P(w,d)^{n(w,d)}

n(w,d)表示(w,d)出現(xiàn)的次數(shù),每個(gè)單詞-文本對(duì)生成的概率如下:

\begin{aligned} P(w,d)&=P(d)P(w|d)\\ &=P(d)\sum_z P(w,z|d)\\ &=P(d)\sum_z P(z|d)P(w|z) \end{aligned}

最后一個(gè)等號(hào)基于在話題z給定條件下單詞w與文本d條件獨(dú)立的假設(shè):

P(w,z|d)=P(z|d)P(w|z)

2、共現(xiàn)模型

與生成模型一樣,文本-單詞共現(xiàn)數(shù)據(jù)T出現(xiàn)的概率為:

P(T)=\prod_{(w,d)}P(w,d)^{n(w,d)}

每個(gè)單詞-文本對(duì)生成的概率如下:

P(w,d)=\sum_{z\in Z}P(z)P(w|z)P(d|z)

共現(xiàn)模型同樣假設(shè)在話題z給定條件下單詞w與文本d條件獨(dú)立:

P(w,d|z)=P(w|z)P(d|z)

其直觀圖示如下:

容易驗(yàn)證生成模型和共現(xiàn)模型是等價(jià)的。但兩者性質(zhì)不同,生成模型中單詞變量w和文本變量d是不對(duì)稱(chēng)的,而共現(xiàn)模型中單詞變量w和文本變量d是對(duì)稱(chēng)的。因此兩個(gè)模型的學(xué)習(xí)算法形式也有所不同。

3、PLSA參數(shù)估計(jì)的EM算法

設(shè)單詞集合為W=\{w_1,w_2,\dots,w_M\},文本集合為D=\{d_1,d_2,\dots,d_N\},話題集合為Z=\{z_1,z_2,\dots,z_K\},給定單詞-文本共現(xiàn)數(shù)據(jù)T=\{n(w_i,d_j)\}i=1,2,\dots,M,j=1,2,\dots,N,目標(biāo)是估計(jì)PLSA生成模型的參數(shù)。使用極大似然估計(jì),對(duì)數(shù)似然函數(shù)為:

\begin{aligned} L&=\sum_{i=1}^M\sum_{j=1}^N n(w_i,d_j)\log P(w_i,d_j)\\ &=\sum_{i=1}^M\sum_{j=1}^N n(w_i,d_j)\log[\sum_{k=1}^K P(w_i|z_k)P(z_k|d_j)]\\ \end{aligned}

接下來(lái)通過(guò)EM算法迭代學(xué)習(xí)模型的參數(shù)即可,最終得到P(w_i|z_k)P(z_k|d_j)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容