概率潛在語(yǔ)義分析（Probabilistic Latent Semantic Analysis，PLSA）是一種利用概率生成模型對(duì)文本集合進(jìn)行話題分析的無(wú)監(jiān)督學(xué)習(xí)方法。模型最大特點(diǎn)是用隱變量表示話題。整個(gè)模型表示文本生成話題，話題生成單詞。假設(shè)每個(gè)文本由一個(gè)話題分布決定，每個(gè)話題由一個(gè)單詞分布決定。

直觀上，語(yǔ)義相近的單詞和語(yǔ)義相近的文本會(huì)被聚到相同的“軟類(lèi)別”，話題表示的就是這樣的“軟類(lèi)別”。圖中三個(gè)框框各自表示一個(gè)話題。

1、生成模型

生成模型中，單詞變量 $w$ 與文本變量 $d$ 是觀測(cè)變量，話題變量 $z$ 是隱變量。也就是說(shuō)模型生成的是單詞-話題-文本三元組 $(w,z,d)$ 三元組的集合，但觀測(cè)到的是單詞-文本二元組 $(w,d)$ 的集合。觀測(cè)數(shù)據(jù)表示為單詞-文本矩陣 $T$ 的形式， $T$ 的行表示單詞，列表示文本，元素表示單詞-文本對(duì) $(w,d)$ 出現(xiàn)的次數(shù)。

從數(shù)據(jù)生成過(guò)程可以推出，文本-單詞共現(xiàn)數(shù)據(jù) $T$ 出現(xiàn)的概率為：

$P(T)=\prod_{(w,d)}P(w,d)^{n(w,d)}$

$n(w,d)$ 表示 $(w,d)$ 出現(xiàn)的次數(shù)，每個(gè)單詞-文本對(duì)生成的概率如下：

$\begin{aligned} P(w,d)&=P(d)P(w|d)\\ &=P(d)\sum_z P(w,z|d)\\ &=P(d)\sum_z P(z|d)P(w|z) \end{aligned}$

最后一個(gè)等號(hào)基于在話題 $z$ 給定條件下單詞 $w$ 與文本 $d$ 條件獨(dú)立的假設(shè)：

$P(w,z|d)=P(z|d)P(w|z)$

2、共現(xiàn)模型

與生成模型一樣，文本-單詞共現(xiàn)數(shù)據(jù) $T$ 出現(xiàn)的概率為：

$P(T)=\prod_{(w,d)}P(w,d)^{n(w,d)}$

每個(gè)單詞-文本對(duì)生成的概率如下：

$P(w,d)=\sum_{z\in Z}P(z)P(w|z)P(d|z)$

共現(xiàn)模型同樣假設(shè)在話題 $z$ 給定條件下單詞 $w$ 與文本 $d$ 條件獨(dú)立：

$P(w,d|z)=P(w|z)P(d|z)$

其直觀圖示如下：

容易驗(yàn)證生成模型和共現(xiàn)模型是等價(jià)的。但兩者性質(zhì)不同，生成模型中單詞變量 $w$ 和文本變量 $d$ 是不對(duì)稱(chēng)的，而共現(xiàn)模型中單詞變量 $w$ 和文本變量 $d$ 是對(duì)稱(chēng)的。因此兩個(gè)模型的學(xué)習(xí)算法形式也有所不同。

3、PLSA參數(shù)估計(jì)的EM算法

設(shè)單詞集合為 $W=\{w_1,w_2,\dots,w_M\}$ ，文本集合為 $D=\{d_1,d_2,\dots,d_N\}$ ，話題集合為 $Z=\{z_1,z_2,\dots,z_K\}$ ，給定單詞-文本共現(xiàn)數(shù)據(jù) $T=\{n(w_i,d_j)\}$ ， $i=1,2,\dots,M$ ， $j=1,2,\dots,N$ ，目標(biāo)是估計(jì)PLSA生成模型的參數(shù)。使用極大似然估計(jì)，對(duì)數(shù)似然函數(shù)為：

$\begin{aligned} L&=\sum_{i=1}^M\sum_{j=1}^N n(w_i,d_j)\log P(w_i,d_j)\\ &=\sum_{i=1}^M\sum_{j=1}^N n(w_i,d_j)\log[\sum_{k=1}^K P(w_i|z_k)P(z_k|d_j)]\\ \end{aligned}$

接下來(lái)通過(guò)EM算法迭代學(xué)習(xí)模型的參數(shù)即可，最終得到 $P(w_i|z_k)$ 和 $P(z_k|d_j)$ 。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

概率潛在語(yǔ)義分析（PLSA）

概率潛在語(yǔ)義分析（PLSA）

1、生成模型

2、共現(xiàn)模型

3、PLSA參數(shù)估計(jì)的EM算法

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

概率潛在語(yǔ)義分析（PLSA）

1、生成模型

2、共現(xiàn)模型

3、PLSA參數(shù)估計(jì)的EM算法

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

1、生成模型

2、共現(xiàn)模型

3、PLSA參數(shù)估計(jì)的EM算法