92久久精品,色一区二五区

機(jī)器學(xué)習(xí)相關(guān)文獻(xiàn)里面，經(jīng)常會(huì)用到PMI（Pointwise Mutual Information）這個(gè)指標(biāo)來衡量?jī)蓚€(gè)事物之間的相關(guān)性（比如兩個(gè)詞）。其原理很簡(jiǎn)單，公式如下：

在概率論中，我們知道，如果x跟y不相關(guān)，則p(x,y)=p(x)p(y)。二者相關(guān)性越大，則p(x,y)就相比于p(x)p(y)越大。用后面的式子可能更好理解，在y出現(xiàn)的情況下x出現(xiàn)的條件概率p(x|y)除以x本身出現(xiàn)的概率p(x)，自然就表示x跟y的相關(guān)程度。

這里的log來自于信息論的理論，可以簡(jiǎn)單理解為，當(dāng)對(duì)p(x)取log之后就將一個(gè)概率轉(zhuǎn)換為了信息量（要再乘以-1將其變?yōu)檎龜?shù)），以2為底時(shí)可以簡(jiǎn)單理解為用多少個(gè)bits可以表示這個(gè)變量。

至此，概念介紹完了，后面是例子和相關(guān)背景，不感興趣的話就可以不用看了。

例子

舉個(gè)自然語言處理中的例子來說，我們想衡量like這個(gè)詞的極性（正向情感還是負(fù)向情感）。我們可以預(yù)先挑選一些正向情感的詞，比如good。然后我們算like跟good的PMI，即：

PMI(like,good)=logp(like,good)p(like)p(good)

其中p(like)是like在語料庫中出現(xiàn)的概率（出現(xiàn)次數(shù)除以總詞數(shù)N），p(like,good)表示like跟good在一句話中同時(shí)出現(xiàn)的概率（like跟good同時(shí)出現(xiàn)的次數(shù)除以N2）。

PMI(like,good)越大表示like的正向情感傾向就越明顯。

互信息（Mutual Information）

點(diǎn)互信息PMI其實(shí)就是從信息論里面的互信息這個(gè)概念里面衍生出來的。

互信息即：

其衡量的是兩個(gè)隨機(jī)變量之間的相關(guān)性，即一個(gè)隨機(jī)變量中包含的關(guān)于另一個(gè)隨機(jī)變量的信息量。所謂的隨機(jī)變量，即隨機(jī)試驗(yàn)結(jié)果的量的表示，可以簡(jiǎn)單理解為按照一個(gè)概率分布進(jìn)行取值的變量，比如隨機(jī)抽查的一個(gè)人的身高就是一個(gè)隨機(jī)變量。

可以看出，互信息其實(shí)就是對(duì)X和Y的所有可能的取值情況的點(diǎn)互信息PMI的加權(quán)和。因此，點(diǎn)互信息這個(gè)名字還是很形象的。

舉個(gè)栗子

The following table shows counts of pairs of words getting the most and the least PMI scores in the first 50 millions of words in Wikipedia (dump of October 2015) filtering by 1,000 or more co-occurrences. The frequency of each count can be obtained by dividing its value by 50,000,952. (Note: natural log is used to calculate the PMI values in this example, instead of log base 2)

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

什么是點(diǎn)互信息

什么是點(diǎn)互信息

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

什么是點(diǎn)互信息

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av