什么是點(diǎn)互信息

機(jī)器學(xué)習(xí)相關(guān)文獻(xiàn)里面,經(jīng)常會(huì)用到PMI(Pointwise Mutual Information)這個(gè)指標(biāo)來衡量?jī)蓚€(gè)事物之間的相關(guān)性(比如兩個(gè)詞)。其原理很簡(jiǎn)單,公式如下:

在概率論中,我們知道,如果x跟y不相關(guān),則p(x,y)=p(x)p(y)。二者相關(guān)性越大,則p(x,y)就相比于p(x)p(y)越大。用后面的式子可能更好理解,在y出現(xiàn)的情況下x出現(xiàn)的條件概率p(x|y)除以x本身出現(xiàn)的概率p(x),自然就表示x跟y的相關(guān)程度。

這里的log來自于信息論的理論,可以簡(jiǎn)單理解為,當(dāng)對(duì)p(x)取log之后就將一個(gè)概率轉(zhuǎn)換為了信息量(要再乘以-1將其變?yōu)檎龜?shù)),以2為底時(shí)可以簡(jiǎn)單理解為用多少個(gè)bits可以表示這個(gè)變量。

至此,概念介紹完了,后面是例子和相關(guān)背景,不感興趣的話就可以不用看了。

例子

舉個(gè)自然語言處理中的例子來說,我們想衡量like這個(gè)詞的極性(正向情感還是負(fù)向情感)。我們可以預(yù)先挑選一些正向情感的詞,比如good。然后我們算like跟good的PMI,即:

PMI(like,good)=logp(like,good)p(like)p(good)

其中p(like)是like在語料庫中出現(xiàn)的概率(出現(xiàn)次數(shù)除以總詞數(shù)N),p(like,good)表示like跟good在一句話中同時(shí)出現(xiàn)的概率(like跟good同時(shí)出現(xiàn)的次數(shù)除以N2)。

PMI(like,good)越大表示like的正向情感傾向就越明顯。

互信息(Mutual Information)

點(diǎn)互信息PMI其實(shí)就是從信息論里面的互信息這個(gè)概念里面衍生出來的。

互信息即:

其衡量的是兩個(gè)隨機(jī)變量之間的相關(guān)性,即一個(gè)隨機(jī)變量中包含的關(guān)于另一個(gè)隨機(jī)變量的信息量。所謂的隨機(jī)變量,即隨機(jī)試驗(yàn)結(jié)果的量的表示,可以簡(jiǎn)單理解為按照一個(gè)概率分布進(jìn)行取值的變量,比如隨機(jī)抽查的一個(gè)人的身高就是一個(gè)隨機(jī)變量。

可以看出,互信息其實(shí)就是對(duì)X和Y的所有可能的取值情況的點(diǎn)互信息PMI的加權(quán)和。因此,點(diǎn)互信息這個(gè)名字還是很形象的。

舉個(gè)栗子

The following table shows counts of pairs of words getting the most and the least PMI scores in the first 50 millions of words in Wikipedia (dump of October 2015) filtering by 1,000 or more co-occurrences. The frequency of each count can be obtained by dividing its value by 50,000,952. (Note: natural log is used to calculate the PMI values in this example, instead of log base 2)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容