信息熵、交叉熵、相對熵的透徹理解

前言

信息論在1948年由香農提出,此后在各個工程技術領域都有廣泛應用。

在機器學習領域,當然也包括自然語言處理領域,信息論是一個基礎內容。離開信息論想要討論清楚NLP是非常困難的。

因此,本文主要是為了給下一步的自然語言處理做理論基礎鋪墊,盡量不涉及公式,而是從直觀的角度來理清信息論的直覺邏輯,這比羅列公式更有助于加深理解。

信息論基本模型

既然提到信息二字,那么就一定意味著信息的傳遞,有信息發(fā)送方以及信息接收方。若信息是停留在某處完全靜止,則無所謂信息論。如下圖所示。

信息論的基本通信模型,以打電話為例展示

這樣的一個信息傳遞的過程,和打電話非常相似。也就是說,實際上信息論是嵌入在通信系統(tǒng)上的一個理論框架,最初是用來解決通信問題的。當然,信息論在各個領域的擴展和應用,都是將問題抽象為一個通信問題展開的。神經網絡等等各種模型,實際上也可以看作是一種通信系統(tǒng),這個隨后展開。

信息傳遞模型的進一步抽象

根據上圖男孩和女孩打電話的示意圖,我們可以將其看作一個基本的通信系統(tǒng),其主要包括如下幾個部件:

男孩:信息的發(fā)送方,他通過語言向女孩傳遞信息內容,比如,他說的話是“我喜歡你,你喜歡我嗎?

女孩:信息的接收方,她通過同樣的語言接收男孩所說的話。

電話線:信息介質,就像聲音的傳遞需要機械震動一樣,信息的傳遞是將語言轉化為電話線的震動來進行信息的傳遞,當然,光、聲音、無線電播都是可以傳遞的媒介。這里就有一個傳遞準確性的問題,也就是,女孩是否能真的聽清男孩所說話內容的問題,在有雜音的情況下,女孩所聽內容可能是“我喜歡你,喜歡我吧?!?/p>

語言:信息的編碼。男孩所傳遞的信息,不僅僅可以用中文進行表達,還可以用英語、法語做傳遞,實際上傳遞的信息內容是一樣的,但是采用的語言不同,這里,語言并非信息本身,而是一種對信息的編碼。編碼的方式是多種多樣的。


信息熵

信息熵又稱信息量,他是衡量在通信過程中,傳遞了多少信息。

傳遞了多少信息,是個非常抽象的東西,還是以上面男孩對女孩說話為例,我們可以定義男孩對女孩說了一句話,這句話定義為X。X是一個未知數,站在女孩的角度,她并不知道男孩要說什么話,也就是說,X可看作是一個隨機變量。

如果男孩說:“太陽從東邊升起”。估計女孩聽了會翻白眼,這不是廢話嗎?一點信息量都沒有。是的,這句話從信息論角度而言,就是一點信息量都沒有,因為,太陽每天都從東邊升起,這是萬年不變的常識,X這個隨機變量,其概率為1,也就是這件事必然發(fā)生,此時信息量為0。

如果男孩說:“四川遭遇了有氣象觀測記錄以來的最干旱高溫的夏天。”此時則是信息量非常大的一句話,女孩聽了會震驚,男孩說了會流淚。原因就在于,四川遭遇數十年一遇的高溫和干旱,這個概率實在是太低了,怎么算,也有數十分之一吧,就按五十分之一算,這個結果就是概率值?0.02。當一件特別不可能發(fā)生的事情發(fā)生的時候,這個信息量就是非常大的。

從上面的過程,我們大致可以了解到,信息量所衡量的東西,就是信息接收方,對信息直觀的震驚程度。這也非常符合我們的直覺。

且公式的定義也是由概率出發(fā)定義而得。

H(X)=\sum_{x\in X} p(x)log_2(\frac{1}{p(x)} )

這個定義里,正好符合上述信息量隨概率變化的要求。然而,滿足直觀變化要求的函數非常多,這里為什么必須是?log 函數呢?

想象這里的X不再是一句描述性的話,而是單純一個硬幣的事情,出現正面的概率和出現反面的概率都是二分之一,那么可以計算得到信息量為1。

如果這個任務是分別投擲兩枚硬幣,那么同時出現正面的概率就是四分之一,計算信息量就可以得到為2。

這里就出現一個現象,硬幣多投了一次,信息量也就多了1。如果是三枚硬幣分別投擲,則信息量就變成了3。

換句話說,投擲次數和信息量是緊密相關的,是加性的,而概率值和投擲次數之間是乘性的,我們很直觀的可以想到,log 函數族可以解決加性和乘性的轉換,則信息量(信息熵)的定義公式,也就是如上所示了。

信息熵是信息量中的核心內容,并且這個概念和通信系統(tǒng)的抽象模型是緊密綁定的,但是似乎論述到這里,信息熵的概念僅僅和一個隨機變量有關系。這里需要強調的是,這個隨機變量本身就是通信信息的抽象,也就是,不論這里概念如何轉換,只要出現了一個隨機變量,那么一定意味著,我們可以想象,這個論述是圍繞著一個接收者接收信息的。


交叉熵

我們再舉一個買彩票中獎的例子。比如,中彩票概率是0.0001,而不中是 0.9999(現實似乎比這要更難中獎,當然了,社會上還爆出了一些中獎者很多都是彩票機構員工的新聞)。中獎的概率太低了,這是我們每一個人都默認的一個概率情況。

有一個小伙子叫小北航,他也知道這個中獎概率低得可憐,玩票性質買了一次彩票,不中,小北航一點都不吃驚(得到的信息量低-log_2(0.9999));

第二次,小北航又買了一次,中!小北航非常開心(得到的信息量高,-log_2(0.0001));

第三次,小北航又買了一次,又中了!小北航開始狂喜,這比地球爆炸的概率還低啊,居然讓我給趕上了!連續(xù)兩次中獎的信息量極其大,是-2log_2(0.0001),這已經相當爆炸了。

連中兩次中獎之后,小北航就會產生懷疑,為什么我能連中兩次?太出乎預料了!(得到的信息量大的可怕)他懷疑是不是這個彩票系統(tǒng)有問題(即,發(fā)生在他身上的真實的中彩概率不是0.0001)。

經過調查才發(fā)現,彩票中心主任是小北航他爸,所以小北航很容易中獎(他爸給他設定的真實中獎概率是0.3,不中的概率是0.7);這樣連中兩次也不奇怪了。

所以,本以為中獎概率是0.0001,去進行試驗,大呼吃驚,結果發(fā)現真實的概率是0.3,這個大呼吃驚的吃驚程度就是交叉熵。

反之,如果小北航早就知道了自己的老爸暗中安排了,連中兩次似乎也沒有多么神奇嘛?。?.3* 0.3,不吃驚,信息量少)

交叉熵的直觀含義就是:用自以為的分布去觀測一個隨機變量,結果發(fā)現得到數據多少令自己吃驚,此時得到的信息量就是交叉熵。

更直白的說,交叉熵本質就是,真實分布(后驗分布)出乎預料已知猜測的分布(先驗分布)的程度

把交叉熵放在通信模型中,它表示,接收方(圖中女孩)接收到的信息,相對于它預期的吃驚程度。


再舉一個例子,加深理解。

前述“太陽從東邊升起”,是條信息量為0的信息。我們知道劉慈欣的流浪地球,地球受到各種影響,導致太陽從西邊升起(當前真實分布),而此時,生活在地下的人們還不知道呢,以為還從東邊升起(先驗的預期分布),過了一段時間,這個消息被發(fā)布,全世界的人都吃了一驚。這個吃驚就是交叉熵。公式表達為

H(X)=\sum_{x\in X} p(x)log_2 (\frac{1}{q(x)} )

其中p概率分布是事件真實發(fā)生的概率分布,而q概率分布則是先驗的分布,從直觀上來講,公式的直觀含義就是,用真實概率分布,與相應的人們心中默認的先驗吃驚程度求期望。


相對熵

相對熵的概念基本上由交叉熵引申而來。根據交叉熵的定義,我們知道,交叉熵是一個十分絕對的值,那么相對熵就是一個相對的值。用事件X發(fā)生后的后驗交叉熵,減去先驗默認的信息熵,就是相對熵。相對熵又稱KL散度(Kullback-Leibler Divergence)。

KL(p||q)=H(p,q)-H(p)

由此可知,相對熵衡量的是一個相對的吃驚程度,如果先驗概率分布(人們心中默認的分布)與真實分布差距過大,則相對熵就變大,反之兩者極為相似,則相對熵就很小。


交叉熵與神經網絡的關系

在各類神經網絡中,輸入輸出都是可以采用概率分布來表示的。而尤其在輸出部分,假設我們的輸出是個分類任務,這個事件可以起名叫做Y,Y是一個隨機變量,它有k個分類的類別。為了方便理解,我們進一步假設這個分類任務是對一篇文本做類型分類,類別有政治、經濟、娛樂、社會、科技、自然地理等類型。

那么,真實的標注語料中的Y有一個概率分布p,而神經網絡模型預測出來的Y也有一個概率分布q。

此時就很容易了,我們可以把交叉熵通過一個樣本、一個樣本這樣計算出來,得到一個值,并將其當作一個損失函數來訓練這個模型。

如果對于一個樣本,其真實標注的分類的標簽和模型預測的標簽概率分布差距越大,則其交叉熵值就越大,從通信角度而言,以本篇博客為例,本來我們默認這個分類的類別應該是科技類文本,那么我們先驗的分布實際是[0,...0,1,0,...0],其中,1代表科技類別,而其它的0代表所有的其它類別。而模型預測的后驗分布為[0.1, ..., 0.04,0.2,0.4..., 0.01],在這里,科技類對應的概率是?0.2,而其它的類別對應了不同的概率值,此時,兩個概率的差異,即交叉熵值,實際上就表示了一種震驚程度,本來文本是科技類,模型卻分類到了別的類別上去!


總結

信息論與NLP,以及神經網絡的關系當然不僅僅局限于一個交叉熵。除此之外,神經網絡還可以看作一個通信的信道噪聲模型、信源編碼模型等等,從不同的角度看待模型都會得到不同的解釋和理解。之后根據情況將繼續(xù)更新相應的內容。

更多的相關NLP文章可以訪問JioNLP源站

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容