1.什么是熵
熵(Entropy)原本是一個(gè)熱力學(xué)概念,用來(lái)描述物質(zhì)的混亂程度。熵越大,物質(zhì)越混亂。
香濃借鑒了熱力學(xué)中的概念,把信息中排除了冗余后的平均信息量稱為“信息熵”,并給出了計(jì)算信息熵的數(shù)學(xué)表達(dá)式。
通常,一個(gè)信源發(fā)送出什么符號(hào)是不確定的,衡量它可以根據(jù)其出現(xiàn)的概率來(lái)度量。概率大,出現(xiàn)機(jī)會(huì)多,不確定性?。环粗淮_定性就大。不確定性函數(shù)f是概率P的減函數(shù);兩個(gè)獨(dú)立符號(hào)所產(chǎn)生的不確定性應(yīng)等于各自不確定性之和,即f(P1,P2)=f(P1)+f(P2),這稱為可加性。同時(shí)滿足這兩個(gè)條件的函數(shù)f是對(duì)數(shù)函數(shù),即

若信源符號(hào)有n種取值:U1,…Ui,…Un,對(duì)應(yīng)概率為:P1…Pi…Pn,且各種符號(hào)的出現(xiàn)彼此獨(dú)立。這時(shí),信源的平均不確定性應(yīng)當(dāng)為單個(gè)符號(hào)不確定性-logPi的統(tǒng)計(jì)平均值(E),可稱為信息熵,即:
式中對(duì)數(shù)一般取2為底。對(duì)于二元信源(即只有0和1),其各自出現(xiàn)概率為P和Q=1-P,則改信源的熵為如下所示:

由圖可見,二元信源的熵有如下性質(zhì):
①非負(fù)性:即收到一個(gè)信源符號(hào)所獲得的信息量應(yīng)為正值,H(U)≥0
②對(duì)稱性:即對(duì)稱于P=0.5
③確定性:H(1,0)=0,即P=0或P=1已是確定狀態(tài),所得信息量為零
④極值性:因H(U)是P的上凸函數(shù),且一階導(dǎo)數(shù)在P=0.5時(shí)等于0,所以當(dāng)P=0.5時(shí),H(U)最大。
當(dāng)0和1各占50%時(shí),發(fā)射的信號(hào)0和1各占50%,此時(shí)信號(hào)最為混亂;當(dāng)0或1出現(xiàn)概率為100%時(shí),信號(hào)中只有一個(gè)值,此時(shí)所包含的信息非?!罢麧崱?,所以信息熵時(shí)0。
2.熵如何計(jì)算
已知男女所占比率各為50%,所有人群中抽煙占40%,不抽煙占60%,而在抽煙人群中95%都是男性,不抽煙人群中80%是女性。如果我們已知一個(gè)人抽煙,那么我們可以很有信心的說(shuō)該煙民為男性,但是我們?nèi)绾稳ザ攘窟@種信心呢?因此,我們引入了熵,熵是用來(lái)度量該系統(tǒng)的不確定性,我們有多大的把握說(shuō)出該煙民為男性。試想一下,當(dāng)煙民中男女比例各占50%的時(shí)候,這是最不容易確定該煙民性別的情況,所以這個(gè)時(shí)候熵很高(信息很混亂)。
當(dāng)男女煙民各占50%時(shí),熵的計(jì)算過(guò)程為(以2為底):
我們令事件X不抽煙為a,抽煙為b,則X:{a=No-smoking, b=smoking}。
則不抽煙的人的熵為:
抽煙的人的熵為為:
可以看到煙民中性別分布要比非煙民更加不均衡,在這種情況下如果我們知道ta抽煙,則我們對(duì)ta的性別的判斷更加準(zhǔn)確。
抽煙事件整體的熵為:
我們?cè)谥懒藷熋窈头菬熋裰心信壤笠认共乱獪?zhǔn)確多少如何度量呢,這時(shí)候引入新的概念,信息增益:
參考:
1.百度百科-信息熵