什么是熵,如何計(jì)算?

1.什么是熵

熵(Entropy)原本是一個(gè)熱力學(xué)概念,用來(lái)描述物質(zhì)的混亂程度。熵越大,物質(zhì)越混亂。

香濃借鑒了熱力學(xué)中的概念,把信息中排除了冗余后的平均信息量稱為“信息熵”,并給出了計(jì)算信息熵的數(shù)學(xué)表達(dá)式。

通常,一個(gè)信源發(fā)送出什么符號(hào)是不確定的,衡量它可以根據(jù)其出現(xiàn)的概率來(lái)度量。概率大,出現(xiàn)機(jī)會(huì)多,不確定性?。环粗淮_定性就大。不確定性函數(shù)f是概率P的減函數(shù);兩個(gè)獨(dú)立符號(hào)所產(chǎn)生的不確定性應(yīng)等于各自不確定性之和,即f(P1,P2)=f(P1)+f(P2),這稱為可加性。同時(shí)滿足這兩個(gè)條件的函數(shù)f是對(duì)數(shù)函數(shù),即


若信源符號(hào)有n種取值:U1,…Ui,…Un,對(duì)應(yīng)概率為:P1…Pi…Pn,且各種符號(hào)的出現(xiàn)彼此獨(dú)立。這時(shí),信源的平均不確定性應(yīng)當(dāng)為單個(gè)符號(hào)不確定性-logPi的統(tǒng)計(jì)平均值(E),可稱為信息熵,即:
H(U)=E[-\log p_{i}]=-\sum_{i=1}^{n}p_{i}\log p_{i}
式中對(duì)數(shù)一般取2為底。對(duì)于二元信源(即只有0和1),其各自出現(xiàn)概率為P和Q=1-P,則改信源的熵為如下所示:
二元信源

由圖可見,二元信源的熵有如下性質(zhì):
①非負(fù)性:即收到一個(gè)信源符號(hào)所獲得的信息量應(yīng)為正值,H(U)≥0
②對(duì)稱性:即對(duì)稱于P=0.5
③確定性:H(1,0)=0,即P=0或P=1已是確定狀態(tài),所得信息量為零
④極值性:因H(U)是P的上凸函數(shù),且一階導(dǎo)數(shù)在P=0.5時(shí)等于0,所以當(dāng)P=0.5時(shí),H(U)最大。

當(dāng)0和1各占50%時(shí),發(fā)射的信號(hào)0和1各占50%,此時(shí)信號(hào)最為混亂;當(dāng)0或1出現(xiàn)概率為100%時(shí),信號(hào)中只有一個(gè)值,此時(shí)所包含的信息非?!罢麧崱?,所以信息熵時(shí)0。

2.熵如何計(jì)算

已知男女所占比率各為50%,所有人群中抽煙占40%,不抽煙占60%,而在抽煙人群中95%都是男性,不抽煙人群中80%是女性。如果我們已知一個(gè)人抽煙,那么我們可以很有信心的說(shuō)該煙民為男性,但是我們?nèi)绾稳ザ攘窟@種信心呢?因此,我們引入了熵,熵是用來(lái)度量該系統(tǒng)的不確定性,我們有多大的把握說(shuō)出該煙民為男性。試想一下,當(dāng)煙民中男女比例各占50%的時(shí)候,這是最不容易確定該煙民性別的情況,所以這個(gè)時(shí)候熵很高(信息很混亂)。
當(dāng)男女煙民各占50%時(shí),熵的計(jì)算過(guò)程為(以2為底):
H(s)=-0.5*log _{0.5}-0.5*log _{0.5}=1
我們令事件X不抽煙為a,抽煙為b,則X:{a=No-smoking, b=smoking}。
則不抽煙的人的熵為:H(s|X=a)=-0.8*log_{0.8}-0.2*log_{0.2}=0.7219
抽煙的人的熵為為:H(s|X=b)=-0.95*log_{0.95}-0.05*log_{0.05}=0.2864
可以看到煙民中性別分布要比非煙民更加不均衡,在這種情況下如果我們知道ta抽煙,則我們對(duì)ta的性別的判斷更加準(zhǔn)確。
抽煙事件整體的熵為:H(s|X)=0.6*H(s|X=a)+0.4*H(s|X=b)
我們?cè)谥懒藷熋窈头菬熋裰心信壤笠认共乱獪?zhǔn)確多少如何度量呢,這時(shí)候引入新的概念,信息增益:
Gain(s,X)=H(s)-H(s|X)=0.4523

參考:
1.百度百科-信息熵

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 一、1分鐘了解 一句話解釋,熵(shāng)就是描述一個(gè)孤立系統(tǒng)混亂程度的值。 通俗來(lái)講可以這么理解:不確定性越大...
    新趣百科閱讀 1,055評(píng)論 0 0
  • 信息熵 簡(jiǎn)介 任何信息都存在冗余,冗余大小與信息中每個(gè)符號(hào)的出現(xiàn)概率或者說(shuō)不確定性有關(guān)。 信息熵用于解決對(duì)信息的量...
    CSDN_georgeChen閱讀 4,355評(píng)論 0 0
  • 信息是個(gè)很抽象的概念。人們常常說(shuō)信息很多,或者信息較少,但卻很難說(shuō)清楚信息到底有多少。比如一本五十萬(wàn)字的中...
    我是造物主_創(chuàng)造的秘密閱讀 2,051評(píng)論 0 1
  • 一、熵的概念 為了理解信息熵,讓我們先簡(jiǎn)單了解一下什么是熵 熵,英文單詞是 Entropy,是熱力學(xué)中表征物質(zhì)狀態(tài)...
    Midorra閱讀 2,182評(píng)論 0 4
  • 夜鶯2517閱讀 128,155評(píng)論 1 9

友情鏈接更多精彩內(nèi)容