1 熵
1.1 自信息和熵
??熵(Entropy)最早是物理學(xué)的概念,用于表示一個(gè)熱力學(xué)系統(tǒng)的無(wú)序程度。1948年,香農(nóng)將統(tǒng)計(jì)物理中熵的概念,引申到信道通信的過(guò)程中,從而開(kāi)創(chuàng)了”信息論“這門(mén)學(xué)科。香農(nóng)定義的“熵”又被稱(chēng)為“香農(nóng)熵” 或 “信息熵”。在信息論中,熵用來(lái)衡量一個(gè)隨機(jī)事件的不確定性。假設(shè)對(duì)一個(gè)隨機(jī)變量(取值集合為
,概率分布為
)進(jìn)行編碼,自信息(Self Information)
是變量
時(shí)的信息量或編碼長(zhǎng)度,定義為
那么隨機(jī)變量
的平均編碼長(zhǎng)度,即熵定義為:
其中當(dāng)
時(shí),我們定義
,這與極限一致,
。
??熵是一個(gè)隨機(jī)變量的平均編碼長(zhǎng)度,即自信息的數(shù)學(xué)期望。熵越高,則隨機(jī)變量的信息越多;熵越低,則信息越少。如果變量當(dāng)且僅當(dāng)在
時(shí)
,則熵為0。也就是說(shuō),對(duì)于一個(gè)確定的信息,其熵為0,信息量也為0。如果其概率分布為一個(gè)均勻分布,則熵最大。下圖展示了一個(gè)二元信源的熵函數(shù):

1.2 聯(lián)合熵和條件熵
??對(duì)于兩個(gè)離散隨機(jī)變量和
,假設(shè)
取值集合為
;
取值集合為
,其聯(lián)合概率分布滿(mǎn)足為
,則
和
的聯(lián)合熵(Joint Entropy)為
聯(lián)合熵的物理意義是:觀察一個(gè)多個(gè)隨機(jī)變量的隨機(jī)系統(tǒng)獲得的信息量。觀察一個(gè)多個(gè)隨機(jī)變量的隨機(jī)系統(tǒng)獲得的信息量。
和
的條件熵(Conditional Entropy)為
條件熵的物理意義就是:在得知某一確定信息的基礎(chǔ)上獲取另外一個(gè)信息時(shí)所獲得的信息量。
2 互信息
??互信息(Mutual Information)是衡量已知一個(gè)變量時(shí),另一個(gè)變量不確定性的減少程度。兩個(gè)離散隨機(jī)變量和
的互信息定義為
互信息的一個(gè)性質(zhì)為
如果
和
互相獨(dú)立,即
和
之間互相不提供任何信息,反之亦然,因此他們的互信息為0。
3 交叉熵和相對(duì)熵
3.1 交叉熵
??現(xiàn)在有關(guān)于樣本集的兩個(gè)概率分布和
,其中
為真實(shí)分布,
非真實(shí)分布。如果用真實(shí)分布
來(lái)衡量識(shí)別別一個(gè)樣本所需要編碼長(zhǎng)度的期望(平均編碼長(zhǎng)度)為:
如果使用非真實(shí)分布
來(lái)表示來(lái)自真實(shí)分布
的平均編碼長(zhǎng)度,則是:
因?yàn)橛?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Csmall%20q(x)" alt="\small q(x)" mathimg="1">來(lái)編碼的樣本來(lái)自于分布
,所以
中的概率是
。此時(shí)就將
稱(chēng)之為交叉熵。在給定
的情況下,如果
和
越接近,交叉熵越?。蝗绻?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Csmall%20q" alt="\small q" mathimg="1">和
越遠(yuǎn),交叉熵就越大。
3.2 相對(duì)熵(KL散度)
??散度(Kullback-Leibler Divergence),也叫
距離或相對(duì)熵(Relative Entropy),是用概率分布
來(lái)近似
時(shí)所造成的信息損失量。
散度是按照概率分布
的最優(yōu)編碼對(duì)真實(shí)分布為
的信息進(jìn)行編碼,其平均編碼長(zhǎng)度
和
的最優(yōu)平均編碼長(zhǎng)度
之間的差異。對(duì)于離散概率分布
和
,從
到
的KL散度定義為:
其中為了保證連續(xù)性,定義
散度可以是衡量?jī)蓚€(gè)概率分布之間的距離。
散度總是非負(fù)的,
。只有當(dāng)
時(shí),
。如果兩個(gè)分布越接近,
散度越?。蝗绻麅蓚€(gè)分布越遠(yuǎn),
散度就越大。但
散度并不是一個(gè)真正的度量或距離,一是
散度不滿(mǎn)足距離的對(duì)稱(chēng)性,二是
散度不滿(mǎn)足距離的三角不等式性質(zhì)。