信息論基礎(chǔ)(熵,互信息,交叉熵)

1 熵

1.1 自信息和熵

??熵(Entropy)最早是物理學(xué)的概念,用于表示一個(gè)熱力學(xué)系統(tǒng)的無(wú)序程度。1948年,香農(nóng)將統(tǒng)計(jì)物理中熵的概念,引申到信道通信的過(guò)程中,從而開(kāi)創(chuàng)了”信息論“這門(mén)學(xué)科。香農(nóng)定義的“熵”又被稱(chēng)為“香農(nóng)熵” 或 “信息熵”。在信息論中,熵用來(lái)衡量一個(gè)隨機(jī)事件的不確定性。假設(shè)對(duì)一個(gè)隨機(jī)變量\small X(取值集合為\small \chi,概率分布為\small p(x), x ∈ \chi)進(jìn)行編碼,自信息(Self Information)\small I(x)是變量\small X = x時(shí)的信息量或編碼長(zhǎng)度,定義為
I(x)=-\log p(x)那么隨機(jī)變量\small X的平均編碼長(zhǎng)度,即熵定義為:
H(x) = \sum_{x \in \chi}p(x) \log p(x)其中當(dāng)\small p(x_i) = 0時(shí),我們定義\small 0\log 0=0,這與極限一致,\small \lim_{p→0+} p \log p = 0
??熵是一個(gè)隨機(jī)變量的平均編碼長(zhǎng)度,即自信息的數(shù)學(xué)期望。熵越高,則隨機(jī)變量的信息越多;熵越低,則信息越少。如果變量\small X當(dāng)且僅當(dāng)在\small x時(shí)\small p(x) = 1,則熵為0。也就是說(shuō),對(duì)于一個(gè)確定的信息,其熵為0,信息量也為0。如果其概率分布為一個(gè)均勻分布,則熵最大。下圖展示了一個(gè)二元信源的熵函數(shù):

二元信源熵函數(shù)

1.2 聯(lián)合熵和條件熵

??對(duì)于兩個(gè)離散隨機(jī)變量\small X\small Y,假設(shè)\small X取值集合為\small\chi;\small Y取值集合為\small \upsilon,其聯(lián)合概率分布滿(mǎn)足為\small p(x, y),則
\small X\small Y聯(lián)合熵(Joint Entropy)
H(X,Y) = -\sum_{x \in \chi} \sum_{y \in \upsilon} \log p(x,y)聯(lián)合熵的物理意義是:觀察一個(gè)多個(gè)隨機(jī)變量的隨機(jī)系統(tǒng)獲得的信息量。觀察一個(gè)多個(gè)隨機(jī)變量的隨機(jī)系統(tǒng)獲得的信息量。
\small X\small Y條件熵(Conditional Entropy)
\begin{align} H(X|Y) & = -\sum_{x \in \chi} \sum_{y \in \upsilon} p(x,y) \log p(x|y) \\ & = -\sum_{x \in \chi} \sum_{y \in \upsilon} p(x,y) \log \frac{p(x,y)}{p(y)} \\ & = -(\sum_{x \in \chi} \sum_{y \in \upsilon} p(x,y) \log p(x,y) - \sum_{x \in \chi} \sum_{y \in \upsilon} p(x,y) \log p(y))\\ & = -(\sum_{x \in \chi} \sum_{y \in \upsilon} p(x,y) \log p(x,y) - \sum_{y \in \upsilon} p(y) \log p(y))\\ & = H(X,Y) - H(Y) \end{align}條件熵的物理意義就是:在得知某一確定信息的基礎(chǔ)上獲取另外一個(gè)信息時(shí)所獲得的信息量。

2 互信息

??互信息(Mutual Information)是衡量已知一個(gè)變量時(shí),另一個(gè)變量不確定性的減少程度。兩個(gè)離散隨機(jī)變量\small X\small Y的互信息定義為
I(X,Y) = \sum_{x \in \chi}\sum_{y \in \upsilon}p(x,y) \ log \frac{p(x,y)}{p(x)p(y)}互信息的一個(gè)性質(zhì)為
\begin{align} H(X;Y)& = H(X) - H(X|Y)\\ &=H(Y)-H(Y|X) \end{align}如果\small X\small Y互相獨(dú)立,即\small X\small Y之間互相不提供任何信息,反之亦然,因此他們的互信息為0。

3 交叉熵和相對(duì)熵

3.1 交叉熵

??現(xiàn)在有關(guān)于樣本集的兩個(gè)概率分布\small p(x)\small q(x),其中\small p(x)為真實(shí)分布,\small q(x)非真實(shí)分布。如果用真實(shí)分布\small p(x)來(lái)衡量識(shí)別別一個(gè)樣本所需要編碼長(zhǎng)度的期望(平均編碼長(zhǎng)度)為:
H(p)=-\sum _x p(x) \log p(x)如果使用非真實(shí)分布\small q(x)來(lái)表示來(lái)自真實(shí)分布\small p(x)的平均編碼長(zhǎng)度,則是:
H(p,q) = -\sum_x p(x) \log q(x)因?yàn)橛?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Csmall%20q(x)" alt="\small q(x)" mathimg="1">來(lái)編碼的樣本來(lái)自于分布\small p(x) ,所以\small H(p,q)中的概率是\small p(x)。此時(shí)就將\small H(p,q)稱(chēng)之為交叉熵。在給定\small p的情況下,如果\small q\small p越接近,交叉熵越?。蝗绻?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Csmall%20q" alt="\small q" mathimg="1">和\small p越遠(yuǎn),交叉熵就越大。

3.2 相對(duì)熵(KL散度)

??\small KL散度(Kullback-Leibler Divergence),也叫\small KL距離或相對(duì)熵(Relative Entropy),是用概率分布\small q來(lái)近似\small p時(shí)所造成的信息損失量。\small KL散度是按照概率分布\small q的最優(yōu)編碼對(duì)真實(shí)分布為\small p的信息進(jìn)行編碼,其平均編碼長(zhǎng)度\small H(p,q)\small p的最優(yōu)平均編碼長(zhǎng)度\small H(p)之間的差異。對(duì)于離散概率分布\small p\small q,從\small q\small p的KL散度定義為:
\begin{align} D_{KL}(p||q) &= H(p,q) - H(p)\\ &=\sum_x p(x) \log \frac{p(x)}{q(x)} \end{align}其中為了保證連續(xù)性,定義\small 0 \log \frac{0}{0} = 0, 0 \log \frac{0}{q} = 0 \small KL散度可以是衡量?jī)蓚€(gè)概率分布之間的距離。\small KL散度總是非負(fù)的,\small D_{KL}(p||q) ≥ 0。只有當(dāng)\small p = q時(shí),\small D_{KL}(p||q) = 0。如果兩個(gè)分布越接近,\small KL散度越?。蝗绻麅蓚€(gè)分布越遠(yuǎn),\small KL散度就越大。但\small KL散度并不是一個(gè)真正的度量或距離,一是\small KL散度不滿(mǎn)足距離的對(duì)稱(chēng)性,二是\small KL散度不滿(mǎn)足距離的三角不等式性質(zhì)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容