機器學習(信息論):信息熵

一、相關(guān)概念

自信息

當概率p越小,消息x出現(xiàn)的概率就越小,一旦出現(xiàn)所獲得的信息量就越大。
因此,我們定義I(x)=\log{(\frac{1}{p(x)})},稱I(x)為消息x的自信息量。
自信息用來衡量單一事件發(fā)生時所包含的信息量。

信息熵

H(X)=-\sum_{i}p(x_i)\log(p(x_i))
信息熵:隨機變量X所有可能取值的信息量的期望。
在信息論中,熵是信息不確定度的度量。不確定度越大,信息量越大,熵越大。

聯(lián)合熵

H(X,Y)=-\sum_{x}\sum_{y}p(x,y)\log(p(x,y))
聯(lián)合熵是衡量隨機變量X、Y之間的不確定性。

條件熵

H(X|Y)=-\sum_{x}\sum_{y}p(x,y)\log(p(x|y))
條件熵:在已知隨機變量Y的條件下,隨機變量X的不確定性。
條件熵=聯(lián)合熵-獨立熵,即H(X|Y)=H(X,Y)-H(Y)。

交叉熵

H(p(x),q(x))=-\sum_{i}p(x_i)\log(q(x_i))
交叉熵是衡量真實分布p(x)與模擬分布q(x)之間的近似程度。

相對熵/信息散度/KL散度(Kullback-Leibler divergence)

D_{kl}(p(x)||q(x))=\sum_ip(x_i)\log(\frac{p(x_i)}{q(x_i)})
相對熵/信息散度/KL散度(Kullback-Leibler divergence):衡量兩個概率分布之間的距離(差異)。
相對熵=交叉熵-獨立熵,即D_{KL}(P||Q)=H(P,Q)-H(P)。

互信息

I(X;Y)=\sum_{x}\sum_{y}p(x,y)\log(\frac{p(x,y)}{p(x)p(y)})
互信息:兩個隨機變量X、Y的聯(lián)合分布與獨立分布乘積的相對熵。
互信息是衡量兩個隨機變量之間的相關(guān)性。


二、互信息、聯(lián)合熵、相對熵、熵之間的關(guān)系

H(X|Y):知道YX還剩多少信息。
H(X;Y):知道Y后給X帶來了多少信息損失,H(X;Y)=H(Y;X)
為方便記憶,可將聯(lián)合熵當做熵的并集,互信息當做熵的交集。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容