香農(nóng)信息熵、交叉熵和相對(duì)熵

一條信息的不確定性由它出現(xiàn)概率的負(fù)對(duì)數(shù)函數(shù)來(lái)表示。一方面負(fù)對(duì)數(shù)函數(shù)在數(shù)值上概率輸入的單調(diào)遞減函數(shù),比如輸入為1時(shí)值為0,輸入為0時(shí)值為無(wú)窮大。另一方面,獨(dú)立分布的概率的不確定性應(yīng)等于各自的不確定性之和,f(x1, x2) = f(x1) + f(x2),負(fù)對(duì)數(shù)函數(shù)滿足這條性質(zhì)。

香農(nóng)信息熵衡量了多條信息源的平均不確定性,定義為總體信息的不確定性的期望值。

交叉熵是指當(dāng)我們手上有信息的真實(shí)分布p(x)和非真實(shí)分布q(x),我們以非真實(shí)分布來(lái)計(jì)算信息的不確定性,然后以真實(shí)分布來(lái)計(jì)算信息的香農(nóng)信息熵,那么我們有H(p,q)=

上式衡量了非真實(shí)分布和真實(shí)分布的交叉熵H(p,q)。

根據(jù)Gibbs' inequality(https://en.wikipedia.org/wiki/Gibbs%27_inequality),H(p, q)不小于H(p),當(dāng)且僅當(dāng)q等于p時(shí),兩者相等。

相對(duì)熵為H(p, q) - H(p),又叫做KL散度,表示了p和q兩個(gè)概率分布的差異性。p和q差異越大,KL散度越大,p和q越接近,KL散度越小。

我們?cè)跈C(jī)器學(xué)習(xí)算法當(dāng)中使用交叉熵作為loss,最小化交叉熵作為目標(biāo)。也就說(shuō)明了我們的優(yōu)化目標(biāo),H(p,
q)最小化,是使得我們得到的非真實(shí)分布越來(lái)越接近真實(shí)分布。

以上參考
https://www.zhihu.com/question/41252833
https://baike.baidu.com/item/%E4%BF%A1%E6%81%AF%E7%86%B5/7302318?fr=aladdin

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容