交叉熵 相對熵(KL散度/互熵)

香農(nóng)熵

熵考察(香農(nóng)熵)的是單個的信息(分布)的期望:反映了一個系統(tǒng)的無序化(有序化)程度,一個系統(tǒng)越有序,信息熵就越低,反之就越高。


交叉熵

交叉熵考察的是兩個的信息(分布)的期望:

交叉熵和熵,相當于,協(xié)方差和方差



相對熵

相對熵考察兩個信息(分布)之間的不相似性:

所謂相對,自然在兩個隨機變量之間。又稱互熵,Kullback–Leibler divergence(K-L 散度)等。設p(x)和q(x)是X取值的兩個概率分布,則p對q的相對熵為:


在一定程度上,熵可以度量兩個隨機變量的距離。KL 散度是兩個概率分布 P 和 Q 差別的非對稱性的度量。KL 散度是用來度量使用基于 Q 的編碼來編碼來自 P 的樣本平均所需的額外的位元數(shù)。

典型情況下,P 表示數(shù)據(jù)的真實分布,Q 表示數(shù)據(jù)的理論分布,模型分布,或 P 的近似分布。

相對熵的性質(zhì),相對熵(KL散度)有兩個主要的性質(zhì)。如下

(1)盡管 KL 散度從直觀上是個度量或距離函數(shù),但它并不是一個真正的度量或者距離,因為它不具有對稱性,即


(2)相對熵的值為非負值,即



三者之間的關(guān)系:


簡森不等式與 KL散度:


因為?lnx是凸函數(shù),所以滿足,凸函數(shù)的簡森不等式的性質(zhì):

這里我們令f(?)=?lnx,則其是關(guān)于x的凸函數(shù),因此:

也即 KL 散度恒大于等于 0;



聯(lián)合熵

聯(lián)合熵:(X,Y)在一起時的不確定性度量



條件熵

條件熵:? ? X確定時,Y的不確定性度量

? ? ? ? ? ? ? 在X發(fā)生是前提下,Y發(fā)生新帶來的熵。



聯(lián)系:


?

如果是回歸問題的,使用平方損失函數(shù)。分類問題建議使用交叉熵損失,用平方損失會出現(xiàn)如下問題:在誤差較大時,損失函數(shù)比較平坦,更新較慢,還會出現(xiàn)梯度為0的情況,期望的情況是訓練完成時,到達某個極值點,這時梯度為0,所以就沒辦法判斷訓練是否完成了。交叉熵損失就不會出現(xiàn)這種情況,在遠離目標的時候,曲線比較陡峭。




來源:http://blog.csdn.net/lanchunhui/article/details/50970625

? ? ? ? ? http://blog.csdn.net/lanchunhui/article/details/53365438

? ? ? ? ? http://blog.csdn.net/lanchunhui/article/details/51277608

? ? ? ? ? http://www.cnblogs.com/little-YTMM/p/5582271.html


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

  • Kullback-Leibler Divergence,即K-L散度,是一種量化兩種概率分布P和Q之間差異的方式,...
    Aspirinrin閱讀 159,726評論 29 233
  • 摘要:在深度學習之前已經(jīng)有很多生成模型,但苦于生成模型難以描述難以建模,科研人員遇到了很多挑戰(zhàn),而深度學習的出現(xiàn)幫...
    肆虐的悲傷閱讀 11,619評論 1 21
  • 請聽題:什么是熵?什么是交叉熵?什么是聯(lián)合熵?什么是條件熵?什么是相對熵?它們的聯(lián)系與區(qū)別是什么? 如果你感到回答...
    工程師milter閱讀 12,424評論 5 57
  • 信息是我們一直在談論的東西,但信息這個概念本身依然比較抽象。但信息可不可以被量化,怎樣量化?答案當然是有的,那就是...
    哈勞斯軍士閱讀 3,805評論 0 3
  • 熵的相關(guān)概念,第一次在決策樹那章做了簡單介紹,但是要想正確理解熵的確實需要下一番功夫。這次,我們在最大熵模型這章繼...
    559fb24f07f0閱讀 5,696評論 2 11

友情鏈接更多精彩內(nèi)容