一條信息的不確定性由它出現(xiàn)概率的負(fù)對(duì)數(shù)函數(shù)來(lái)表示。一方面負(fù)對(duì)數(shù)函數(shù)在數(shù)值上概率輸入的單調(diào)遞減函數(shù),比如輸入為1時(shí)值為0,輸入為0時(shí)值為無(wú)窮大。另一方面,獨(dú)立分布的概率的不確定性應(yīng)等于各自的不確定性之和,f(x1, x2) = f(x1) + f(x2),負(fù)對(duì)數(shù)函數(shù)滿足這條性質(zhì)。

上式衡量了非真實(shí)分布和真實(shí)分布的交叉熵H(p,q)。
根據(jù)Gibbs' inequality(https://en.wikipedia.org/wiki/Gibbs%27_inequality),H(p, q)不小于H(p),當(dāng)且僅當(dāng)q等于p時(shí),兩者相等。
相對(duì)熵為H(p, q) - H(p),又叫做KL散度,表示了p和q兩個(gè)概率分布的差異性。p和q差異越大,KL散度越大,p和q越接近,KL散度越小。
我們?cè)跈C(jī)器學(xué)習(xí)算法當(dāng)中使用交叉熵作為loss,最小化交叉熵作為目標(biāo)。也就說(shuō)明了我們的優(yōu)化目標(biāo),H(p,
q)最小化,是使得我們得到的非真實(shí)分布越來(lái)越接近真實(shí)分布。
以上參考
https://www.zhihu.com/question/41252833
https://baike.baidu.com/item/%E4%BF%A1%E6%81%AF%E7%86%B5/7302318?fr=aladdin