神經(jīng)網(wǎng)絡(luò)損失函數(shù)中的各種常見熵(信息熵、KL散度、交叉熵、互信息)

信息熵 Information entropy

對于離散的隨機變量x,首先定義其自信息I(x),它應(yīng)該有以下兩個特點:

  • I(x)應(yīng)該依賴于概率分布p(x),是p(x)的單調(diào)函數(shù)
  • 觀察兩個事件同時發(fā)生時獲得的信息量應(yīng)該等于觀察到事件各自發(fā)生時獲得的信息之和,即I(x,y)=I(x)+I(y),同時滿足p(x,y)=p(x)p(y)

基于上述特點,可定義I(x)=-logp(x),負號保證I(x) \geq 0。

熵表示對所有可能發(fā)生的事件產(chǎn)生的信息量的期望:
H(X) =-\sum_{i=1}^{n}p(x_i)logp(x_i)

聯(lián)合熵 Joint entropy

\begin{align} H(X,Y) &= -\sum_{x,y}p(x,y)logp(x,y) \\ &= -\sum_{i=1}^{n} \sum_{j=1}^mp(x_i,y_j)logp(x_i,y_j) \end{align}

條件熵 Conditional entropy

\begin{align} H(Y|X) &= \sum_{x}p(x)H(Y|X=x) \\ &= -\sum_{x}p(x)\sum_yp(y|x)logp(y|x) \\ &= -\sum_{x,y}p(x,y)logp(y|x) \end{align}

相對熵 Relative entropy,也稱為KL散度

分布p的最佳信息傳遞方式來傳達分布q,比用分布q自己的最佳信息傳遞方式來傳達分布q,平均多耗費的信息長度為相對熵

設(shè)p(x),q(x)是離散隨機變量X中取值x的兩個概率分布:
H(p||q) = KL(p||q) = \sum_x p(x)log\frac{p(x)}{q(x)}
KL散度是不對稱的,即KL(p||q) \neq KL(q||p)。JS散度解決KL不對稱問題。
JS(p||q) = \frac{1}{2}KL(p||\frac{p+q}{2})+\frac{1}{2}KL(q||\frac{p+q}{2})

交叉熵 Cross entropy

用分布p的最佳信息傳遞方式來傳達分布q中隨機抽選的一個事件,所需的平均信息長度為交叉熵
\begin{align} H(p, q) &= -\sum_xp(x)logq(x) \\ &= -\sum p(x)(logp(x) - log\frac{p(x)}{q(x)}) \\ &= H(p) + KL(p||q) \end{align}

互信息 mutual information

一個隨機變量中包含的關(guān)于另一個隨機變量的信息量,或者說是一個隨機變量由于已知另一個隨機變量而減少的不肯定性

\begin{align} I(X,Y) & = H(X) - H(X|Y) = H(Y) - H(Y|X) \\ & = -\sum_x p(x)log p(x) + \sum_{x, y} p(x, y) log p(x|y) \\ & = -\sum_x \sum_yp(x,y)log p(x) + \sum_{x, y} p(x, y) log \frac{p(x,y)}{p(y)} \\ & = -\sum_{x,y}p(x, y) log p(x) + \sum_{x, y} p(x, y) log \frac{p(x,y)}{p(y)} \\ & = \sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)p(y)} \end{align}

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容