交叉熵推導

定義:

  • 信息量公式:
    (一個事件發(fā)生時,所包含的信息量,發(fā)生的概率越低,包含的信息量就越高,比如明天的太陽打東邊升起,就是一句幾乎不包含信息的話)
    I(x_0)=-log(p(x_0))
    其中x_0為隨機變量的某個特定值,p是隨機變量X的概率質(zhì)量函數(shù)
  • 熵公式:
    (隨機變量的信息量的期望值)
    離散:
    \begin{aligned} H(X)=E[I(X)]&=\sum_{i=1}^{m} I(x_i)p(x_i) \\ &=\sum_{i=1}^{m} -log(p(x_i))p(x_i) \\ &=-\sum_{i=1}^{m} p(x_i)log(p(x_i)) \end {aligned}
    連續(xù):
    暫時不討論
  • 相對熵:
    (KL散度,討論的是一個概率如果用另一個概率來描述時,它所需要的額外信息量,被稱為信息增量)
    現(xiàn)在存在兩個概率pq,他們都是隨機變量X的分布函數(shù),現(xiàn)在它們的信息熵分別為:
    \begin {aligned} H_p(X)=E_p[I(X)]&=-\sum_{i=1}^{m} p(x_i)log(p(x_i)) \end {aligned} \\ \begin {aligned} H_q(X)=E_q[I(X)]&=-\sum_{i=1}^{m} q(x_i)log(q(x_i)) \end {aligned}
    \begin {aligned} D_{KL}(p||q)=\sum_{i=1}^m p(x_i) ln(\frac {p(x_i)} {q(x_i)}) \end {aligned}

推導可得交叉熵

  • 交叉熵:
    \begin {aligned} D_{KL}(p||q)&=\sum_{i=1}^m p(x_i ) ln(\frac {p(x_i)} {q(x_i)}) \\ & =\sum_{i=1}^m p(x_i) [ln(p(x_i)) - ln(q(x_i))] \\ & =\sum_{i=1}^m p(x_i)ln(p(x_i)) - \sum_{i=1}^m p(x_i) ln(q(x_i)) \\ & = -H(X) + [-( \sum_{i=1}^m p(x_i) ln(q(x_i)))] \end {aligned}
    其中,-( \sum_{i=1}^m p(x_i) ln(q(x_i)))就是交叉熵。
    H(p, q)=-\sum_{i=1}^m p(x_i) ln(q(x_i))

參考:
一文搞懂交叉熵在機器學習中的使用,透徹理解交叉熵背后的直覺-史丹利復合田
期望值-維基百科
相對熵-維基百科

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容