定義:
- 信息量公式:
(一個事件發(fā)生時,所包含的信息量,發(fā)生的概率越低,包含的信息量就越高,比如明天的太陽打東邊升起,就是一句幾乎不包含信息的話)
其中為隨機變量的某個特定值,
是隨機變量
的概率質(zhì)量函數(shù)
- 熵公式:
(隨機變量的信息量的期望值)
離散:
連續(xù):
暫時不討論 - 相對熵:
(KL散度,討論的是一個概率如果用另一個概率來描述時,它所需要的額外信息量,被稱為信息增量)
現(xiàn)在存在兩個概率與
,他們都是隨機變量
的分布函數(shù),現(xiàn)在它們的信息熵分別為:
推導可得交叉熵
- 交叉熵:
其中,就是交叉熵。