
1. 全概率公式、貝葉斯公式

舉例:

2. 先驗(yàn)概率、后驗(yàn)概率


3. 概率密度函數(shù)、分布函數(shù)


KL散度
KL散度用來做什么?
KL散度的用途:比較兩個(gè)概率分布的接近程度。
在統(tǒng)計(jì)應(yīng)用中,我們經(jīng)常需要用一個(gè)簡單的,近似的概率分布 f^ 來描述觀察數(shù)據(jù) D或者另一個(gè)復(fù)雜的概率分布 f。此時(shí),我們需要一個(gè)量來衡量我們選擇的近似分布 f^相比原分布f究竟損失了多少信息量,這就是KL散度起作用的地方。

熵可以被理解為:我們編碼所有信息所需要的最小位數(shù)

KL散度計(jì)算:數(shù)據(jù)的原分布與近似分布的概率的對數(shù)差的期望值
信息熵是什么?
https://www.zhihu.com/question/22178202/answer/667876061
香農(nóng)最初并沒有借用“熵”這個(gè)詞匯來表達(dá)他關(guān)于信息傳輸中的“不確定性”的度量化。他甚至都不太知曉他所考慮的量與古典熱力學(xué)熵之間的類似性。他想把它稱為“information(信息)”,但又認(rèn)為這個(gè)名詞太過大眾化,已被普通老百姓的日常話語用濫了。他又考慮過就用單詞“uncertainty(不確定性)”,但它卻更像抽象名詞,缺乏量化的余地,確實(shí)難于定奪。終于有一天,他遇見了天才的數(shù)學(xué)家馮 ? 諾依曼(John von Neumann, 1903-1957)。真是找對了人!馮·諾依曼馬上告訴他:
就叫它熵吧,這有兩個(gè)好理由。一是你的不確定性函數(shù)已在統(tǒng)計(jì)物理中用到過,在那里它就叫熵。第二個(gè)理由更重要:沒人真正理解熵為何物,這就讓你在任何時(shí)候都可能進(jìn)能退,立于不敗之地。
香農(nóng)的信息熵本質(zhì)上是對我們司空見慣的“不確定現(xiàn)象”的數(shù)學(xué)化度量。譬如說,如果天氣預(yù)報(bào)說“今天中午下雨的可能性是百分之九十”,我們就會(huì)不約而同想到出門帶傘;如果預(yù)報(bào)說“有百分之五十的可能性下雨”,我們就會(huì)猶豫是否帶傘,因?yàn)橛陚銦o用時(shí)確是累贅之物。顯然,第一則天氣預(yù)報(bào)中,下雨這件事的不確定性程度較小,而第二則關(guān)于下雨的不確定度就大多了。
