基本公式
全概率公式:設(shè)試驗(yàn)E的樣本空間為S,A為E的事件,B1,B2,...,Bn為S的一個(gè)劃分,并且P(Bi)>0(i=1,2,..,n) 那么:
P(A)=P(A|B1)P(B1)+P(A|B2)PB2)+...+P(A|Bn)P(Bn)
全概率公式證明依據(jù):P(A)=P(AS)=P(AB1)+P(AB2)...+P(ABn)=P(A|B1)P(B1)+P(A|B2)P(B2)+....P(A|Bn)P(Bn)
S是樣本空間,B1,B2,...,Bn是S的劃分
貝葉斯公式:設(shè)試驗(yàn)E的樣本空間為S,A為E的事件,B1,B2,..,Bn為S的一個(gè)劃分,且P(A)>0,P(Bi)>0(i=1,2,3,...,n)那么:

貝葉斯公式分子證明依據(jù)(條件概率公式):P(Bi|A)=P(BiA)/P(A) P(BiA)=P(A|Bi)P(Bi)
貝葉斯公式分母證明依據(jù)(全概率公式)
貝葉斯規(guī)則
貝葉斯規(guī)則以Thomas Bayes主教命名。
用來(lái)估計(jì)統(tǒng)計(jì)量的某種性質(zhì)。
貝葉斯是用概率反映知識(shí)狀態(tài)的確定性程度,數(shù)據(jù)集可以直接觀測(cè)到,所以他不是隨機(jī)的。
貝葉斯推斷與其他統(tǒng)計(jì)學(xué)推斷方法截然不同。它建立在主觀判斷的基礎(chǔ)上,也就是說(shuō),你可以不需要客觀證據(jù),先估計(jì)一個(gè)值,然后根據(jù)實(shí)際結(jié)果不斷修正。貝葉斯推斷需要大量的計(jì)算。
http://www.ruanyifeng.com/blog/2011/08/bayesian_inference_part_one.html
貝葉斯定理
他是一種條件概率條件概率。 比如:在B發(fā)生時(shí),A發(fā)生的可能性。
公式為:

公式中,事件Bi的概率為P(Bi),事件Bi已發(fā)生條件下事件A的概率為P(A│Bi),事件A發(fā)生條件下事件Bi的概率為P(Bi│A)。
用來(lái)計(jì)算簡(jiǎn)單條件下發(fā)生的復(fù)雜事件。
條件概率
正如以上所說(shuō):在B發(fā)生時(shí),A發(fā)生的可能性。 P(A|B)
通過(guò)韋恩圖可以看到:

B發(fā)生時(shí),A發(fā)生的概率:P(A|B)=P(A∩B)/P(B)
可以得到條件概率的推導(dǎo)過(guò)程如下:


等式合并:

最終得到:

P(類(lèi)別|特征) = P(特征|類(lèi)別)P(類(lèi)別)/P(特征)
先驗(yàn)概率 后驗(yàn)概率
先驗(yàn)概率
根據(jù)以往經(jīng)驗(yàn)和分析得到的概率。 往往作為 由因求果 問(wèn)題中的 因 出現(xiàn)的概率。 又稱(chēng): 古典概率
(在觀測(cè)數(shù)據(jù)之前,我們將已知的知識(shí)表示成 先驗(yàn)概率分布 但是一般而言我們會(huì)選擇一個(gè)相當(dāng)寬泛的先驗(yàn)(高熵),反映在觀測(cè)到的任何數(shù)據(jù)前,參數(shù)的高度不確定性)
(通常,先驗(yàn)概率開(kāi)始是相對(duì)均勻的分布或高熵的高斯分布,觀測(cè)數(shù)據(jù)通常會(huì)使后驗(yàn)的熵下降)
在上述貝葉斯公式中,我們把P(A)稱(chēng)為先驗(yàn)概率。 (B事件發(fā)生之前,對(duì)A事件概率的一個(gè)判斷)
把P(A|B)稱(chēng)為后驗(yàn)概率。(事件B發(fā)生之后,對(duì)事件A概率的重新評(píng)估)
P(B|A)/P(B)稱(chēng)為:可能性函數(shù)。 這是一個(gè)調(diào)整因子,使得預(yù)估概率更接近真實(shí)概率。
后驗(yàn)概率
在一個(gè)通信系統(tǒng)中,在收到某個(gè)消息之后,接收端所了解到的該消息發(fā)送的概率稱(chēng)為后驗(yàn)概率。
他是在給出相關(guān)證據(jù)或者數(shù)據(jù)后得到的條件概率。
他指的是在得到結(jié)果的信息重新修正的概率。計(jì)算后驗(yàn)概率必須以先驗(yàn)概率為基礎(chǔ)。
后驗(yàn)概率 = 先驗(yàn)概率 * 調(diào)整因子
似然函數(shù)
上述調(diào)整因子又叫 似然函數(shù)
他是關(guān)于統(tǒng)計(jì)模型參數(shù)的函數(shù)。
假定一個(gè)關(guān)于參數(shù)y,具有離散型概率分布P的隨機(jī)變量X,則在給定X的輸出x時(shí),關(guān)于參數(shù)y的似然函數(shù)是:L(y|x)等于給定參數(shù)y后變量X的概率:
L(y|x) = P(X=x|y) = Py(x)
概率:用于已知一些參數(shù)的情況下,預(yù)測(cè)接下來(lái)的觀測(cè)所得到的結(jié)果。
似然:用于在已知某些觀測(cè)所得到的結(jié)果時(shí),對(duì)有關(guān)食物的性質(zhì)的參數(shù)進(jìn)行估計(jì)。
似然函數(shù)可以理解為條件概率的逆反。
先驗(yàn)概率和后驗(yàn)概率區(qū)別
材料:
1:先驗(yàn)概率:利用現(xiàn)有材料計(jì)算的。
2:后驗(yàn)概率:利用先驗(yàn)概率+補(bǔ)充材料計(jì)算的。
計(jì)算:
1:先驗(yàn)概率:古典概率。
2:后驗(yàn)概率:使用貝葉斯公式,使用樣本資料計(jì)算邏輯概率,還要使用概率分布,數(shù)理統(tǒng)計(jì)。
全概率.
將復(fù)雜事件概率求解 轉(zhuǎn)化為: 不同情況下發(fā)生的簡(jiǎn)單事件概率的和。
用來(lái)計(jì)算復(fù)雜事件的概率。
定義:假設(shè){Bn:n=1,2,3,...}是一個(gè)概率空間的有限或者無(wú)限的分割(既Bn為一完備事件組),且每個(gè)集合Bn是一個(gè)可測(cè)集合,則對(duì)任意時(shí)間A有全概率公式:

通過(guò)條件概率的推導(dǎo)可以看到:P(A∩B) = P(A|B)P(B) = P(B|A)P(A)
帶入上述公式。

全概率公式,將對(duì)一復(fù)雜事件A的概率求解問(wèn)題轉(zhuǎn)換為在不同情況下或者不同原因Bn下發(fā)生的簡(jiǎn)單概率的求和問(wèn)題。
全概率推導(dǎo)
現(xiàn)在我們有樣本空間S,事件A,A‘和B。
韋恩圖:

從上圖給出:
P(B) = P(B∩A) + P(B∩A')
將條件概率推導(dǎo)中的公式有:
P(B∩A) = P(B|A)P(A)
將上述公式合并:
P(B) = P(B|A)P(A) + P(B|A')P(A')
解釋?zhuān)喝绻鸄和A'構(gòu)成樣本空間,那么事件B的概率就是A和A’的概率分別乘以B對(duì)這兩個(gè)事件的條件概率之和。
公式另一寫(xiě)法:

樸素貝葉斯
樸素貝葉斯算法是假設(shè)各個(gè)特征之間相互獨(dú)立。
癌癥測(cè)試(假陽(yáng)性問(wèn)題)
假設(shè)一種特定的癌癥,發(fā)病率為人口的1%。
如果得了這種癌癥,檢查結(jié)果90%可能是呈陽(yáng)性。
但是你并沒(méi)有患癌癥,檢查結(jié)果還是呈陽(yáng)性。所以,假設(shè) 如果你沒(méi)有患上這種特定癌癥,有90%可能性是呈陰性的。 這通常叫做 特異性。
問(wèn)題:沒(méi)有任何癥狀的情況下,你進(jìn)行了檢查,檢查結(jié)果呈陽(yáng)性, 那么你認(rèn)為患上這種特定癌癥的可能性是多少?
之前的癌癥概率是 1%,敏感型和特殊性是 90%,癌癥測(cè)試結(jié)果呈陽(yáng)性的人患病的概率有多大?
是:百分之八又1/3
假定A事件表示得病,P(A)=0.001,這是先驗(yàn)概率。(沒(méi)有做實(shí)驗(yàn)之前,我們預(yù)計(jì)的發(fā)病率)
假定B事件表示陽(yáng)性,那么計(jì)算P=(A|B),這是后驗(yàn)概率。(做了試驗(yàn)后,對(duì)發(fā)病率的估計(jì))
P(A|B)=P(A)P(B|A)/P(B)
用全概率公式,改寫(xiě)分母:
P(A|B)=P(A)P(B|A)/(P(B|A)P(A)+P(B|A反)P(A反))
在上面,誤報(bào)率是 10% (因?yàn)闄z查中90%是陰性,剩下10%是陽(yáng)性。這里可能是誤報(bào)的)
郵件分類(lèi)
假設(shè):現(xiàn)在我們有兩個(gè)人A和B,兩人寫(xiě)郵件都會(huì)用到love,deal,life這三個(gè)單詞。
A使用三個(gè)單詞的頻率為:love=0.1,deal=0.8,life=0.1。
B使用三個(gè)單詞的頻率為:love=0.5,deal=0.2,life=0.3。
現(xiàn)在我們有很多封email,假設(shè)這封email作者是A或者B是等概率的,
現(xiàn)在有一封email,只包括life和deal兩個(gè)詞,那么這封郵件的作者是A或者B的概率。
計(jì)算先驗(yàn)概率
P(emailA) = P(lifeA)P(dealA)P(A) = 0.1* 0.8 * 0.5 = 0.04
P(emailB) = P(lifeB)P(dealB)P(B) = 0.3 * 0.2 * 0.5 = 0.03
當(dāng)觀察到life和deal兩個(gè)詞的條件下,作者是A或者B的概率
計(jì)算后驗(yàn)概率
P(emailA|"life,deal") = P(emailA) * f(x)(似然函數(shù)) = 0.04 * (1/(0.04+ 0.03)) = 0.57
P(emailB|"life,deal") = P(emialB) * f(x) = 0.03 * (1/(0.04+ 0.03)) = 0.43
全概率:
P(emailA|"life,deal") + P(emailB|"life,deal") = 1