一、概率介紹
在介紹貝葉斯公式之前,我們先了解下一些概念:
- 1)條件概率、聯(lián)合概率、邊緣概率
- 2)全概率公式
- 3)先驗(yàn)概率、似然函數(shù)、后驗(yàn)概率
條件概率、聯(lián)合概率、邊緣概率
條件概率:事件B發(fā)生的情況下,事件A發(fā)生的概率,即P(A=a|B=b),記作 P(A|B)。
聯(lián)合概率:在多元概率分布中,多個(gè)條件同時(shí)成立的概率,即P(X=a, Y=b),記作P(AB)。
邊緣概率:與聯(lián)合概率對(duì)應(yīng)的,單個(gè)隨機(jī)變量的概率,即P(X=a)或P(Y=b),記作P(A)。
條件概率、聯(lián)合概率、邊緣概率的關(guān)系如下:

由得到推導(dǎo)式:
??????
公式變形:
??????
全概率公式
劃分
設(shè)為試驗(yàn)
的樣本空間,
為
的一組事件,若
??
??
則稱(chēng)為樣本空間
的一個(gè)劃分。
全概率公式
設(shè)試驗(yàn)的樣本空間為
,
為
的事件,
為
的一個(gè)劃分,且
,則
稱(chēng)為全概率公式。
先驗(yàn)概率、似然函數(shù)、后驗(yàn)概率
先驗(yàn)概率:一個(gè)事情發(fā)生前我們大概知道這件事情發(fā)生的概率。它一般是根據(jù)以往經(jīng)驗(yàn)和分析得到的概率。
似然函數(shù):給定輸出x時(shí),關(guān)于參數(shù)θ的似然函數(shù)L(θ|x)(在數(shù)值上)等于給定參數(shù)θ后變量X的概率:L(θ|x)=P(X=x|θ)。
后驗(yàn)概率:當(dāng)某個(gè)與之關(guān)聯(lián)的事情發(fā)生后,我們?nèi)ブ匦露x這個(gè)事情發(fā)生的概率。后驗(yàn)概率的計(jì)算要以先驗(yàn)概率為基礎(chǔ),在貝葉斯公式中,用先驗(yàn)概率和似然函數(shù)計(jì)算出來(lái)。
舉一個(gè)簡(jiǎn)單的例子:一口袋里有3只紅球、2只白球,采用不放回方式摸取,求:
⑴ 第一次摸到紅球(記作A)的概率;
⑵ 第二次摸到紅球(記作B)的概率;
⑶ 已知第二次摸到了紅球,求第一次摸到的是紅球的概率。
解:
⑴ P(A)=3/5,這就是先驗(yàn)概率;
⑵ P(B)=P(A)P(B|A)+P(A逆)P(B|A逆)=3/5
⑶ P(A|B)=P(A)P(B|A)/P(B)=1/2,這就是后驗(yàn)概率。
上例中,同樣是求"第一次摸到紅球的概率",⑴ 是先驗(yàn)概率,而⑶是在"第二次摸到紅球"的條件下求"第一次摸到紅球的概率",⑶是后驗(yàn)概率。
二、貝葉斯定理
由條件概率的推導(dǎo)式和全概率公式可推導(dǎo)出貝葉斯公式:
??
貝葉斯公式的條件:為
的一個(gè)劃分,或說(shuō)
事件為完備事件。
在貝葉斯法則中,每個(gè)名詞都有約定俗成的名稱(chēng):

當(dāng)分析樣本大到接近總體樣本時(shí),樣本中事件發(fā)生的概率將接近于總體中事件發(fā)生的概率。貝葉斯公式為利用搜集到的信息對(duì)原有信息進(jìn)行修正提供了有效手段。在采樣之前,經(jīng)濟(jì)主體對(duì)各種假設(shè)有一個(gè)判斷(先驗(yàn)概率),關(guān)于先驗(yàn)概率的分布,通??筛鶕?jù)經(jīng)濟(jì)主體的經(jīng)驗(yàn)判斷確定,較復(fù)雜精確的可利用最大熵技術(shù)、邊際分布密度、相互信息原理等方法來(lái)確定先驗(yàn)概率分布。
貝葉斯方法的舉例分析
挑戰(zhàn)者M(jìn)不知道原壟斷者N屬于高阻撓成本還是低阻撓成本類(lèi)型,但M知道,如果N屬于高阻撓成本類(lèi)型,M進(jìn)入市場(chǎng)時(shí)N進(jìn)行阻撓的概率是20%(此時(shí)N為了保持壟斷帶來(lái)的高利潤(rùn),不計(jì)成本地拼命阻撓);如果N屬于低阻撓類(lèi)型,M進(jìn)入市場(chǎng)時(shí)N進(jìn)行阻撓的概率是100%。
假設(shè)博弈開(kāi)始M認(rèn)為N屬于高阻撓成本企業(yè)的概率為70%(先驗(yàn)概率),請(qǐng)問(wèn):
1)M估計(jì)自己進(jìn)入市場(chǎng)時(shí),受到N阻撓的概率?
2)當(dāng)M進(jìn)入市場(chǎng)時(shí),N確實(shí)進(jìn)行阻撓。那么M重新估計(jì)自己進(jìn)入市場(chǎng)時(shí),受到N阻撓的概率?
3)如果M再一次進(jìn)入市場(chǎng)時(shí),N又進(jìn)行了阻撓。那么M重新估計(jì)自己進(jìn)入市場(chǎng)時(shí),受到N阻撓的概率?
解:記“M認(rèn)為N為高阻撓”為事件A,"B進(jìn)入市場(chǎng)時(shí),受到A阻撓"為事件B,則有P(B) = P(A)×0.2 + (1-P(A))×1。
1)先驗(yàn)概率P(A) = 0.7
P(B) = P(A)×0.2 + (1-P(A))×1=0.7×0.2 + 0.3×1=0.44
2)當(dāng)M進(jìn)入市場(chǎng)時(shí),N確實(shí)進(jìn)行阻撓。
P(A|B)=P(B|A)P(A)/P(B)=0.2×0.7÷0.44=0.32
P(A')=P(A|B)=0.32
P(B')=P(A')×0.2 + (1-P(A'))×1=0.32×0.2 + 0.68×1=0.744
3)如果M再一次進(jìn)入市場(chǎng),N又進(jìn)行了阻撓。
P(A'|B')=P(B'|A')P(A')/P(B')=0.2×0.32÷0.744=0.086
P(A'')=P(A'|B')=0.086
P(B'')=P(A'')×0.2 + (1-P(A''))×1=0.086×0.2 + 0.914×1=0.9312
這樣,根據(jù)N一次又一次的阻撓行為,M對(duì)N所屬類(lèi)型的判斷逐步發(fā)生變化,越來(lái)越傾向于將N判斷為低阻撓成本企業(yè)了。
由上例表明,在不完全信息動(dòng)態(tài)博弈中,我們可以利用貝葉斯公式對(duì)原有判斷進(jìn)行修改更新。
三、樸素貝葉斯
樸素貝葉斯方法是貝葉斯算法的簡(jiǎn)化,它以貝葉斯定理為基礎(chǔ),并且假設(shè)特征條件之間相互獨(dú)立。先通過(guò)已給定的訓(xùn)練集,以特征詞之間獨(dú)立作為前提假設(shè),學(xué)習(xí)從輸入到輸出的聯(lián)合概率分布,再基于學(xué)習(xí)到的模型,輸入求出使得后驗(yàn)概率最大的輸出
。
設(shè)有樣本數(shù)據(jù)集{
},對(duì)應(yīng)樣本數(shù)據(jù)的特征屬性集為
{
},類(lèi)變量為
{
},即
可以分為
~
類(lèi)。其中特征屬性集
相互獨(dú)立且隨機(jī),則
的先驗(yàn)概率
,
的后驗(yàn)概率
,由樸素貝葉斯算法可得,后驗(yàn)概率可以由先驗(yàn)概率
、證據(jù)
、類(lèi)條件概率
計(jì)算出:
???????
樸素貝葉斯基于各特征之間相互獨(dú)立,在給定類(lèi)別為的情況下,有:
???????
由以上兩式可以計(jì)算出后驗(yàn)概率為:
???????
由于的大小是固定不變的,因此在比較后驗(yàn)概率時(shí),只比較上式的分子部分即可。因此可以得到一個(gè)樣本數(shù)據(jù)屬于類(lèi)別
的樸素貝葉斯計(jì)算如下所示:
???????
樸素貝葉斯的優(yōu)缺點(diǎn):
- 優(yōu)點(diǎn):①由于假設(shè)了數(shù)據(jù)集屬性之間是相互獨(dú)立的,因此算法的邏輯性十分簡(jiǎn)單。②樸素貝葉斯對(duì)于不同類(lèi)型的數(shù)據(jù)集不會(huì)呈現(xiàn)太大的差異性,健壯性比較好。③當(dāng)數(shù)據(jù)集屬性之間的關(guān)系相對(duì)比較獨(dú)立時(shí),樸素貝葉斯算法有較好的分類(lèi)效果。
- 缺點(diǎn):假設(shè)屬性獨(dú)立性的條件也是樸素貝葉斯的不足之處。數(shù)據(jù)集之間往往都存在著相互關(guān)聯(lián),如果數(shù)據(jù)集間關(guān)聯(lián)緊密,那么分類(lèi)效果就會(huì)大大降低。