機(jī)器學(xué)習(xí)(概率論):貝葉斯定理

一、概率介紹

在介紹貝葉斯公式之前,我們先了解下一些概念:

  • 1)條件概率、聯(lián)合概率、邊緣概率
  • 2)全概率公式
  • 3)先驗(yàn)概率、似然函數(shù)、后驗(yàn)概率
條件概率、聯(lián)合概率、邊緣概率

條件概率:事件B發(fā)生的情況下,事件A發(fā)生的概率,即P(A=a|B=b),記作 P(A|B)。
聯(lián)合概率:在多元概率分布中,多個(gè)條件同時(shí)成立的概率,即P(X=a, Y=b),記作P(AB)。
邊緣概率:與聯(lián)合概率對(duì)應(yīng)的,單個(gè)隨機(jī)變量的概率,即P(X=a)或P(Y=b),記作P(A)。

條件概率、聯(lián)合概率、邊緣概率的關(guān)系如下:

P(A|B)=\frac{P(AB)}{P(B)},P(B|A)=\frac{P(BA)}{P(A)},P(AB)=P(BA)得到推導(dǎo)式:
??????P(AB)=P(A|B)P(B)=P(B|A)P(A)
公式變形:
??????P(B|A)=\frac{P(A|B)P(B)}{P(A)}

全概率公式
劃分

設(shè)S為試驗(yàn)E的樣本空間,B_1,B_2,...,B_nE的一組事件,若
??1)B_iB_j=?, i≠j(i,j=1,2,...,n);
??2)B_1∪B_2∪...∪B_n=S,
則稱(chēng)B_1,B_2,...,B_n為樣本空間S的一個(gè)劃分。

全概率公式

設(shè)試驗(yàn)E的樣本空間為SAE的事件,B_1,B_2,...,B_nS的一個(gè)劃分,且P(B_i)>0(i=1,2,...,n),則
P(A)=P(A|B_1)P(B_1)+P(A|B_2)P(B_2)+...+P(A|B_n)P(B_n)=\sum_{i=1}^nP(A|B_i)P(B_i)
稱(chēng)為全概率公式

先驗(yàn)概率、似然函數(shù)、后驗(yàn)概率

先驗(yàn)概率:一個(gè)事情發(fā)生前我們大概知道這件事情發(fā)生的概率。它一般是根據(jù)以往經(jīng)驗(yàn)和分析得到的概率。
似然函數(shù):給定輸出x時(shí),關(guān)于參數(shù)θ的似然函數(shù)L(θ|x)(在數(shù)值上)等于給定參數(shù)θ后變量X的概率:L(θ|x)=P(X=x|θ)。
后驗(yàn)概率:當(dāng)某個(gè)與之關(guān)聯(lián)的事情發(fā)生后,我們?nèi)ブ匦露x這個(gè)事情發(fā)生的概率。后驗(yàn)概率的計(jì)算要以先驗(yàn)概率為基礎(chǔ),在貝葉斯公式中,用先驗(yàn)概率和似然函數(shù)計(jì)算出來(lái)。

舉一個(gè)簡(jiǎn)單的例子:一口袋里有3只紅球、2只白球,采用不放回方式摸取,求:
⑴ 第一次摸到紅球(記作A)的概率;
⑵ 第二次摸到紅球(記作B)的概率;
⑶ 已知第二次摸到了紅球,求第一次摸到的是紅球的概率。
解:
⑴ P(A)=3/5,這就是先驗(yàn)概率;
⑵ P(B)=P(A)P(B|A)+P(A逆)P(B|A逆)=3/5
⑶ P(A|B)=P(A)P(B|A)/P(B)=1/2,這就是后驗(yàn)概率。
上例中,同樣是求"第一次摸到紅球的概率",⑴ 是先驗(yàn)概率,而⑶是在"第二次摸到紅球"的條件下求"第一次摸到紅球的概率",⑶是后驗(yàn)概率。


二、貝葉斯定理

由條件概率的推導(dǎo)式和全概率公式可推導(dǎo)出貝葉斯公式:
??P(B_i|A)=\frac{P(A|B_i)P(B_i)}{P(A)}=\frac{P(A|B_i)P(B_i)}{\sum_{i=1}^nP(A|B_i)P(B_i)},i=1,2,...,n.
貝葉斯公式的條件:B_1,B_2,...,B_nS的一個(gè)劃分,或說(shuō) B事件為完備事件。

在貝葉斯法則中,每個(gè)名詞都有約定俗成的名稱(chēng):

貝葉斯公式.png

當(dāng)分析樣本大到接近總體樣本時(shí),樣本中事件發(fā)生的概率將接近于總體中事件發(fā)生的概率。貝葉斯公式為利用搜集到的信息對(duì)原有信息進(jìn)行修正提供了有效手段。在采樣之前,經(jīng)濟(jì)主體對(duì)各種假設(shè)有一個(gè)判斷(先驗(yàn)概率),關(guān)于先驗(yàn)概率的分布,通??筛鶕?jù)經(jīng)濟(jì)主體的經(jīng)驗(yàn)判斷確定,較復(fù)雜精確的可利用最大熵技術(shù)、邊際分布密度、相互信息原理等方法來(lái)確定先驗(yàn)概率分布。

貝葉斯方法的舉例分析

挑戰(zhàn)者M(jìn)不知道原壟斷者N屬于高阻撓成本還是低阻撓成本類(lèi)型,但M知道,如果N屬于高阻撓成本類(lèi)型,M進(jìn)入市場(chǎng)時(shí)N進(jìn)行阻撓的概率是20%(此時(shí)N為了保持壟斷帶來(lái)的高利潤(rùn),不計(jì)成本地拼命阻撓);如果N屬于低阻撓類(lèi)型,M進(jìn)入市場(chǎng)時(shí)N進(jìn)行阻撓的概率是100%。
假設(shè)博弈開(kāi)始M認(rèn)為N屬于高阻撓成本企業(yè)的概率為70%(先驗(yàn)概率),請(qǐng)問(wèn):
1)M估計(jì)自己進(jìn)入市場(chǎng)時(shí),受到N阻撓的概率?
2)當(dāng)M進(jìn)入市場(chǎng)時(shí),N確實(shí)進(jìn)行阻撓。那么M重新估計(jì)自己進(jìn)入市場(chǎng)時(shí),受到N阻撓的概率?
3)如果M再一次進(jìn)入市場(chǎng)時(shí),N又進(jìn)行了阻撓。那么M重新估計(jì)自己進(jìn)入市場(chǎng)時(shí),受到N阻撓的概率?
解:記“M認(rèn)為N為高阻撓”為事件A,"B進(jìn)入市場(chǎng)時(shí),受到A阻撓"為事件B,則有P(B) = P(A)×0.2 + (1-P(A))×1。
1)先驗(yàn)概率P(A) = 0.7
P(B) = P(A)×0.2 + (1-P(A))×1=0.7×0.2 + 0.3×1=0.44
2)當(dāng)M進(jìn)入市場(chǎng)時(shí),N確實(shí)進(jìn)行阻撓。
P(A|B)=P(B|A)P(A)/P(B)=0.2×0.7÷0.44=0.32
P(A')=P(A|B)=0.32
P(B')=P(A')×0.2 + (1-P(A'))×1=0.32×0.2 + 0.68×1=0.744
3)如果M再一次進(jìn)入市場(chǎng),N又進(jìn)行了阻撓。
P(A'|B')=P(B'|A')P(A')/P(B')=0.2×0.32÷0.744=0.086
P(A'')=P(A'|B')=0.086
P(B'')=P(A'')×0.2 + (1-P(A''))×1=0.086×0.2 + 0.914×1=0.9312
這樣,根據(jù)N一次又一次的阻撓行為,M對(duì)N所屬類(lèi)型的判斷逐步發(fā)生變化,越來(lái)越傾向于將N判斷為低阻撓成本企業(yè)了。

由上例表明,在不完全信息動(dòng)態(tài)博弈中,我們可以利用貝葉斯公式對(duì)原有判斷進(jìn)行修改更新。


三、樸素貝葉斯

樸素貝葉斯方法是貝葉斯算法的簡(jiǎn)化,它以貝葉斯定理為基礎(chǔ),并且假設(shè)特征條件之間相互獨(dú)立。先通過(guò)已給定的訓(xùn)練集,以特征詞之間獨(dú)立作為前提假設(shè),學(xué)習(xí)從輸入到輸出的聯(lián)合概率分布,再基于學(xué)習(xí)到的模型,輸入X求出使得后驗(yàn)概率最大的輸出Y。

設(shè)有樣本數(shù)據(jù)集D={d_1,d_2,...,d_n},對(duì)應(yīng)樣本數(shù)據(jù)的特征屬性集為X={x_1,x_2,...,x_d},類(lèi)變量為Y={y_1,y_2,...,y_n},即D可以分為y_1~y_m類(lèi)。其中特征屬性集x_1,x_2,...,x_d相互獨(dú)立且隨機(jī),則Y的先驗(yàn)概率P_{prior}=P(Y),Y的后驗(yàn)概率P_{post}=P(Y|X),由樸素貝葉斯算法可得,后驗(yàn)概率可以由先驗(yàn)概率P_{prior}=P(Y)、證據(jù)P(X)、類(lèi)條件概率P(X|Y)計(jì)算出:
???????P(Y|X)=\frac{P(Y)P(X|Y)}{P(X)}
樸素貝葉斯基于各特征之間相互獨(dú)立,在給定類(lèi)別為y的情況下,有:
???????P(X|Y=y)=\prod_{i=1}^d P(x_i|Y=y)
由以上兩式可以計(jì)算出后驗(yàn)概率為:
???????P_{post}=P(Y|X)=\frac{P(Y)\prod_{i=1}^dP(x_i|Y)}{P(X)}
由于P(X)的大小是固定不變的,因此在比較后驗(yàn)概率時(shí),只比較上式的分子部分即可。因此可以得到一個(gè)樣本數(shù)據(jù)屬于類(lèi)別y_i的樸素貝葉斯計(jì)算如下所示:
???????P(y_i|x_1,x_2,...,x_d)=\frac{P(y_i)\prod_{j=1}^d P(x_j|y_i)}{\prod_{j=1}^dP(x_j)}

樸素貝葉斯的優(yōu)缺點(diǎn):

  • 優(yōu)點(diǎn):①由于假設(shè)了數(shù)據(jù)集屬性之間是相互獨(dú)立的,因此算法的邏輯性十分簡(jiǎn)單。②樸素貝葉斯對(duì)于不同類(lèi)型的數(shù)據(jù)集不會(huì)呈現(xiàn)太大的差異性,健壯性比較好。③當(dāng)數(shù)據(jù)集屬性之間的關(guān)系相對(duì)比較獨(dú)立時(shí),樸素貝葉斯算法有較好的分類(lèi)效果。
  • 缺點(diǎn):假設(shè)屬性獨(dú)立性的條件也是樸素貝葉斯的不足之處。數(shù)據(jù)集之間往往都存在著相互關(guān)聯(lián),如果數(shù)據(jù)集間關(guān)聯(lián)緊密,那么分類(lèi)效果就會(huì)大大降低。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容