剩余

文章含有“program”的概率各個(gè)選集中調(diào)查如下:

p(Y1=1|X=dev) = 0.271

p(Y1=1|X=admin) = 0.136

條件概率p(Y1=1|X=dev) 是「dev選集中,含有“program”的概率」。同理,X=admin 也是一樣。

確實(shí)p(Y1=1|X=dev) > p(Y1=1|X=admin) 成立。

同理,隨機(jī)變量 Y2 作為「文章中含有“application”」,試求它的概率。

p(Y2=1|X=dev) = 0.172

p(Y2=1|X=admin) = 0.523

這樣就可以判斷「含有“application”,不含“program”的文章」術(shù)語哪個(gè)類別。

雖已知滿足這個(gè)條件的隨機(jī)變量是 Y1=0, Y2=1 ,表示類別的隨機(jī)變量X還是未知的。這里,可以判斷:如果求出p(X=dev|Y1=0, Y2=1)?和 p(X=admin|Y1=0, Y2=1) ,概率值大的一方被作為「可信用的 X 值」。

寫文章時(shí),先寫完內(nèi)容再確定類別,是很少見的??傊?,p(X|Y1, Y2)就是事后概率,計(jì)算出該值就可以推斷出文章中隱藏的信息 (例:「文章是為了發(fā)表在dev文集而寫的!」)

這一系列的過程就是基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)的一個(gè)典型思考方式。

雖然得到了使用貝葉斯公式計(jì)算出事后概率的公式,但是使用乘法定理把聯(lián)合概率展開為2個(gè)式子是不是更容易理解一些呢?

p(X, Y1,Y2)

= p(X|Y1,Y2) p(Y1, Y2)

= p(Y1,Y2|X) p(X)

由第2式和第3式可以推導(dǎo)出p(X|Y1, Y2)等于下式:


公式

想一下式子的右邊可以計(jì)算出來嗎?

關(guān)于分子中的p(Y1, Y2|X),假定賦值給X時(shí)Y1, Y2是獨(dú)立。(也叫做「條件獨(dú)立」),從剛才的論證可得,p(Y1, Y2|X)= p(Y1|X) p(Y2|X)成立。

p(X)和p(Y1|X)已知時(shí),式子的右側(cè)可以計(jì)算出來。

至于分母的p(Y1, Y2),可以通過把分子當(dāng)作「隨機(jī)變量X的邊緣化」計(jì)算出來。

具體講,利用乗法定理中p(Y1, Y2|X) p(X) = p(X, Y1, Y2),然后使用加法定理消去X后,變成p(Y1, Y2)。想起來最開始說的「機(jī)器學(xué)習(xí)中反復(fù)使用加法定理和乗法定理」「加法定理也叫做邊緣化」了嗎?

但是,因?yàn)榉帜傅膒(Y1, Y2)中并沒有X(與X無關(guān)),如果「想求出p(X|Y1, Y2)最大的X」,僅僅比較分子就足夠了。

最后,「包含“application”,不包含“program”的文章」,也就是計(jì)算Y1=0, Y2=1兩種情況的事后概率。

想分別求出各個(gè)X的值,先求出分子。

p(Y1=0,Y2=1|X=dev) p(X=dev)

= (1 - 0.271) *0.172 * 0.652

= 0.082

p(Y1=0,Y2=1|X=admin) p(X=admin)

= (1 - 0.136) *0.523 * 0.348

= 0.157

把分母邊緣化后得到的,就是2個(gè)值得和。

p(Y1=0,Y2=1)

= p(X=dev, Y1=0,Y2=1) + p(X=admin, Y1=0, Y2=1)

= 0.082 + 0.157

= 0.239

接著,事后概率如下所示:

p(X=dev|Y1=0,Y2=1)

= p(Y1=0,Y2=1|X=dev) p(X=dev) / p(Y1=0, Y2=1)

= 0.082 / 0.239

= 0.343

p(X=admin|Y1=0,Y2=1)

= p(Y1=0,Y2=1|X=admin) p(X=admin) / p(Y1=0, Y2=1)

= 0.157 / 0.239

= 0.657

哪個(gè)才是更適合的分類,已經(jīng)明白了吧?

這里的「基于條件概率的獨(dú)立性」被稱作「條件獨(dú)立」或者「樸素貝葉斯」「單純貝葉斯」。

當(dāng)然,這里的「條件獨(dú)立」是假設(shè)的,并不是真的獨(dú)立。盡管做了如此大膽的假設(shè),樸素貝葉斯還是有很高的精準(zhǔn)度的。通過簡單計(jì)算并得到好的結(jié)果的就是「好的模型」。

實(shí)際上,樸素貝葉斯在文本分類和信用過濾中經(jīng)常使用。樸素貝葉斯不僅限與用在類別和單詞種類為2的情況,更普通的情況也適用。

下篇為實(shí)踐課程,以樸素貝葉斯為題材,動(dòng)手實(shí)現(xiàn)概率的計(jì)算。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 這一節(jié)是講解關(guān)于機(jī)器學(xué)習(xí)中的概率的。 概率是基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)中最重要的基礎(chǔ)知識。由于從零開始講解概率是有點(diǎn)不現(xiàn)實(shí)...
    小豬剛剛1993閱讀 1,059評論 1 2
  • 來源: http://www.douban.com/group/topic/14820131/ 調(diào)整變量格式: f...
    MC1229閱讀 7,137評論 0 5
  • MCMC和Gibbs Sampling 1.隨機(jī)模擬 隨機(jī)模擬又名蒙特卡羅方法,蒙特卡羅方法的源頭就是當(dāng)年用...
    wlj1107閱讀 6,545評論 3 6
  • 首先重點(diǎn)講解中國剩余定理,舉例:一個(gè)數(shù)x除d1余r1,除d2余r2,除d3余r3,那么,求這個(gè)數(shù)的最小值 。解答:...
    碧影江白閱讀 2,393評論 0 2
  • 10歲時(shí),你無憂無慮奔跑在鄉(xiāng)間的小路上;15歲時(shí),你因理想與現(xiàn)實(shí)的差距苦悶著;18歲時(shí),你因自己落后的成績哭泣著;...
    胡喜平閱讀 329評論 0 2

友情鏈接更多精彩內(nèi)容