文章含有“program”的概率各個(gè)選集中調(diào)查如下:
p(Y1=1|X=dev) = 0.271
p(Y1=1|X=admin) = 0.136
條件概率p(Y1=1|X=dev) 是「dev選集中,含有“program”的概率」。同理,X=admin 也是一樣。
確實(shí)p(Y1=1|X=dev) > p(Y1=1|X=admin) 成立。
同理,隨機(jī)變量 Y2 作為「文章中含有“application”」,試求它的概率。
p(Y2=1|X=dev) = 0.172
p(Y2=1|X=admin) = 0.523
這樣就可以判斷「含有“application”,不含“program”的文章」術(shù)語哪個(gè)類別。
雖已知滿足這個(gè)條件的隨機(jī)變量是 Y1=0, Y2=1 ,表示類別的隨機(jī)變量X還是未知的。這里,可以判斷:如果求出p(X=dev|Y1=0, Y2=1)?和 p(X=admin|Y1=0, Y2=1) ,概率值大的一方被作為「可信用的 X 值」。
寫文章時(shí),先寫完內(nèi)容再確定類別,是很少見的??傊?,p(X|Y1, Y2)就是事后概率,計(jì)算出該值就可以推斷出文章中隱藏的信息 (例:「文章是為了發(fā)表在dev文集而寫的!」)
這一系列的過程就是基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)的一個(gè)典型思考方式。
雖然得到了使用貝葉斯公式計(jì)算出事后概率的公式,但是使用乘法定理把聯(lián)合概率展開為2個(gè)式子是不是更容易理解一些呢?
p(X, Y1,Y2)
= p(X|Y1,Y2) p(Y1, Y2)
= p(Y1,Y2|X) p(X)
由第2式和第3式可以推導(dǎo)出p(X|Y1, Y2)等于下式:

想一下式子的右邊可以計(jì)算出來嗎?
關(guān)于分子中的p(Y1, Y2|X),假定賦值給X時(shí)Y1, Y2是獨(dú)立。(也叫做「條件獨(dú)立」),從剛才的論證可得,p(Y1, Y2|X)= p(Y1|X) p(Y2|X)成立。
p(X)和p(Y1|X)已知時(shí),式子的右側(cè)可以計(jì)算出來。
至于分母的p(Y1, Y2),可以通過把分子當(dāng)作「隨機(jī)變量X的邊緣化」計(jì)算出來。
具體講,利用乗法定理中p(Y1, Y2|X) p(X) = p(X, Y1, Y2),然后使用加法定理消去X后,變成p(Y1, Y2)。想起來最開始說的「機(jī)器學(xué)習(xí)中反復(fù)使用加法定理和乗法定理」「加法定理也叫做邊緣化」了嗎?
但是,因?yàn)榉帜傅膒(Y1, Y2)中并沒有X(與X無關(guān)),如果「想求出p(X|Y1, Y2)最大的X」,僅僅比較分子就足夠了。
最后,「包含“application”,不包含“program”的文章」,也就是計(jì)算Y1=0, Y2=1兩種情況的事后概率。
想分別求出各個(gè)X的值,先求出分子。
p(Y1=0,Y2=1|X=dev) p(X=dev)
= (1 - 0.271) *0.172 * 0.652
= 0.082
p(Y1=0,Y2=1|X=admin) p(X=admin)
= (1 - 0.136) *0.523 * 0.348
= 0.157
把分母邊緣化后得到的,就是2個(gè)值得和。
p(Y1=0,Y2=1)
= p(X=dev, Y1=0,Y2=1) + p(X=admin, Y1=0, Y2=1)
= 0.082 + 0.157
= 0.239
接著,事后概率如下所示:
p(X=dev|Y1=0,Y2=1)
= p(Y1=0,Y2=1|X=dev) p(X=dev) / p(Y1=0, Y2=1)
= 0.082 / 0.239
= 0.343
p(X=admin|Y1=0,Y2=1)
= p(Y1=0,Y2=1|X=admin) p(X=admin) / p(Y1=0, Y2=1)
= 0.157 / 0.239
= 0.657
哪個(gè)才是更適合的分類,已經(jīng)明白了吧?
這里的「基于條件概率的獨(dú)立性」被稱作「條件獨(dú)立」或者「樸素貝葉斯」「單純貝葉斯」。
當(dāng)然,這里的「條件獨(dú)立」是假設(shè)的,并不是真的獨(dú)立。盡管做了如此大膽的假設(shè),樸素貝葉斯還是有很高的精準(zhǔn)度的。通過簡單計(jì)算并得到好的結(jié)果的就是「好的模型」。
實(shí)際上,樸素貝葉斯在文本分類和信用過濾中經(jīng)常使用。樸素貝葉斯不僅限與用在類別和單詞種類為2的情況,更普通的情況也適用。
下篇為實(shí)踐課程,以樸素貝葉斯為題材,動(dòng)手實(shí)現(xiàn)概率的計(jì)算。