基于概論率的分類方法
優(yōu)點(diǎn):在數(shù)據(jù)較少的情況下仍然有效,可以處理多類別問題
缺點(diǎn):對(duì)于輸入數(shù)據(jù)的準(zhǔn)備方式較為敏感
使用數(shù)據(jù)類型:標(biāo)稱型數(shù)據(jù)
樸素貝葉斯是貝葉斯決策理論的一部分,所以講述樸素貝葉斯之前有必要快速了解一下貝葉斯決策理論。
假設(shè)現(xiàn)在我們有一個(gè)數(shù)據(jù)集,它由兩類數(shù)據(jù)組成,數(shù)據(jù)分布如圖4-1所示:


條件概率
?接下來(lái)花的時(shí)間講講概率與條件概率。如果你對(duì)p(x,y|c1)符號(hào)很熟悉,你可以跳過
假設(shè)現(xiàn)在有一個(gè)裝了7塊石頭的罐子,其中3塊是灰色的,4塊是黑色的(圖4-2)。如果從罐子中隨機(jī)取出一塊石頭,那么是灰色石頭的可能性是多少?由于取石頭有7種可能,其中3種為灰色,所以取出灰色石頭的概率為3/7.那么取到黑色石頭的概率又是多少呢?很顯然,是4/7.我們使用P(gray)來(lái)表示取到灰色石頭的概率,其概率值可以通過灰色石頭數(shù)目除以總的石頭數(shù)目來(lái)得到。

如果這7塊石頭如圖4-3所示放在兩個(gè)桶中,那么上述概率應(yīng)該如何計(jì)算?

要計(jì)算P(gray)或者P(black),事先得知道石頭所在桶的信息會(huì)不會(huì)改變結(jié)果?你有可能已經(jīng)想到計(jì)算從B桶中取到灰色石頭的概率的辦法,這就是所謂的條件概率(conditional probability)。假定計(jì)算的是從B桶取到灰色石頭的概率,這個(gè)概率可以記作P(gray|bucketB),我們稱之為“在已知石頭出自B桶的條件下,取出灰色石頭的概率”。不難得到,P(gray|bucketA)值為2/4,P(gray|bucketB)的值為1/3.
條件概率的計(jì)算公式如下所示:
P(gray|bucketB)= P(gray|bucketB)/P(bucketB)
我們來(lái)看看上述公式是否合理。首先,用B桶中灰色石頭的個(gè)數(shù)除以兩個(gè)桶中總的石頭數(shù),得到P(gray and bucketB)=1/7。其次,由于B桶中有3塊石頭,而總石頭數(shù)為7,于是P(bucketB)就等于3/7.于是有P(gray|bucketB)= P(gray and bucketB)/P(bucketB)= (1/7)/(3/7)= 1/3。這個(gè)公式雖然對(duì)于這個(gè)簡(jiǎn)單例子來(lái)說有點(diǎn)復(fù)雜,但當(dāng)存在更多特征時(shí)是非常有效的。用代數(shù)方法計(jì)算條件概率時(shí),該公式也很有用。
另一種有效計(jì)算條件概率的方法稱為貝葉斯準(zhǔn)則。貝葉斯準(zhǔn)則告訴我們?nèi)绾谓粨Q條件概率中的條件與結(jié)果,即如果已知P(x|c),要求P(c|x),那么可以使用下面的計(jì)算方法:

P(c):先驗(yàn)概率
P(x|c):后驗(yàn)概率
P(x|c)/P(x)稱為"可能性函數(shù)"(Likelyhood),這是一個(gè)調(diào)整因子,使得預(yù)估概率更接近真實(shí)概率。
后驗(yàn)概率?。健∠闰?yàn)概率 x 調(diào)整因子
使用條件概率來(lái)分類
剛才提到貝葉斯決策理論要求計(jì)算兩個(gè)概率p1(x,y)和p2(x,y):
如果p1(x,y)>p2(x,y),那么屬于類別1;
如果p2(x,y)>p1(x,y),那么屬于類別2。
但這兩個(gè)準(zhǔn)則并不是貝葉斯決策理論的所有內(nèi)容。使用p1()和p2()只是為了盡可能簡(jiǎn)化描述,而真正需要計(jì)算和比較的是p(c1|x,y)和p(c2|x,y)。這些符號(hào)所代表的具體意思是:給定某個(gè)由x,y表示的數(shù)據(jù)點(diǎn),那么該數(shù)據(jù)點(diǎn)來(lái)自類別c1的概率是多少?數(shù)據(jù)點(diǎn)來(lái)自類別c2的概率又是多少?主意這些概率與剛才給出的概率p(x,y|c1)并不一樣,不過可以使用貝葉斯準(zhǔn)則來(lái)交換概率中條件與結(jié)果。具體地,應(yīng)用貝葉斯準(zhǔn)則得到:
如果p(c1|x,y)>p(c2|x,y),那么屬于類別c1;
如果p(c1|x,y)<p(c2|x,y),那么屬于類別c2。
使用貝葉斯準(zhǔn)則,可以通過已知的三個(gè)概率值來(lái)計(jì)算未知的概率值。

sklearn
高斯樸素貝葉斯
http://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.GaussianNB.html


