7.gitchat訓(xùn)練營-樸素貝葉斯分類器——從貝葉斯定理到分類模型

1.分類VS回歸

Classification VS Regression

????????分類模型VS回歸模型,最根本的不同:前者是預(yù)測一個標(biāo)簽(類型、類別);后者則是預(yù)測一個量。
????????換一個角度來看,分類模型輸出的預(yù)測值是離散值;而回歸模型輸出的預(yù)測值則是連續(xù)值。也就是說輸入一個樣本給模型,回歸模型給出的預(yù)測結(jié)果是在某個值域(一般是實數(shù)域或其子集)上的任意值;而分類模型則是給出特定的某幾個離散值之一。

2.貝葉斯定理

貝葉斯公式如下:
p(A|B)=\frac{P(B|A)P(A)}{P(B)}
????????用語言解釋就是:在 B 出現(xiàn)的前提下 A 出現(xiàn)的概率,等于 A 和 B 都出現(xiàn)的概率除以 B 出現(xiàn)的概率。
一般化的貝葉斯公式
????????更一般化的情況,假設(shè)事件 A 本身又包含多種可能性,即 A 是一個集合:A=\begin{Bmatrix}A_1,A_2,...,A_n\end{Bmatrix},那么對于集合中任意的A_i,貝葉斯定理可用下式表示:
P(A_i|B)=\frac{P(B|A_i)P(A_i)}{\sum_jP(B|A_j)P(A_j)}
連續(xù)概率的貝葉斯定理的形式為(下面所說的A和B對應(yīng)之前貝葉斯公式中的A與B):
f(x|y)=\frac{f(y|x)f(x)}{\int_{-\infty}^\infty f(y|x)f(x)dx}
????????其中,f(x|y)是給定B=y時,A的后驗分布;f(x)則是A的先驗分布概率函數(shù)。
????????為了方便起見,這里的 f 在這些專有名詞中代表不同的函數(shù)。

3.樸素貝葉斯分類器(Na?ve Bayes Classifier)

????????“樸素貝葉斯”(Na?ve Bayes)既可以是一種算法——樸素貝葉斯算法,也可以是一種模型——樸素貝葉斯分類模型(分類器)。

樸素貝葉斯算法

????????首先講作為算法的 Na?ve Bayes,樸素貝葉斯算法可以直接利用貝葉斯定理來實現(xiàn)。先來看簡潔版的貝葉斯定理:
p(A|B)=\frac{P(B|A)P(A)}{P(B)}
????????在之前的幾個例子中,為了便于理解,當(dāng) B 作為 A 的條件出現(xiàn)時,我們假定它總共只有一個特征。但在實際應(yīng)用中,很少有一件事只受一個特征影響的情況,往往影響一件事的因素有多個。假設(shè),影響B的因素有n個,分別是b_1,b_2,...,b_n
????????則P(A|B)可以寫為:
P(A|b_1,b_2,...,B_n)=\frac{P(A)P(b_1,b_2,...,b_n|A)}{P(b_1,b_2,...,b_n)}
????????A的先驗概率P(A)和多個因素的聯(lián)合概率P(b_1,b_2,...,b_n)都是可以單獨計算的,與Ab_i之間的關(guān)系無關(guān),因此這兩項都可以被看作常數(shù)。
????????對于求解P(A|b_1,b_2,...,b_n)在,最關(guān)鍵的是P(b_1,b_2,...,b_n|A)。根據(jù)鏈?zhǔn)椒▌t可得:
P(b_1,b_2,...,b_n|A)=P(b_1|A)P(b_2|A,b_1)P(b_3|A,b_1,b_2)\cdots P(b_n|A,b_1,b_2,...,b_n)
????????上面的求解過程,看起來好復(fù)雜,但是,如果從b_1b_n這些特征之間,在概率分布上是條件獨立的,也就是說每個特征b_i與其他特征都不相關(guān)。
????????那么,當(dāng)i\neq j時,有P(b_i|A,b_j)=P(b_i|A)——無關(guān)條件被排除到條件概率之外。因此,當(dāng)b_1,b_2,...,b_n中每個特征與其他n-1個特征都不相關(guān)時,就有:
P(A|b_1,b_2,...b_n)=\frac{1}{z}P(A)\prod_{i=1}^nP(b_i|A)
????????注意此處的z對應(yīng)P(b_1,b_2,...,b_n)

一款極簡單的樸素貝葉斯分類器

????????上式中的b_1b_n是特征(Feature),而A則是最終的類別(Class),所以,換一個寫法:
P(C|F_1,F_2,...,F_n)=\frac{1}{z}P(C)\prod_{i=1}^nP(F_i|C)
????????這個公式也就是我們的樸素貝葉斯分類器的模型函數(shù)
????????它用來做預(yù)測時是這樣的:

  • 有一個樸素貝葉斯分類模型(器),它能夠區(qū)分出k個類(c_1,c_2,...,c_k),用來分類的特征有n個:(F_1,F_2,...,F_n)。
  • 現(xiàn)在有個樣本s,我們要用NB分類器對它做預(yù)測,則需要先提取出這個樣本的所有特征值F_1F_2,將其帶入到下式中進行k次運算:
    P(C=c_j)\prod_{i=1}^nP(F_i=f_i|C=c_j)
  • 然后比較這k次的結(jié)果,選出使得運算結(jié)果達到最大值的那個c_j(j=1,2,...,k)——這個c_j對應(yīng)的類別就是預(yù)測值。
    ????????假設(shè)我們當(dāng)前有一個模型,總共只有兩個類別:c_1c_2;有三個Feature:F_1,F_2F_3。F_1有兩種可能性取值:f_{11}f_{12}F_2有三種可能性取值:f_{21}、f_{22}f_{23}F_3也有兩種可能性取值:f_{31}、f_{32}。
    ????????那么對于這個模型,我們要做的就是通過訓(xùn)練過程,獲得下面這些值:
    P(C=c_1)P(C=c_2)P(F_1=f_{11}|C=c_1)P(F_1=f_{12}|C=c_1)
    P(F_2=f_{21}|C=c_1)P(F_2=f_{22}|C=c_1)P(F_2=f_{23}|C=c_1)
    P(F_3=f_{31}|C=c_1)P(F_3=f_{32}|C=c_1)P(F_1=f_{11}|C=c_2)
    P(F_1=f_{12}|C=c_2)P(F_2=f_{21}|C=c_2)P(F_2=f_{22}|C=c_2)
    P(F_2=f_{23}|C=c_2)P(F_3=f_{31}|C=c_2)P(F_3=f_{32}|C=c_2)
    ????????把這些概率值都算出來以后,就可以用來做預(yù)測了。
    ????????比如我們有一個需要預(yù)測的樣本 X,它的特征值分別是f_{11}、f_{22}f_{31},那么
    樣本X被分為c_1的概率是:
    P(C=c_1|x)=P(c=c_1|F_1=f_{11},F_2=f_{22},F_2=f_{31})
    \alpha P(C=c_1)P(F_1=f_{11}|C=c_1)P(F_2=f_{22}|C=c_1)P(F_3=f_{31}|C=c_1)
    樣本X被分為c_2的概率是:
    P(C=c_2|x)=P(c=c_2|F_1=f_{11},F_2=f_{22},F_2=f_{31})
    \alpha P(C=c_2)P(F_1=f_{11}|C=c_2)P(F_2=f_{22}|C=c_2)P(F_3=f_{31}|C=c_2)
    ????????兩者都算出來以后,只需要對比P(C=c_1|x)P(C=c_2|x)誰更大,那么這個樣本的預(yù)測值就是對應(yīng)類別。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 1 貝葉斯方法 長久以來,人們對一件事情發(fā)生或不發(fā)生的概率,僅僅有固定的0和1,即要么發(fā)生,要么不發(fā)生。假設(shè)問那時...
    高永峰_GYF閱讀 3,033評論 0 11
  • 樸素貝葉斯 在機器學(xué)習(xí)中,樸素貝葉斯分類器是一系列以假設(shè)特征之間強(樸素)獨立下運用貝葉斯定理為基礎(chǔ)的簡單概率分類...
    七八音閱讀 21,309評論 0 21
  • 分類問題 已知m個樣本 ,x是特征變量,y是對應(yīng)的類別。 要求一個模型函數(shù)h,對于新的樣本 ,能夠盡量準(zhǔn)確的預(yù)測出...
    城市中迷途小書童閱讀 872評論 0 1
  • 難過。是因為你,幫你媽罵我,吵著要跟我離婚,之后,沒一句話沒一個字問候。 本來,媽跟老婆吵架,作為男人,是媽和老婆...
    云笑日出閱讀 145評論 0 0
  • 張清的日精進第94天 體驗入 今天全公司都在宣講得錦旗的事。 都是全員生發(fā)的學(xué)員。 找核心 員工之魂 轉(zhuǎn)身用 有交...
    kiyoi2017閱讀 207評論 0 3

友情鏈接更多精彩內(nèi)容