貝葉斯算法09

About

個人同時在簡書和自制個人博客兩個地方同時更新文章,有興趣的話可以來我的博客玩呀,一般而言排版會好不少。本篇在博客的位置

知識前置

這個章節(jié)的機(jī)器學(xué)習(xí),其實(shí)更像是一種概率論的學(xué)習(xí),同時這也是機(jī)器學(xué)習(xí)和數(shù)據(jù)分析中非常重要的一環(huán)。如果學(xué)習(xí)遇到了困難非常推薦參考張宇考研概率論部分的內(nèi)容。同時這一章的算法,也是在文本分類中使用的比較多的。

相關(guān)名詞解釋:

  • 先驗(yàn)概率:P(A)
  • 條件概率:P(A|B)
  • 后驗(yàn)概率:P(B|A)
  • 全概率:P(B) = \sum_{i=1}^n P(A_i)*P(B|A_i)
  • 貝葉斯公式:P(A|B) = \frac{P(A)*P(B|A)}{\sum_{i=1}^n P(B|A_i)*P(A_i)}
    概率分布:
  • 高斯分布:簡單的來說它的分布呈現(xiàn)的是正態(tài)分布的樣子。參考鏈接
  • 伯努利分布:伯努利分布是0-1分布,簡單的來說就是那種仍硬幣的概率分布。參考鏈接
  • 多項(xiàng)式分布:是伯努利分布的推廣,不再是只有兩種情況,有多種情況的概率分布。參考鏈接
    貝葉斯核心思想:
    找出在特征出現(xiàn)時,各個標(biāo)簽出現(xiàn)的概率,選擇概率最大的作為其分類。

樸素貝葉斯

我們來“望文生義”的理解這個算法,貝葉斯指的就是上面的貝葉斯公式,而樸素則指的是“特征之間是獨(dú)立的”這個樸素假設(shè)。
假設(shè)有給定樣本X,其特征向量為(x_1,x_2,...,x_m),同時類別為y。算法中使用公式2.1表達(dá)在當(dāng)前特征下將類別y預(yù)測正確的概率。由于特征屬性之間是假定獨(dú)立的,所以P(x_1,x_2,...x_m)是可以直接拆開的,故根據(jù)這個特性優(yōu)化,得到公式2.2。由于樣本給定的情況下,P(x_1,x_2,...,x_m)的值不變,故研究概率最大的問題只需要研究公式2.2等號右側(cè)上面的部分,最終寫出預(yù)測函數(shù)公式2.3。
P(y|x_1,x_2,...,x_m) = \frac{P(y)P(x_1,x_2,...,x_m|y)}{P(x_1,x_2,...,x_m)}\ \ \ 公式2.1
P(y|x_1,x_2,...,x_m) = \frac{P(y)\prod_{i=1}^m P(x_i|y)}{P(x_1,x_2,...,x_m)}\ \ \ 公式2.2
\hat{y} = arg\ max_y P(y) \prod_{i=1}^m P(x_i|y) \ \ \ 公式2.3

到這里,算法的流程就很顯而易見了,和softmax算法類似,讓預(yù)測正確的概率最大即可,具體計(jì)算流程如下:
設(shè)x = {a_1,a_2,...a_m}為帶分類項(xiàng),其中a為x的一個特征屬性,類別集合C={y_1,y_2,...y_n}

  • 分別計(jì)算所有的P(y_i|x),使用上述公式2.3
  • 選擇P(y_i|x)最大的y_i作為x的類型

其他樸素貝葉斯

高斯樸素貝葉斯

在上述貝葉斯算法中的特征是離散的,那么考慮特征屬虛連續(xù)值時,且分布服從高斯分布的情況下。用高斯公式(公式3.1)代替原來計(jì)算概率的公式。那么根據(jù)訓(xùn)練集中,對應(yīng)的類別下的屬性的均值和標(biāo)準(zhǔn)差,對比待分類數(shù)據(jù)中的特征項(xiàng)劃分的各個均值和標(biāo)準(zhǔn)差,即可得到預(yù)測類型。
p(x_k|y_k) = g(x_k,\eta_{y_k},\sigma_{y_k}) = \frac{1}{\sqrt{2 \pi}\sigma}e^{-\frac{(x-\eta_{y_k})^2}{2\sigma_{y_k}^2}}\ \ \ 公式3.1

伯努利樸素貝葉斯

特征值的取值是布爾型的,是有true和false,符合伯努利分布,那么其P(x_i|y_k)的表達(dá)式如下公式3.3。
P(x_i|y_k)= P(x_i = 1 | y_k)*x_i + (1-P(x_i=1|y_k))(1-x_k)\ \ \ 公式3.2
注:這意味著沒有某個特征也可以是一個特征,其中公式3.2其實(shí)是把兩個不同條件的概率公式融合在一起了,這種方法也在邏輯回歸中使用過

多項(xiàng)式樸素貝葉斯

特征屬性分布服從多項(xiàng)分布時,得到如下公式3.3,公式的來源簡單的來說就是已知盒子中紅球和所有球的總個數(shù),求從盒中摸到紅球的概率差不多。
其中N_{y_k x_i}為類別y_k下,特征x_i出現(xiàn)的次數(shù),N_{y_k} 指的是類別y_k下,所有特征出現(xiàn)的次數(shù)。

P(x_i|y_k) = \frac{N_{y_k x_i} + \alpha}{N_{y_k} + \alpha n}

注:待預(yù)測樣本中的特征xi在訓(xùn)練時可能沒有出現(xiàn),如果沒有出現(xiàn),則N_{y_k x_i} 值為0,如果直接拿來計(jì)算該樣本屬于某個分類的概率,結(jié)果都將是0。所以在分子中加入α,在分母中加入αn可以解決這個問題。

貝葉斯網(wǎng)絡(luò)

由于之前樸素貝葉斯,前提條件是假定特征值之間沒有關(guān)系,這顯然是不現(xiàn)實(shí)的而貝葉斯網(wǎng)絡(luò)正是解決這個問題的。其關(guān)鍵方法是圖模型,我們構(gòu)建一個圖模型,把具有因果聯(lián)系的各個變量聯(lián)系在一起。貝葉斯網(wǎng)絡(luò)的有向無換圖中的節(jié)點(diǎn)表示隨機(jī)變量,連接節(jié)點(diǎn)的箭頭表示因果關(guān)系。

簡單的來說貝葉斯網(wǎng)絡(luò)就是模擬人的認(rèn)知思維推理模式的,用一組條件概率以及有向無換圖對不確定關(guān)系推理關(guān)系建模。

而這種方式在深度學(xué)習(xí)之前是很受歡迎的,它和之后的隱馬爾可夫被使用作為提取特征的工具,而現(xiàn)在漸漸的過度到了深度學(xué)習(xí)。

貝葉斯網(wǎng)絡(luò)工作原理

首先貝葉斯網(wǎng)絡(luò)的實(shí)質(zhì)就是建立一個有向無環(huán)圖,其中方向代表因果關(guān)系。仔細(xì)思考一下,為什么是有向無環(huán)圖,是因?yàn)槿绻怯协h(huán)的話,就會有節(jié)點(diǎn)是自己依賴于自己,顯然這樣是有問題的。
具體貝葉斯工作的核心原理可以理解為,根據(jù)人已知的經(jīng)驗(yàn)或者其他手段,規(guī)定一些完全沒有依賴于其他事件的事件發(fā)生的概率,隨后根據(jù)制作的貝葉斯網(wǎng)絡(luò)(因果關(guān)系圖)推算出不同事件發(fā)生的概率。這個過程有點(diǎn)像是在做一個概率論的期末考試題,已知A,B,C的概率和ABCD之間轉(zhuǎn)換的關(guān)系,問在發(fā)生了BC條件下,發(fā)生D的概率。大體就是這樣一種感覺。

事例如下圖:

image

其中x_1,x_2,x_3獨(dú)立,則x_6,x_7獨(dú)立,所以我們得到
x_1,x_2,x_3,...,x_7
的聯(lián)合概率分布如下:
p(x_1,x_2,...,x_7) = p(x_1)p(x_2)p(x_3)p(x_4|x_1,x_2,x_3)p(x_5|x_1,x_3)p(x_6|x_4)p(x_7|x_4,X_5)

實(shí)際上這部分的概率計(jì)算,其實(shí)就是根據(jù)初始條件和轉(zhuǎn)移方式,求的目標(biāo)的概率這樣的過程。和之前常用的最大似然估計(jì)算法對比,貝葉斯的這一系列算法考慮了先驗(yàn)概率,而最大似然估計(jì)算法沒有,在最大似然估計(jì)算法中其實(shí)相當(dāng)于默認(rèn)了先驗(yàn)概率是相同的。

注:最大后驗(yàn)概率MAP其實(shí)可以看作是貝葉斯算法和最大似然估計(jì)算法結(jié)合的應(yīng)用

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 忘光了概率統(tǒng)計(jì)的知識還想學(xué)樸素貝葉斯算法?這一篇就是為你準(zhǔn)備的。雖然如此,作為初學(xué)者,別指望 5 分鐘就能完全理解...
    kamidox閱讀 2,923評論 4 7
  • 在所有的機(jī)器學(xué)習(xí)分類算法中,樸素貝葉斯和其他絕大多數(shù)的分類算法都不同。對于大多數(shù)的分類算法,比如決策樹,KNN,邏...
    云時之間閱讀 1,999評論 6 24
  • 各位小伙伴們大家好,前些日子,我看了一些關(guān)于貝葉斯方法的文章,其中以今天這一篇文章覺得最好,不僅講的簡單通俗易懂并...
    云時之間閱讀 5,725評論 4 72
  • (文/亦濃) 1.無聊時候掰會兒 看到這樣一條新聞,好玩兒呢。 說的是,一對夫妻在高速路服務(wù)站停車,丈夫下去上廁所...
    開在夜里的花兒閱讀 311評論 2 15
  • 2017.07.05 不知道要說些什么。冒著雨和搭檔一起去拉貨,跑過去跑回來,衣服也被淋濕了。直到直到現(xiàn)在才吃早飯...
    蕭寒_7閱讀 260評論 0 0

友情鏈接更多精彩內(nèi)容