About
個人同時在簡書和自制個人博客兩個地方同時更新文章,有興趣的話可以來我的博客玩呀,一般而言排版會好不少。本篇在博客的位置。
知識前置
這個章節(jié)的機(jī)器學(xué)習(xí),其實(shí)更像是一種概率論的學(xué)習(xí),同時這也是機(jī)器學(xué)習(xí)和數(shù)據(jù)分析中非常重要的一環(huán)。如果學(xué)習(xí)遇到了困難非常推薦參考張宇考研概率論部分的內(nèi)容。同時這一章的算法,也是在文本分類中使用的比較多的。
相關(guān)名詞解釋:
- 先驗(yàn)概率:
- 條件概率:
- 后驗(yàn)概率:
- 全概率:
- 貝葉斯公式:
概率分布: - 高斯分布:簡單的來說它的分布呈現(xiàn)的是正態(tài)分布的樣子。參考鏈接
- 伯努利分布:伯努利分布是0-1分布,簡單的來說就是那種仍硬幣的概率分布。參考鏈接
- 多項(xiàng)式分布:是伯努利分布的推廣,不再是只有兩種情況,有多種情況的概率分布。參考鏈接
貝葉斯核心思想:
找出在特征出現(xiàn)時,各個標(biāo)簽出現(xiàn)的概率,選擇概率最大的作為其分類。
樸素貝葉斯
我們來“望文生義”的理解這個算法,貝葉斯指的就是上面的貝葉斯公式,而樸素則指的是“特征之間是獨(dú)立的”這個樸素假設(shè)。
假設(shè)有給定樣本X,其特征向量為,同時類別為
。算法中使用公式2.1表達(dá)在當(dāng)前特征下將類別y預(yù)測正確的概率。由于特征屬性之間是假定獨(dú)立的,所以
是可以直接拆開的,故根據(jù)這個特性優(yōu)化,得到公式2.2。由于樣本給定的情況下,
的值不變,故研究概率最大的問題只需要研究公式2.2等號右側(cè)上面的部分,最終寫出預(yù)測函數(shù)公式2.3。
到這里,算法的流程就很顯而易見了,和softmax算法類似,讓預(yù)測正確的概率最大即可,具體計(jì)算流程如下:
設(shè)為帶分類項(xiàng),其中a為x的一個特征屬性,類別集合
- 分別計(jì)算所有的
,使用上述公式2.3
- 選擇
最大的
作為x的類型
其他樸素貝葉斯
高斯樸素貝葉斯
在上述貝葉斯算法中的特征是離散的,那么考慮特征屬虛連續(xù)值時,且分布服從高斯分布的情況下。用高斯公式(公式3.1)代替原來計(jì)算概率的公式。那么根據(jù)訓(xùn)練集中,對應(yīng)的類別下的屬性的均值和標(biāo)準(zhǔn)差,對比待分類數(shù)據(jù)中的特征項(xiàng)劃分的各個均值和標(biāo)準(zhǔn)差,即可得到預(yù)測類型。
伯努利樸素貝葉斯
特征值的取值是布爾型的,是有true和false,符合伯努利分布,那么其的表達(dá)式如下公式3.3。
注:這意味著沒有某個特征也可以是一個特征,其中公式3.2其實(shí)是把兩個不同條件的概率公式融合在一起了,這種方法也在邏輯回歸中使用過
多項(xiàng)式樸素貝葉斯
特征屬性分布服從多項(xiàng)分布時,得到如下公式3.3,公式的來源簡單的來說就是已知盒子中紅球和所有球的總個數(shù),求從盒中摸到紅球的概率差不多。
其中為類別
下,特征
出現(xiàn)的次數(shù),
指的是類別
下,所有特征出現(xiàn)的次數(shù)。
注:待預(yù)測樣本中的特征xi在訓(xùn)練時可能沒有出現(xiàn),如果沒有出現(xiàn),則 值為0,如果直接拿來計(jì)算該樣本屬于某個分類的概率,結(jié)果都將是0。所以在分子中加入α,在分母中加入αn可以解決這個問題。
貝葉斯網(wǎng)絡(luò)
由于之前樸素貝葉斯,前提條件是假定特征值之間沒有關(guān)系,這顯然是不現(xiàn)實(shí)的而貝葉斯網(wǎng)絡(luò)正是解決這個問題的。其關(guān)鍵方法是圖模型,我們構(gòu)建一個圖模型,把具有因果聯(lián)系的各個變量聯(lián)系在一起。貝葉斯網(wǎng)絡(luò)的有向無換圖中的節(jié)點(diǎn)表示隨機(jī)變量,連接節(jié)點(diǎn)的箭頭表示因果關(guān)系。
簡單的來說貝葉斯網(wǎng)絡(luò)就是模擬人的認(rèn)知思維推理模式的,用一組條件概率以及有向無換圖對不確定關(guān)系推理關(guān)系建模。
而這種方式在深度學(xué)習(xí)之前是很受歡迎的,它和之后的隱馬爾可夫被使用作為提取特征的工具,而現(xiàn)在漸漸的過度到了深度學(xué)習(xí)。
貝葉斯網(wǎng)絡(luò)工作原理
首先貝葉斯網(wǎng)絡(luò)的實(shí)質(zhì)就是建立一個有向無環(huán)圖,其中方向代表因果關(guān)系。仔細(xì)思考一下,為什么是有向無環(huán)圖,是因?yàn)槿绻怯协h(huán)的話,就會有節(jié)點(diǎn)是自己依賴于自己,顯然這樣是有問題的。
具體貝葉斯工作的核心原理可以理解為,根據(jù)人已知的經(jīng)驗(yàn)或者其他手段,規(guī)定一些完全沒有依賴于其他事件的事件發(fā)生的概率,隨后根據(jù)制作的貝葉斯網(wǎng)絡(luò)(因果關(guān)系圖)推算出不同事件發(fā)生的概率。這個過程有點(diǎn)像是在做一個概率論的期末考試題,已知A,B,C的概率和ABCD之間轉(zhuǎn)換的關(guān)系,問在發(fā)生了BC條件下,發(fā)生D的概率。大體就是這樣一種感覺。
事例如下圖:

其中
實(shí)際上這部分的概率計(jì)算,其實(shí)就是根據(jù)初始條件和轉(zhuǎn)移方式,求的目標(biāo)的概率這樣的過程。和之前常用的最大似然估計(jì)算法對比,貝葉斯的這一系列算法考慮了先驗(yàn)概率,而最大似然估計(jì)算法沒有,在最大似然估計(jì)算法中其實(shí)相當(dāng)于默認(rèn)了先驗(yàn)概率是相同的。
注:最大后驗(yàn)概率MAP其實(shí)可以看作是貝葉斯算法和最大似然估計(jì)算法結(jié)合的應(yīng)用