知識點(diǎn)
貝葉斯公式:
全概率公式:
在這里插入圖片描述
拉普拉斯平滑:
原本對應(yīng)的概率分別為1/3和2/3,這里在分子加了同一個常數(shù),為了保證和為1,所以在分母加個2,這就是拉普拉斯平滑,也就是貝葉斯估計,這是為了防止有一個特征的概率為0,導(dǎo)致最終的結(jié)果為0。這樣操作之后,會改變每種情況的概率(概率大的和概率小的都會往中間壓,由此理解平滑兩個字的由來),但是不影響結(jié)果的大小比較,所以不影響最終的結(jié)果。
demo(沒進(jìn)行拉普拉斯平滑)
| 是否有房 | 信用情況 | 性別 | 是否貸款 |
|---|---|---|---|
| 1 | 1 | 1 | 1 |
| 0 | 1 | 0 | 1 |
| 0 | 1 | 1 | 1 |
| 1 | 0 | 1 | 0 |
現(xiàn)在來一個人情況為(1, 1, 0),判斷要不要給他貸款
- 計算Y=1對應(yīng)的概率:
- 計算Y=0對應(yīng)的概率:
- 這里不需要計算分母,因?yàn)槊糠N概率對應(yīng)的分母相等,沒有計算必要,這里寫一下計算過程,即上面的全概率公式:
其實(shí)就是上面所有情況的概率之和
總結(jié)
此步驟假設(shè)了三個特征獨(dú)立,即概率論里常說的條件獨(dú)立,否則這三個特征是不能拆開分別計算的,這也就是樸素貝葉斯里樸素這兩個字的由來。
根據(jù)上面的計算過程看,樸素貝葉斯需要計算每種Y分別對應(yīng)的概率是多少,這里分別是1/9和0,所以最后分到了Y=1即放款這一類,這種需要計算每種情況下的概率然后比較的叫做生成模型。