本文來自之前在Udacity上自學(xué)機(jī)器學(xué)習(xí)的系列筆記。這是第12篇,介紹了監(jiān)督學(xué)習(xí)中的貝葉斯學(xué)習(xí)模型(3)。
聯(lián)合分布
在現(xiàn)實(shí)生活中,我們會對關(guān)聯(lián)的幾個隨機(jī)變量感興趣。例如,一個地區(qū)暴雨、閃電、打雷的關(guān)系。我們感興趣的是這幾個變量之間的聯(lián)合分布,而不是一個隨機(jī)變量。
對于兩個隨機(jī)變量的聯(lián)合分布,我們可以定義為:
| 暴雨 | 沒有暴雨 | ||
|---|---|---|---|
| 閃電 | 0.25 | 0.05 | 0.30 |
| 沒有閃電 | 0.40 | 0.30 | 0.70 |
| 0.65 | 0.35 | 1.00 |
比如說,暴雨且閃電的聯(lián)合概率為0.25。
條件獨(dú)立
如果給定Z的值,X的概率分布獨(dú)立于Y的值,那么我們就稱X在Z下條件獨(dú)立于Y,表達(dá)為數(shù)學(xué)式子:
信任網(wǎng)絡(luò)
信任網(wǎng)絡(luò)又稱為貝葉斯網(wǎng)絡(luò),它是對相互依賴的多個事件或隨機(jī)過程的這種推斷的自然概括。
比如隨機(jī)的多個事件中,暴雨、打雷、閃電似乎有一種概率的關(guān)系,比如說在已知閃電的情況下,打雷和暴雨是條件獨(dú)立的。
信任網(wǎng)絡(luò)是由有向圖構(gòu)成的。有向圖包含節(jié)點(diǎn)和箭頭。一個節(jié)點(diǎn)表示一個隨機(jī)事件,有多個狀態(tài)值,而箭頭表示一個事件與另一個事件的條件概率。
例如,如下圖所示,暴雨、閃電、打雷三個隨機(jī)事件構(gòu)成了一個信任網(wǎng)絡(luò)。

所以,信任網(wǎng)絡(luò)就是描述一組概率分布的圖模型。給定一組隨機(jī)變量,如果聯(lián)合概率分布可以寫成如下的形式,則稱一個網(wǎng)絡(luò)為信任網(wǎng)絡(luò):

比如說,上圖有四個事件,分別是:餓了!、在家吃飯、洗碗、有一個全能機(jī)器人。節(jié)點(diǎn)之間的箭頭就表示了條件獨(dú)立假設(shè),我們可以得到:
根據(jù)每個節(jié)點(diǎn)的概率和聯(lián)合概率,可以計算出餓了,可以在家吃飯,不用洗碗,可以有一個全能機(jī)器人的這四個事件同時發(fā)生的概率。
貝葉斯分類器
貝葉斯分類器是信任網(wǎng)絡(luò)在假設(shè)所有變量之間互相條件獨(dú)立情況下的特殊類型。比如說分類一封郵件是否垃圾郵件,我們根據(jù)幾個特征出現(xiàn)的概率來判斷。
信任網(wǎng)絡(luò)為:

那么:
借助鏈法則和條件獨(dú)立假設(shè),可以得到:
代入公式,可以得到: