1.定義
??貝葉斯分類器是各種分類器中分類錯誤概率最小或者在預(yù)先給定代價的情況下平均風(fēng)險最小的分類器。它的設(shè)計方法是一種最基本的統(tǒng)計分類方法。其分類原理是通過某對象的先驗概率,利用貝葉斯公式計算出其后驗概率,即該對象屬于某一類的概率,選擇具有最大后驗概率的類作為該對象所屬的類。
2.種類
??研究較多的貝葉斯分類器主要有四種,分別是Naive Bayes、TAN、BAN和GBN。
3.解釋
??貝葉斯網(wǎng)絡(luò)是一個帶有概率注釋的有向無環(huán)圖,圖中的每一個結(jié)點均表示一個隨機變量,圖中兩結(jié)點間若存在著一條弧,則表示這兩結(jié)點相對應(yīng)的隨機變量是概率相依的,反之則說明這兩個隨機變量是條件獨立的。網(wǎng)絡(luò)中任意一個結(jié)點X均有一個相應(yīng)的條件概率表(Conditional Probability Table, CPT),用以表示結(jié)點X在其父結(jié)點取各可能值時的條件概率。若結(jié)點X無父結(jié)點,則X的CPT為其先驗概率分布。貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)及各結(jié)點的CPT定義了網(wǎng)絡(luò)中各變量的概率分布。
4.分類
??貝葉斯分類器是用于分類的貝葉斯網(wǎng)絡(luò)。該網(wǎng)絡(luò)中應(yīng)包含類結(jié)點C,其中C 的取值來自于類集合( c1, c2, ... , cm),還包含一組結(jié)點X = (X1, X2, ... , Xn),表示用于分類的特征。對于貝葉斯網(wǎng)絡(luò)分類器,若某一待分類的樣本D,其分類特征值為x = (x1, x2, ... , xn) ,則樣本D屬于類別ci的概率P(C = ci | X1 = x1, X2 = x2, ... , Xn = xn) ,(i = 1, 2, ... , m) 應(yīng)滿足下式:
??P(C = ci | X = x) = Max{P(C = c1 | X = x), P(C = c2 | X = x), ... , P(C = cm | X = x)}
??而由貝葉斯公式:
??P(C = ci | X = x) = P(X = x | C = ci) * P(C = ci) / P(X = x)
??其中,P(C = ci) 可由領(lǐng)域?qū)<业慕?jīng)驗得到,而P(X = x | C = ci) 和P(X = x) 的計算則較困難。
5.兩階段
??應(yīng)用貝葉斯網(wǎng)絡(luò)分類器進行分類主要分成兩階段。第一階段是貝葉斯網(wǎng)絡(luò)分類器的學(xué)習(xí),即從樣本數(shù)據(jù)中構(gòu)造分類器,包括結(jié)構(gòu)學(xué)習(xí)和CPT學(xué)習(xí);第二階段是貝葉斯網(wǎng)絡(luò)分類器的推理,即計算類結(jié)點的條件概率,對分類數(shù)據(jù)進行分類。這兩個階段的時間復(fù)雜性均取決于特征值間的依賴程度,甚至可以是NP完全問題,因而在實際應(yīng)用中,往往需要對貝葉斯網(wǎng)絡(luò)分類器進行簡化。根據(jù)對特征值間不同關(guān)聯(lián)程度的假設(shè),可以得出各種貝葉斯分類器,Naive Bayes、TAN、BAN、GBN就是其中較典型、研究較深入的貝葉斯分類器。