貝葉斯分類(lèi)器

1.1、貝葉斯決策論

貝葉斯決策論是概率框架下實(shí)施決策的基本方法。對(duì)分類(lèi)任務(wù)來(lái)說(shuō),在所有相關(guān)概率都已知的理想情形下,貝葉斯決策論考慮如何基于這些概率和誤判損失來(lái)選擇最優(yōu)的類(lèi)別標(biāo)記。下面以多分類(lèi)任務(wù)為例來(lái)解釋其基本原理。

假設(shè)有N種可能的類(lèi)別標(biāo)記,即Y={c_{1} ,c_{2} .......c_{N} },\lambda _{ij} 是將一個(gè)真實(shí)標(biāo)記為c_{j} 的樣本誤分類(lèi)為c_{i} 所產(chǎn)生的損失。基于后驗(yàn)概率P(c_{i} |x)可以獲得將樣本x分類(lèi)為c_{i} 所產(chǎn)生的期望損失(expected loss),即在樣本x上的“條件風(fēng)險(xiǎn)”(conditional risk)



顯然,對(duì)每個(gè)樣本x,若h能最小化條件風(fēng)險(xiǎn)R(h(x)|x),則總體風(fēng)險(xiǎn)R(h)也將被最小化。則總體風(fēng)險(xiǎn)R(h)也將被最小化。這就產(chǎn)生了貝葉斯判定準(zhǔn)則(Bayes decision rule):為最小化總體風(fēng)險(xiǎn),只需在每個(gè)樣本上選擇那個(gè)使得條件風(fēng)險(xiǎn)R(c|x)最小的類(lèi)別標(biāo)記,即


此時(shí),h^* 稱(chēng)為貝葉斯最優(yōu)分類(lèi)器,與之對(duì)應(yīng)的總體風(fēng)險(xiǎn)R(h^* )稱(chēng)為貝葉斯風(fēng)險(xiǎn)。1-R(h^*)反映了分類(lèi)器所能達(dá)到的最好性能。即通過(guò)機(jī)器學(xué)習(xí)所能產(chǎn)生的模型精度的理論上限。

具體來(lái)說(shuō),若我們的目標(biāo)是最小化分類(lèi)錯(cuò)誤率,則誤判損失\lambda _{ij} 可以寫(xiě)為


即對(duì)每個(gè)樣本x,選擇能使后驗(yàn)概率P(c|x)最大的類(lèi)別標(biāo)記。

可以看出,要使用貝葉斯判定準(zhǔn)則來(lái)最小化決策風(fēng)險(xiǎn),首先要獲得后驗(yàn)概率P(c|x)。然而,在現(xiàn)實(shí)任務(wù)中這通常難以直接獲得。機(jī)器學(xué)習(xí)所要實(shí)現(xiàn)的是基于有限的訓(xùn)練樣本集盡可能地估計(jì)出后驗(yàn)概率P(c|x).大體來(lái)說(shuō),主要有兩種策略:給定x,可通過(guò)直接建模P(c|x)來(lái)預(yù)測(cè)c,這樣可以得到的是“判別式模型”(discriminative models);也可先對(duì)聯(lián)合概率分布P(x,c)建模,然后再由此獲得p(c|x),這樣可以得到的是“生成式模型”(generative models).顯然,前面介紹的決策樹(shù)、BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等,都可歸入判別式模型的范疇。

對(duì)于生成式模型來(lái)說(shuō),必然考慮


基于貝葉斯定理,可得


其中,P(c)是類(lèi)“先驗(yàn)”概率;P(x|c)是樣本x相對(duì)于類(lèi)標(biāo)記c的似然;P(x)是用于歸一化的“證據(jù)”因子;給定樣本x,證據(jù)因子P(x)與類(lèi)標(biāo)記無(wú)關(guān),因此估計(jì)P(c|x)的問(wèn)題就轉(zhuǎn)化為如何基于訓(xùn)練數(shù)據(jù)集D來(lái)估計(jì)先驗(yàn)P(c)和似然P(x|c).

類(lèi)先驗(yàn)概率P(c)表達(dá)了樣本空間中各類(lèi)樣本所占的比例,根據(jù)大數(shù)定律,當(dāng)訓(xùn)練集包含充足的獨(dú)立同分布樣本時(shí),P(c)可通過(guò)各類(lèi)樣本出現(xiàn)的頻率來(lái)進(jìn)行估計(jì)。

對(duì)于類(lèi)條件概率P(x|c)來(lái)說(shuō),由于它涉及關(guān)于x所有屬性的聯(lián)合概率,直接根據(jù)樣本出現(xiàn)的概率來(lái)估計(jì)將會(huì)將會(huì)遇到嚴(yán)重的困難。例如,假設(shè)樣本的d個(gè)屬性都是二值的,則樣本空間將有2^d種可能的取值,在現(xiàn)實(shí)應(yīng)用中,這個(gè)值往往遠(yuǎn)大于訓(xùn)練樣本數(shù)m,也就是說(shuō),很多樣本取值在訓(xùn)練集中沒(méi)有出現(xiàn),直接按照頻率來(lái)估計(jì)P(x|c)顯然是不可行的,因?yàn)椤拔幢挥^測(cè)到”與“出現(xiàn)概率為零”通常是不同的。

1.2 極大似然估計(jì)

未完待續(xù)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容