機(jī)器學(xué)習(xí)經(jīng)典算法AdaBoost算法思路理解(超詳細(xì)附代碼)

簡(jiǎn)介
Adaboost算法是一種提升方法,將多個(gè)弱分類(lèi)器,組合成強(qiáng)分類(lèi)器。
它的自適應(yīng)在于:前一個(gè)弱分類(lèi)器分錯(cuò)的樣本的權(quán)值(樣本對(duì)應(yīng)的權(quán)值)會(huì)得到加強(qiáng),權(quán)值更新后的樣本再次被用來(lái)訓(xùn)練下一個(gè)新的弱分類(lèi)器。在每輪訓(xùn)練中,用總體(樣本總體)訓(xùn)練新的弱分類(lèi)器,產(chǎn)生新的樣本權(quán)值、該弱分類(lèi)器的話(huà)語(yǔ)權(quán),一直迭代直到達(dá)到預(yù)定的錯(cuò)誤率或達(dá)到指定的最大迭代次數(shù)。
總體——樣本——個(gè)體三者間的關(guān)系需要搞清除
總體:N 樣本:{ni}i從1到M 個(gè)體:如n1=(1,2),樣本n1中有兩個(gè)個(gè)體。

算法原理
(1)初始化訓(xùn)練數(shù)據(jù)(每個(gè)樣本)的權(quán)值分布:如果有N個(gè)樣本,則每一個(gè)訓(xùn)練的樣本點(diǎn)最開(kāi)始時(shí)都被賦予相同的權(quán)重:1/N。
(2)訓(xùn)練弱分類(lèi)器。具體訓(xùn)練過(guò)程中,如果某個(gè)樣本已經(jīng)被準(zhǔn)確地分類(lèi),那么在構(gòu)造下一個(gè)訓(xùn)練集中,它的權(quán)重就被降低;相反,如果某個(gè)樣本點(diǎn)沒(méi)有被準(zhǔn)確地分類(lèi),那么它的權(quán)重就得到提高。同時(shí),得到弱分類(lèi)器對(duì)應(yīng)的話(huà)語(yǔ)權(quán)。然后,更新權(quán)值后的樣本集被用于訓(xùn)練下一個(gè)分類(lèi)器,整個(gè)訓(xùn)練過(guò)程如此迭代地進(jìn)行下去。
(3)將各個(gè)訓(xùn)練得到的弱分類(lèi)器組合成強(qiáng)分類(lèi)器。各個(gè)弱分類(lèi)器的訓(xùn)練過(guò)程結(jié)束后,分類(lèi)誤差率小的弱分類(lèi)器的話(huà)語(yǔ)權(quán)較大,其在最終的分類(lèi)函數(shù)中起著較大的決定作用,而分類(lèi)誤差率大的弱分類(lèi)器的話(huà)語(yǔ)權(quán)較小,其在最終的分類(lèi)函數(shù)中起著較小的決定作用。換言之,誤差率低的弱分類(lèi)器在最終分類(lèi)器中占的比例較大,反之較小。

算法流程
第一步:
初始化訓(xùn)練數(shù)據(jù)(每個(gè)樣本)的權(quán)值分布。每一個(gè)訓(xùn)練樣本,初始化時(shí)賦予同樣的權(quán)值w=1/N。N為樣本總數(shù)。


image.png

D1表示,第一次迭代每個(gè)樣本的權(quán)值。w11表示,第1次迭代時(shí)的第一個(gè)樣本的權(quán)值。
N為樣本總數(shù)。

第二步:進(jìn)行多次迭代,m=1,2….M。m表示迭代次數(shù)。
a)使用具有權(quán)值分布Dm(m=1,2,3…N)的訓(xùn)練樣本集進(jìn)行學(xué)習(xí),得到弱的分類(lèi)器。


image.png

該式子表示,第m次迭代時(shí)的弱分類(lèi)器,將樣本x要么分類(lèi)成-1,要么分類(lèi)成1.那么根據(jù)什么準(zhǔn)則得到弱分類(lèi)器?
準(zhǔn)則:該弱分類(lèi)器的誤差函數(shù)最小,也就是分錯(cuò)的樣本對(duì)應(yīng)的 權(quán)值之和,最小。


image.png

b)計(jì)算弱分類(lèi)器Gm(x)的話(huà)語(yǔ)權(quán),話(huà)語(yǔ)權(quán)am表示Gm(x)在最終分類(lèi)器中的重要程度。其中em,為上步中的εm(誤差函數(shù)的值)


image.png

該式是隨em減小而增大。即誤差率小的分類(lèi)器,在最終分類(lèi)器的 重要程度大。
c)更新訓(xùn)練樣本集的權(quán)值分布。用于下一輪迭代。其中,被誤分的樣本的權(quán)值會(huì)增大,被正確分的權(quán)值減小。


image.png

Dm+1是用于下次迭代時(shí)樣本的權(quán)值,Wm+1,i是下一次迭代時(shí),第i個(gè)樣本的權(quán)值。
其中,yi代表第i個(gè)樣本對(duì)應(yīng)的類(lèi)別(1或-1),Gm(xi)表示弱分類(lèi)器對(duì)樣本xi的分類(lèi)(1或-1)。若果分對(duì),yi*Gm(xi)的值為1,反之為-1。其中Zm是歸一化因子,使得所有樣本對(duì)應(yīng)的權(quán)值之和為1.


image.png

第三步迭代完成后,組合弱分類(lèi)器。

image.png

然后,加個(gè)sign函數(shù),該函數(shù)用于求數(shù)值的正負(fù)。數(shù)值大于0,為1。小于0,為-1.等于0,為0.得到最終的強(qiáng)分類(lèi)器G(x)


image.png

優(yōu)點(diǎn)

(1)精度很高的分類(lèi)器
(2)提供的是框架,可以使用各種方法構(gòu)建弱分類(lèi)器
(3)簡(jiǎn)單,不需要做特征篩選
(4)不用擔(dān)心過(guò)度擬合

實(shí)際應(yīng)用

(1)用于二分類(lèi)或多分類(lèi)
(2)特征選擇
(3)分類(lèi)人物的baseline

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容