根據(jù)李航老師的《統(tǒng)計(jì)學(xué)習(xí)方法》一書(shū)整理。
1、提升方法的基本思路
提升方法基于這樣一種思路:對(duì)于一個(gè)復(fù)雜任務(wù)來(lái)說(shuō),將多個(gè)專(zhuān)家的判斷進(jìn)行適當(dāng)?shù)木C合所得出的判斷,要比其中任何一個(gè)專(zhuān)家單獨(dú)的判斷好。實(shí)際上就是“三個(gè)臭皮匠頂個(gè)諸葛亮”的道理。
接下來(lái)介紹兩個(gè)概念:
強(qiáng)可學(xué)習(xí):在概率近似正確(probably approximately correct ,PAC)的學(xué)習(xí)框架中,一個(gè)概念,如果存在一個(gè)多項(xiàng)式的學(xué)習(xí)算法能夠?qū)W習(xí)它,而且正確率很高,那么就稱(chēng)這個(gè)概念是強(qiáng)可學(xué)習(xí)的。
弱可學(xué)習(xí):一個(gè)概念,如果存在一個(gè)多項(xiàng)式的學(xué)習(xí)算法能夠?qū)W習(xí)它,學(xué)習(xí)的正確率僅比隨機(jī)猜測(cè)略好,那么就稱(chēng)這個(gè)概念是弱可學(xué)習(xí)的。
對(duì)于分類(lèi)問(wèn)題而言,給定一個(gè)訓(xùn)練樣本集,求比較粗糙的分類(lèi)規(guī)則(弱分類(lèi)器)要比求精確的分類(lèi)規(guī)則(強(qiáng)分類(lèi)器)容易得多。提升方法就是從弱學(xué)習(xí)算法出發(fā),反復(fù)學(xué)習(xí),得到一系列弱分類(lèi)器(又稱(chēng)為基本分類(lèi)器),然后組合這些弱分類(lèi)器,構(gòu)成一個(gè)強(qiáng)分類(lèi)器。大多數(shù)提升方法都是改變訓(xùn)練數(shù)據(jù)的概率分布(訓(xùn)練數(shù)據(jù)的權(quán)值分布),針對(duì)不同的訓(xùn)練數(shù)據(jù)分布調(diào)用弱學(xué)習(xí)算法學(xué)習(xí)一系列弱分類(lèi)器。
這樣一來(lái),有兩個(gè)問(wèn)題需要解決:
(1)在每一輪如何改變訓(xùn)練數(shù)據(jù)的權(quán)值或者概率分布?
(2)如何將弱分類(lèi)器組合成一個(gè)強(qiáng)分類(lèi)器?
2、AdaBoost算法的思想
說(shuō)明AdaBoost算法的思想,主要就是回答如何解決上述提出的兩個(gè)問(wèn)題。
對(duì)于第一個(gè)問(wèn)題,AdaBoost的做法是,提高那些被前一輪弱嗯類(lèi)器錯(cuò)誤分類(lèi)樣本的權(quán)值,而降低那些被正確分類(lèi)樣本的權(quán)值。這樣一來(lái),那些沒(méi)有得到正確分類(lèi)的數(shù)據(jù),由于其權(quán)值的加大而收到后一輪的弱分類(lèi)器的更大關(guān)注。
對(duì)于第二個(gè)問(wèn)題,AdaBoost對(duì)弱分類(lèi)器的組合采取加權(quán)多數(shù)表決的方法。具體地說(shuō),加大分類(lèi)誤差率小的弱分類(lèi)器的權(quán)值,使其在百奧絕種起較大的作用,減小分類(lèi)誤差率大的弱分類(lèi)器的權(quán)值,使其在表決中起較小的作用。
3、AdaBoost算法步驟:
根據(jù)李航老師的書(shū),這里我直接截圖,老師對(duì)于AdaBoost的步驟整理的非常棒:

