Adaboost算法理解

1、Adaboost作為一種集成學習方法,核心思想是經(jīng)過多輪迭代,對分類器的權(quán)重參數(shù)每次迭代進行修正,然后集成得到最優(yōu)解;

2、修正的參數(shù)有兩個:迭代器的權(quán)重、樣本自身的權(quán)重,權(quán)重的大小根據(jù)每輪迭代中的誤分率自我調(diào)節(jié)

3、弱分類器的權(quán)重

? ? ?假設(shè)我們的訓練集樣本是:T={(x_{1} ,y_{1} ),(x_{2} ,y_{2} ),...(x_{m} ,y_{m} )}

? ? ? 訓練集的在第k個弱學習器的輸出權(quán)重為: D(k)=(w_{k1} ,w_{k2} ,...w_{km} );w_{ki} =\frac{1}{m} ;i=1,2...m

? ? ? 這里假設(shè)我們是二元分類問題,輸出為{-1,1},則第k個弱分類器G_{k} (x)在訓練集上的加權(quán)誤差率為:

? ? ??e_{k} ?=?p(G_{k}(x_{i} )\neq y_{i}  ) = \sum_{i=1}^mw_{ki} I(G_{k}(x_{i} )\neq y_{i} )

 ? ? 接著我們看弱學習器權(quán)重系數(shù),對于二元分類問題,第k個弱分類器G_{k}(x) 的權(quán)重系數(shù)為:\alpha _{k} = \frac{1}{2} \log_e \frac{1-e_{k} }{e_{k} }

????????從上述式子可以看到弱分類器的誤差率越大,它的權(quán)重系數(shù)越小;

4、樣本的權(quán)重:

? ? ? ? 如何更新樣本權(quán)重:假設(shè)第k個弱分類器的樣本權(quán)重系數(shù)為:D(k)=(w_{k1}, w_{k2}...w_{km}),則對應第k+1個弱分類器的樣本集權(quán)重系數(shù)? ? ? ? ? 為:w_{k+1,i} ?=?\frac{w_{ki} }{Z_{K} } exp(-\alpha _{k} y_{i} G_{k}(x_{i} ) ),這里Z_{K} 是歸一化因子。

? ? ? ? 從上述式子可以看到?y_{i} 和G_{k}(x_{i})的值越相近,它們的乘積越大,x_{i} 的權(quán)重系數(shù)w_{k+1,i}越小。換句話說,對于分對的樣本,給與的

? ? ? ? 權(quán)重越小,對于分錯的樣本,給與的權(quán)重越大;

5、錯誤率和弱分類器的權(quán)重、樣本的權(quán)重之間的關(guān)系

? ? ? 本次迭代的分類錯誤率\alpha _{k}越大,整個弱分類器的權(quán)重將會越小,下次迭代的弱分類器所使用的分類錯誤的樣本的權(quán)重越大;

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內(nèi)容