總結(jié)Bootstraping、Bagging和Boosting

Bagging和Boosting都是將已有的分類或回歸算法通過一定方式組合起來,形成一個性能更加強大的分類器,更準確的說這是一種分類算法的組裝方法。即將弱分類器組裝成強分類器的方法。

在這之前先了解一下什么是Bootstraping

Bootstraping

中文翻譯自助法(Bootstrap Method,Bootstrapping或自助抽樣法),自助法是一種從給定訓練集中有放回的均勻抽樣,也就是說,每當選中一個樣本,它等可能地被再次選中并被再次添加到訓練集中。

在統(tǒng)計學中,自助法(Bootstrap Method,Bootstrapping或自助抽樣法)是一種從給定訓練集中有放回的均勻抽樣,也就是說,每當選中一個樣本,它等可能地被再次選中并被再次添加到訓練集中。
摘自 Wikipedia

.632自助法

.632自助法,假設(shè)給定的數(shù)據(jù)集包含d個樣本。該數(shù)據(jù)集有放回地抽樣d次,產(chǎn)生d個樣本的訓練集。這樣原數(shù)據(jù)樣本中的某些樣本很可能在該樣本集中出現(xiàn)多次。沒有進入該訓練集的樣本最終形成檢驗集(測試集)。 顯然每個樣本被選中的概率是1/d,因此未被選中的概率就是(1-1/d),這樣一個樣本在訓練集中沒出現(xiàn)的概率就是d次都未被選中的概率,即(1-1/d)d。當d趨于無窮大時,這一概率就將趨近于e-1=0.368,所以留在訓練集中的樣本大概就占原來數(shù)據(jù)集的63.2%。

Bagging

Bagging即Bootstrap Aggregating的縮寫,中文可翻譯為自舉匯聚法。

bagging每次從原始數(shù)據(jù)集中有放回的隨機抽樣n個樣本形成自助訓練集,重復S次后得到S個新的訓練集。

對每個自助訓練集應(yīng)用弱分類器,這樣就得到了S個弱分類器。

最后將預測數(shù)據(jù)放在這S個弱分類器上計算,計算結(jié)果采用投票方式(分類問題)和簡單求平均(回歸問題)即可。

Bagging算法之Random Forest

理解了Bagging之后,就容易理解隨機森林(Random Forest)了,RF是Bagging算法的改進版本。

隨機森林由很多決策樹構(gòu)成(常見的決策樹算法有C4.5、ID3和CART),每一棵決策樹之間沒有關(guān)聯(lián),RF計算過程中,在每個節(jié)點上隨機選擇一部分樣本特征,然后在這些隨機選擇的樣本特征中,選擇一個最優(yōu)的特征來做決策樹的左右子樹劃分。這是一種非常有效的降維方法。


Boosting

Boosting和Bagging相比,加大了多錯誤樣本的學習。Boosting的訓練方式是串行的,這和Bagging并行的方式不同,Boosting在初始化時賦予每個樣本的權(quán)重都相同為1/m。

第一輪訓練完成后,弱分類器對預測錯誤的樣本給了較大的權(quán)重,那么在第二輪訓練中就會更加重視這些權(quán)重大的樣本。

這樣迭代訓練n輪后得到n個弱分類器,最后會給這n個弱分類器分配不同的權(quán)重,一般分類誤差小的權(quán)重越大。

對于最終的結(jié)果會根據(jù)n個帶權(quán)重的分類器通過投票法產(chǎn)生。

Boosting的思想更像中學時候的錯題集,反復去做錯誤的題目 =。=

參考文獻

[1] 自助法Wikipedia https://zh.wikipedia.org/wiki/%E8%87%AA%E5%8A%A9%E6%B3%95
[2] An Introduction to Boosting and Leveraging http://www.boosting.org/papers/MeiRae03.pdf
[3] Machine Learning in Action [美] Peter Harrington
[4] 總結(jié):Bootstrap(自助法),Bagging,Boosting(提升)http://www.itdecent.cn/p/708dff71df3a

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容