Bagging---Bootstrap aggregating
是并行式集成學(xué)習(xí)方法最著名的代表,基于自助采樣法允許在同一種分類器上?對(duì)訓(xùn)練集進(jìn)行多次采樣
自助采樣法(bootstrap sampling)
給定包含m個(gè)樣本的數(shù)據(jù)集,我們先隨機(jī)取出一個(gè)樣本放入采樣集中,再把該樣本放回初始數(shù)據(jù)集,使得下次采樣時(shí)該樣本仍有可能被選中,經(jīng)過m次隨機(jī)采樣操作,得到m個(gè)樣本的采樣集,初始訓(xùn)練集中約有63.2%的樣本出現(xiàn)在采樣集中。
Bagging的基本流程
采樣出T個(gè)含m個(gè)訓(xùn)練樣本的采樣集,然后基于每個(gè)采樣集訓(xùn)練出一個(gè)基學(xué)習(xí)器,再將這些基學(xué)習(xí)器進(jìn)行結(jié)合。

例子


1.因?yàn)槊總€(gè)樣本被選中的概率相同,所以bagging并不側(cè)重于訓(xùn)練數(shù)據(jù)集中的任何特定實(shí)例
2.從偏差-方差的角度,Bagging主要關(guān)注降低方差,因此它在容易受到樣本擾動(dòng)的學(xué)習(xí)器(如不剪枝的決策樹、神經(jīng)網(wǎng)絡(luò))中效果更明顯。意思就是說(shuō)不容易受極端樣本影響,因?yàn)樽詈笫峭镀钡?,所以降低了方?/p>

隨機(jī)森林(Random Forest RF)
RF在以決策樹為基學(xué)習(xí)器構(gòu)建Bagging集成的基礎(chǔ)上,進(jìn)一步在決策樹的訓(xùn)練過程中引入了隨機(jī)屬性選擇。
傳統(tǒng)決策樹在選擇劃分屬性時(shí)是在當(dāng)前結(jié)點(diǎn)的屬性集合(假定有d個(gè)屬性)中選擇一個(gè)最優(yōu)屬性;
在RF中,對(duì)基決策樹的每個(gè)結(jié)點(diǎn),先從該結(jié)點(diǎn)的屬性集合中隨機(jī)選擇一個(gè)包含k個(gè)屬性的集合,然后再?gòu)倪@個(gè)子集中選擇一個(gè)最優(yōu)屬性用于劃分。一般情況下,推薦值k=log2d


Boosting 和 Bagging 的區(qū)別


