1、Bagging方法
bagging方法采用的是一種個體學(xué)習(xí)器之間不存在強依賴關(guān)系、可同時生成的并行式結(jié)果的集成學(xué)習(xí)方法。
bagging方法主要 基于自助采樣法(bootstrap sampling),也叫有放回重采樣法.
即給定包含m個樣本的數(shù)據(jù)集,先隨機從樣本中取出一個樣本放入采樣集中,再把該樣本返回初始數(shù)據(jù)集,使得下次采樣時該樣本仍可以被選中,這樣,經(jīng)過m次隨機采樣操作,就可以得到包含m個樣本的采樣集,初始數(shù)據(jù)集中有的樣本多次出現(xiàn),有的則未出現(xiàn),其中,初始訓(xùn)練集中約有63.2%的樣本出現(xiàn)在采樣集中。
照上面的方式進行T次操作,采樣出T個含有m個訓(xùn)練集的采樣集(即有T組訓(xùn)練集),然后基于每個采樣集訓(xùn)練出T個基學(xué)習(xí)器(每個訓(xùn)練集對呀一個基學(xué)習(xí)器),再將這些基學(xué)習(xí)器進行結(jié)合(投票或者平均),即可得到集成學(xué)習(xí)器。
在對輸出進行預(yù)測時,Bagging通常對分類進行簡單投票法,對回歸使用簡單平均法。若出現(xiàn)形同,則任選其一。

2、stacking方法

首先把整個數(shù)據(jù)集分成量訓(xùn)練集(Training Data)和測試集(Test Data)兩部分。
上圖最左邊,然后把訓(xùn)練數(shù)據(jù)集進行k折,此處k=5,即把訓(xùn)練數(shù)據(jù)分成5份,在進行第j折時,使用其余的四份進行初級學(xué)習(xí)器的訓(xùn)練,得到一個初級學(xué)習(xí)器。并用該初始學(xué)習(xí)器把該折(即留下用來驗證的)數(shù)據(jù)進行預(yù)測,進行完所有折數(shù),把預(yù)測輸出作為新數(shù)據(jù)集的特征,即次級學(xué)習(xí)器的訓(xùn)練數(shù)據(jù)集,其中標記沒變,用該新數(shù)據(jù)集訓(xùn)練次級學(xué)習(xí)器,從而得到一個完整的stacking。
最后用原始數(shù)據(jù)的測試集來對該Stacking進行測試評估。