集成學習方法之一:bagging

1. Bagging = 自助采樣 + 投票表決

在0-1中介紹樣本劃分訓練集測試集的方法時,提到過自助采樣。簡單來說,原始樣本集有m個樣本,有放回采樣m個構(gòu)成訓練集,剩下的沒被采到過的樣本構(gòu)成測試集。

Bagging就是,有放回采樣m個樣本這件事進行T次,這樣就搞到了T個不相同的訓練集,分別用于取訓練一個基學習器。因為樣本集的構(gòu)成不同,這T個基學習器就是不同的。而測試集則用這T次自助采樣都沒有采到過的那部分樣本構(gòu)成。

投票表決:訓練出的T個基學習器用于樣本預(yù)測時,按少數(shù)服從多數(shù)給出答案。具體有絕對多數(shù)表決(至少有多于T/2個基學習器給出了同一答案)、相對多數(shù)表決(得票最多的就是答案,多分類問題)

補充兩點:

① T得是奇數(shù)

② Bagging方法主要可以降低方差,基學習器在不同的數(shù)據(jù)集上各有各的過擬合,因此方差較大。Bagging可以解決這個事兒。

2. 隨機森林(Random Forest)

一句話概括:隨機森林 = Bagging + 屬性擾動(特征擾動)

Bagging就不用說了。

屬性擾動:在生成一棵基決策樹的過程中,對基決策樹的每個節(jié)點,假設(shè)此時可用的特征有d個,先在其中隨機選擇k個,然后考察這k各特征的信息增益(信息增益率、基尼系數(shù)),選擇最佳特征對節(jié)點進行劃分。其中k值決定了擾動的程度,當k=d時相當于沒有擾動,當k=1時相當于完全隨機的擾動。一般k=log2(d)。

屬性擾動使基學習器的差異進一步擴大。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 集成學習 原理 《機器學習》周志華 8.1 個體與集成 集成學習(ensemble learning) 通過構(gòu)建并...
    hxiaom閱讀 1,137評論 0 2
  • 1. 章節(jié)主要內(nèi)容 集成學習(ensemble learning)是通過構(gòu)建并結(jié)合多個分類器來完成學習任務(wù)。 如何...
    閃電隨筆閱讀 2,338評論 0 8
  • sklearn、XGBoost、LightGBM的文檔閱讀小記 文章導航 目錄 1.sklearn集成方法 1.1...
    nightwish夜愿閱讀 12,958評論 1 49
  • 懂分享——大氣,舍得對員工好 有能力——勤奮有悟性執(zhí)行力強快去糾錯 會領(lǐng)導——開闊眼界,塑造優(yōu)勢,容忍試錯和充分授權(quán)
    PM_Trista閱讀 237評論 0 0
  • 2018年的1月份,伴隨著第一場大雪的到來而即將結(jié)束。 其實我的1月份,過得并不充實,有意義,雖然每天忙忙忙,但是...
    糖果果2018閱讀 134評論 0 0

友情鏈接更多精彩內(nèi)容