Adaboost思想

因為之前接觸的資料將其原理類比為“三個臭皮匠頂個諸葛亮”,我只是簡單理解為多個獨立的分類器的集成。后來仔細學習了一下其實沒有那么簡單,其思想還是很值得借鑒的。

  1. 首先需要強調(diào)的是一般選取的單個分類器表征能力有限,也就是數(shù)據(jù)對其是不完全可分的,一般可選取決策樹或者線性分類器。
  2. 其次多個分類器并不是并行疊加,更像是串行。第一個分類器得到數(shù)據(jù)后,經(jīng)過訓練得到一個最小的誤差水平(這個分類器的訓練就完全結(jié)束了,所有參數(shù)固定不變),并且返回分類錯誤的樣本。第二個分類器在整個集成系統(tǒng)的基礎(chǔ)上(這里集成系統(tǒng)是指前面已經(jīng)訓練完成的所有分類器的整體,而此時只有一個分類器訓練完成),著重對集成系統(tǒng)預測錯誤的樣本進行訓練(這也是'boost'這個名稱的來源。可以想一下為什么是整個系統(tǒng)而不是僅僅前一個:因為對任意一個的分類器分類的正確率都是比較低的,單個分類器最優(yōu)僅僅是對預測誤差加權(quán)后最低,分類錯誤個數(shù)可能還是比較多的),實現(xiàn)方式是:訓練期間,此分類器對集成系統(tǒng)分類錯誤的樣本誤差權(quán)重高,正確的誤差權(quán)重低(也就是所有樣本經(jīng)過此分類器預測后,錯誤的代價要經(jīng)過加權(quán),這就是一般資料上所說的“樣本權(quán)重”),同樣在加權(quán)誤差最小后結(jié)束訓練。你可以體會到分類器之間的串行關(guān)系,這很像決策樹的分支過程。
  3. 集成系統(tǒng)的分類錯誤率隨著分類器個數(shù)的增加一定是單調(diào)遞減的,因為對單個分類器置信度權(quán)重的調(diào)整。
  4. 結(jié)束可以隨時,可以設(shè)置單個分類器的個數(shù),或者整個集成系統(tǒng)的錯誤率。

adaboost類比的話,僅僅用人多力量大并不能準確表示其精髓。我覺得其更像是一個團隊的組建過程:一個創(chuàng)始團隊面臨很多問題,當它遇到解決不了的問題就開始招人。這人不是隨便找的,而是能解決當前問題的。就這樣團隊不斷擴大,漸漸步入正軌。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容