[機(jī)器學(xué)習(xí)入門] 李宏毅機(jī)器學(xué)習(xí)筆記-35(Ensemble part 1;集成方法 part 1)

[機(jī)器學(xué)習(xí)入門] 李宏毅機(jī)器學(xué)習(xí)筆記-35(Ensemble;集成方法)

PDF VIDEO

Ensemble

俗稱打群架,想要得到很好的performance,基本都要用這一手。
You already developed some algorithms and codes.Lazy to modify them.Ensemble: improving your machine with little modification.

Feamework of Ensemble

揪出一堆classifiers,最好是不同的,互補(bǔ)的,妥當(dāng)?shù)匕阉麄兗掀饋?,每一個classifier都扮演著不同的角色。

這里寫圖片描述

Ensemble 有很多不同的方法,是為了對待不同的狀況。


Ensemble: Bagging

先回顧一下Bias和Variance

這里寫圖片描述

A complex model will have large variance.
We can average complex models to reduce variance.
If we average all the f*,is it close to f^.
所以,如果想讓一個variance很大的model的error變小,可以訓(xùn)練好多個variance很大的model,然后把它們平均起來,這個方法就叫做Bagging。

這里寫圖片描述

Sampling N’ examples with replacement,then……

這里寫圖片描述

This approach would be helpful when your model is complex, easy to overfit. e.g. decision tree.


Decision Tree

決策樹很容易過擬合,模型很easy。

這里寫圖片描述

決策樹不僅僅能判斷上圖的簡單問題,還能解決很多復(fù)雜問題。
比如……下圖這個美少女,把初音的身體代表類別1,其他叫類別0,在這個二維平面上的值,就是input,來output判斷是否在初音的身體上。

這里寫圖片描述

不同樹深的實(shí)驗(yàn)表現(xiàn)

這里寫圖片描述

到這里很容易理解,決策樹繼續(xù)深下去完全可以做到training data上的完美,因?yàn)榇蟛涣怂梢越o每一個data分一個類,顯而易見,這樣很容易過擬合。

Decision Tree做 bagging 就是 Random Forest。

Random Forest

這里寫圖片描述

增加一些隨機(jī)的特性,使樹與樹之間更不像。
每一次分出節(jié)點(diǎn)時,都要決定一下哪些feature 是可以用的,哪些是不可以用的,避免每一個樹都長的很像。
有個bagging方法叫做Out-of-bag。

Out-of-bag(OOB)

這里寫圖片描述

這里寫圖片描述

bagging的目標(biāo)不是在 training data 上的到更好的表現(xiàn),而是讓bias減小,得到的function更加平滑(初音的肌膚更加細(xì)膩)。

這里寫圖片描述


Ensemble: Boosting

Boosting 的目標(biāo)和 Bagging 是相反的,Bagging是把減弱過擬合,而 Boosting 是即使不能 fit training data 的 model,也要想辦法使 performance 更好,Boosting 通過把很多弱的 Classifiers結(jié)合起來,幫助得到強(qiáng)的 Classifiers。

這里寫圖片描述

就好比說,只要一個算法能比瞎猜好一點(diǎn)點(diǎn),就能通過boosting變成一個超強(qiáng)的算法。
需要注意的是:The classifiers are learned sequentially.

How to obtain different classifiers?

不同的classifier通過在不同的 training data上做訓(xùn)練,不同的 training data 怎么得到呢?

這里寫圖片描述

Re-weighting 能使sample的次數(shù)不是整數(shù)而是小數(shù)。

Adaboost

The performance of f1 for new weights would be random.

這里寫圖片描述

舉個栗子

Re-weighting Training Data

這里寫圖片描述

就比如,錯的題分值變大,對的題分值變小,75分硬生生整成不及格。
How to find a new training set that fails f1 x ?

這里寫圖片描述

What is the value of d1?

這里寫圖片描述
這里寫圖片描述

答對的weight是Z1(1-ε1),答錯的weight是Z1ε1,所有答錯的weight都會被乘上d1,所有答對的weight都會被除上d1,對錯相等列不等式。

Algorithm for AdaBoost

下接 part 2

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 漢本1603 朱信強(qiáng) 1601305
  • 夢 巴士??吭邳S昏時分寂靜的路口,一行四人,友人夫婦(已記不得樣貌),我和海先,下了車,開始了異國的觀光之旅。 這...
    xie輝閱讀 329評論 0 1
  • 今天是每天五公里跑步的第七天,早上上班的途中計劃著一天的安排,把跑步排在了第一位,覺得這是很“辛苦”的事兒,力爭早...
    榕樹家的故事閱讀 535評論 8 2
  • 年齡是歲月的嘉獎 看透世界只是時間的問題 生死剎那間 所有一切變明白終了 我們與塵土無異 留下的 是名字和偉大的思...
    藍(lán)天下永恒的流星閱讀 177評論 0 0

友情鏈接更多精彩內(nèi)容