機(jī)器學(xué)習(xí)技法(二)

《機(jī)器學(xué)習(xí)技法》是國(guó)立臺(tái)灣大學(xué)林軒田講授的一門課程,課程的上集是《機(jī)器學(xué)習(xí)基石》。相關(guān)資源可以在youtube找到,也可在評(píng)論區(qū)索要云盤鏈接。本文主要是我學(xué)完一遍基石&技法后的筆記梳理,如果存疑請(qǐng)以原課程講授內(nèi)容為準(zhǔn),歡迎討論~[注]本文僅適用于幫助復(fù)習(xí),不適用于代替視頻課程。

技法分為3個(gè)部分,分別為

● 核模型:嵌入大量特征(6小節(jié))

● 融合模型:融合預(yù)測(cè)性特征(5小節(jié))

● 抽取模型:提取隱性特征(4小節(jié))

本文主要梳理第二部分。

二 融合模型:融合預(yù)測(cè)性特征(5)

1融合模型

1.1 VS validation


1.2融合模型的功效


1.3融合模型的種類


2 uniform blending

2.1 for classification


2.2 for regression


2.3理論保證



2.4 Bagging算法(Bootstrap

Aggregation)拔靴法融合


2.4.1例子


3 non-uniform blending

3.1 linear blending

for classification:


for regression:只需把sign改成1/N。

3.1.1α的計(jì)算


實(shí)踐中通常是用minEval(α)


3.2 Any Blending


3.3 AdaBoost(Adptive

Boosting自適應(yīng)增強(qiáng)) 皮匠法

3.3.1動(dòng)機(jī) 三個(gè)臭皮匠賽過(guò)諸葛亮


3.3.2 teacher

3.3.2.1作用


u可以看作是子資料的權(quán)重,我們需要調(diào)整子資料的權(quán)重來(lái)獲得更多樣性的假設(shè)集。

3.3.2.2調(diào)整子資料的權(quán)重來(lái)獲得更多樣性的假設(shè)集


3.3.2.3算法



4決策樹(conditionallearning)




4.1基本算法


4.2 Classification and RegressionTree(C&RT)



4..2.1 regularization by pruning(剪枝)


4.2.2 C&RT的特點(diǎn)

4.2.2.1容易處理類別特征


4.2.2.2容易處理丟失特征


4.2.3例子


4.2.4特點(diǎn)



5隨機(jī)森林(bagging+fully-grownDTree)

5.1動(dòng)機(jī)


5.2用特征分解的方式產(chǎn)生不同的樹



5.3用OOB做自檢

5.3.1 OOB的來(lái)源與大小


5.3.2自檢


用于投影維度(d’’)的選擇:


5.4特征選擇


DTree和Adaboosting(stump橫刀/縱刀針對(duì)x1/x2)都是rare model with built-in feature selection少有的內(nèi)建特征選擇的模型

對(duì)于RF:


5.4.1實(shí)現(xiàn)方法:permutation

test排列測(cè)試


優(yōu)化:



5.5例子

例1


DTree


RF

例2(有雜訊):


RF

DTree會(huì)overfit,經(jīng)過(guò)投票,RF能夠容噪(藍(lán)區(qū)內(nèi)允許x,紅區(qū)內(nèi)允許o)

5.6調(diào)參經(jīng)驗(yàn)


6 Gradient Boosted Decision Tree梯度提升決策樹(Adaboost+pruned DTree)

6.1動(dòng)機(jī)


加權(quán)取樣,訓(xùn)練出不同的決策樹,再用線性blending融合。

6.2 weighted

SVM的話直接改Ein部分即可,


DTree為了保證不對(duì)算法本身做修改,只能在取樣下文章。


6.3 pruned DTree


完全長(zhǎng)成的樹不可行


完全剪枝的樹會(huì)退化成AdaBoost-Stump

6.4 Adaboost


這里橙色部分,可以看成

①線性投票


②離hyperplane的距離


看成距離以后,若yn為負(fù)希望sn越負(fù)越好,若yn為正希望sn越正越好。

6.4.1誤差函數(shù)


這個(gè)目標(biāo)函數(shù)希望最小化,可以把它當(dāng)作以前的誤差函數(shù),即使它并不是誤差。

把這個(gè)誤差做好了,同時(shí)也能把s和y同號(hào)這個(gè)二分類問(wèn)題做好,即最后s和y差不多都是同號(hào)的。


6.4.2最小化誤差函數(shù)

加一個(gè)好的g和α進(jìn)去,由于g和α都還不知道,先用h和η表示


①找到好的h:



最終返回一個(gè)在u(t)資料上Ein最小的h加到融合模型里頭。h可看作是梯度下降的方向。

②找到好的η:


③總結(jié):AdaBoost可看作steepest descent(η) with approximate(泰勒) functional gradient(h)

6.5 GradientBoost


以下for regression

6.5.1好的h



6.5.2好的η


6.5.3應(yīng)用:GBDT


7總結(jié)

7.1 blending


7.2 learning


7.3 aggregation


效果:


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容