《機(jī)器學(xué)習(xí)技法》是國(guó)立臺(tái)灣大學(xué)林軒田講授的一門課程,課程的上集是《機(jī)器學(xué)習(xí)基石》。相關(guān)資源可以在youtube找到,也可在評(píng)論區(qū)索要云盤鏈接。本文主要是我學(xué)完一遍基石&技法后的筆記梳理,如果存疑請(qǐng)以原課程講授內(nèi)容為準(zhǔn),歡迎討論~[注]本文僅適用于幫助復(fù)習(xí),不適用于代替視頻課程。
技法分為3個(gè)部分,分別為
● 核模型:嵌入大量特征(6小節(jié))
● 融合模型:融合預(yù)測(cè)性特征(5小節(jié))
● 抽取模型:提取隱性特征(4小節(jié))
本文主要梳理第二部分。
二 融合模型:融合預(yù)測(cè)性特征(5)
1融合模型
1.1 VS validation

1.2融合模型的功效

1.3融合模型的種類

2 uniform blending
2.1 for classification

2.2 for regression

2.3理論保證


2.4 Bagging算法(Bootstrap
Aggregation)拔靴法融合

2.4.1例子

3 non-uniform blending
3.1 linear blending
for classification:

for regression:只需把sign改成1/N。
3.1.1α的計(jì)算

實(shí)踐中通常是用minEval(α)

3.2 Any Blending

3.3 AdaBoost(Adptive
Boosting自適應(yīng)增強(qiáng)) 皮匠法
3.3.1動(dòng)機(jī) 三個(gè)臭皮匠賽過(guò)諸葛亮

3.3.2 teacher
3.3.2.1作用

u可以看作是子資料的權(quán)重,我們需要調(diào)整子資料的權(quán)重來(lái)獲得更多樣性的假設(shè)集。
3.3.2.2調(diào)整子資料的權(quán)重來(lái)獲得更多樣性的假設(shè)集

3.3.2.3算法


4決策樹(conditionallearning)



4.1基本算法

4.2 Classification and RegressionTree(C&RT)


4..2.1 regularization by pruning(剪枝)

4.2.2 C&RT的特點(diǎn)
4.2.2.1容易處理類別特征

4.2.2.2容易處理丟失特征

4.2.3例子

4.2.4特點(diǎn)


5隨機(jī)森林(bagging+fully-grownDTree)
5.1動(dòng)機(jī)

5.2用特征分解的方式產(chǎn)生不同的樹


5.3用OOB做自檢
5.3.1 OOB的來(lái)源與大小

5.3.2自檢

用于投影維度(d’’)的選擇:

5.4特征選擇

DTree和Adaboosting(stump橫刀/縱刀針對(duì)x1/x2)都是rare model with built-in feature selection少有的內(nèi)建特征選擇的模型
對(duì)于RF:

5.4.1實(shí)現(xiàn)方法:permutation
test排列測(cè)試

優(yōu)化:


5.5例子
例1


例2(有雜訊):

DTree會(huì)overfit,經(jīng)過(guò)投票,RF能夠容噪(藍(lán)區(qū)內(nèi)允許x,紅區(qū)內(nèi)允許o)
5.6調(diào)參經(jīng)驗(yàn)

6 Gradient Boosted Decision Tree梯度提升決策樹(Adaboost+pruned DTree)
6.1動(dòng)機(jī)

加權(quán)取樣,訓(xùn)練出不同的決策樹,再用線性blending融合。
6.2 weighted
SVM的話直接改Ein部分即可,

DTree為了保證不對(duì)算法本身做修改,只能在取樣下文章。

6.3 pruned DTree

完全長(zhǎng)成的樹不可行

完全剪枝的樹會(huì)退化成AdaBoost-Stump
6.4 Adaboost

這里橙色部分,可以看成
①線性投票

②離hyperplane的距離

看成距離以后,若yn為負(fù)希望sn越負(fù)越好,若yn為正希望sn越正越好。
6.4.1誤差函數(shù)

這個(gè)目標(biāo)函數(shù)希望最小化,可以把它當(dāng)作以前的誤差函數(shù),即使它并不是誤差。
把這個(gè)誤差做好了,同時(shí)也能把s和y同號(hào)這個(gè)二分類問(wèn)題做好,即最后s和y差不多都是同號(hào)的。

6.4.2最小化誤差函數(shù)
加一個(gè)好的g和α進(jìn)去,由于g和α都還不知道,先用h和η表示

①找到好的h:


最終返回一個(gè)在u(t)資料上Ein最小的h加到融合模型里頭。h可看作是梯度下降的方向。
②找到好的η:

③總結(jié):AdaBoost可看作steepest descent(η) with approximate(泰勒) functional gradient(h)
6.5 GradientBoost

以下for regression
6.5.1好的h


6.5.2好的η

6.5.3應(yīng)用:GBDT

7總結(jié)
7.1 blending

7.2 learning

7.3 aggregation

效果:
