前言

如果你能找到這里，真是我的幸運(yùn)~這里是藍(lán)白絳的學(xué)習(xí)筆記，本集合主要針對(duì)《百面機(jī)器學(xué)習(xí)——算法工程師帶你去面試》這本書。主要記錄我認(rèn)為重要的知識(shí)點(diǎn)，希望對(duì)大家有幫助。

第十二章集成學(xué)習(xí)

梯度提升決策樹(Gradient Boosting Decision Tree，GBDT)是Boosting算法中非常流行的模型。Gradient Boosting是Boosting中的一大類算法，基本思想是根據(jù)當(dāng)前模型損失函數(shù)的負(fù)梯度信息來訓(xùn)練新加入的弱分類器，然后將訓(xùn)練好的弱分類器以累加的形式結(jié)合到現(xiàn)有模型中。采用決策樹為弱分類器的Gradient Boosting算法被稱為GBDT，有時(shí)也稱MART(Multiple Additive Regression Tree)。GBDT中使用的決策樹通常為CART樹。
梯度提升和梯度下降的區(qū)別和聯(lián)系：

聯(lián)系：兩者均是在每一輪迭代中，利用損失函數(shù)相對(duì)于模型的負(fù)梯度方向的信息來對(duì)當(dāng)前模型進(jìn)行更新。
區(qū)別：在梯度下降中，模型是以參數(shù)化形式表示，從而模型的更新等價(jià)于參數(shù)的更新；在梯度提升中，模型并不需要進(jìn)行參數(shù)化表示，而是直接定義在函數(shù)空間中，從而大大擴(kuò)展了可以使用的模型種類。

提升算法	目標(biāo)	迭代公式	損失
梯度提升	函數(shù)空間 $F$	$F=F_{t-1}-\rho_t\nabla_FL\|_{F=F_{t-1}}$	$L=\sum_il(y_i,F(x_i))$
梯度下降	參數(shù)空間 $W$	$w_t=w_{t-1}-\rho_t\nabla_wL\|_{w=w_{t-1}}$	$L=\sum_il(y_i,f_w(w_i))$

優(yōu)點(diǎn)：
(1) 預(yù)測(cè)階段的計(jì)算速度快，樹與樹之間可并行計(jì)算。
(2) 在分布稠密的數(shù)據(jù)集上，泛化能力和表達(dá)能力都很好。
(3) 采用決策樹作為弱分類器使得GBDT模型具有較好的解釋性和魯棒性，能夠自動(dòng)發(fā)現(xiàn)特征間的高階關(guān)系，也不需要對(duì)數(shù)據(jù)進(jìn)行特殊的預(yù)處理如歸一化等。
局限：
(1) GBDT在高維稀疏的數(shù)據(jù)集上，表現(xiàn)不如支持向量機(jī)或神經(jīng)網(wǎng)絡(luò)。
(2) GBDT在處理文本分類特征問題上，相對(duì)于其他模型優(yōu)勢(shì)不如在處理數(shù)值特征時(shí)明顯。
(3) 訓(xùn)練過程需要串行訓(xùn)練，只能在決策樹內(nèi)部采用一些局部并行的手段提升訓(xùn)練速度。

GBDT是機(jī)器學(xué)習(xí)算法，XGBoost是該算法的工程實(shí)現(xiàn)。
在使用CART作為基分類器時(shí)，XGBoost就顯式地加入了正則項(xiàng)來控制模型的復(fù)雜度，有利于防止過擬合，提高模型的泛化能力。
GBDT在模型訓(xùn)練時(shí)只使用了代價(jià)函數(shù)的一階導(dǎo)數(shù)信息，XGBoost對(duì)代價(jià)函數(shù)進(jìn)行二階泰勒展開，可以同時(shí)使用一階和二階導(dǎo)數(shù)。
傳統(tǒng)的GBDT使用CART作為基分類器，XGBoost支持多種類型的基分類器，比如線性分類器。
傳統(tǒng)的GBDT在每輪迭代時(shí)使用全部的數(shù)據(jù)，XGBoost則采用了與隨機(jī)森林相似的策略，支持對(duì)數(shù)據(jù)進(jìn)行采樣。
傳統(tǒng)的GBDT沒有設(shè)計(jì)對(duì)缺失值進(jìn)行處理，XGBoost能夠自動(dòng)學(xué)習(xí)出缺失值的處理策略。

這是本章的第二部分，主要講了梯度提升和梯度下降的區(qū)別、GBDT的優(yōu)缺點(diǎn)、XGBoost與GBDT的聯(lián)系與區(qū)別。

如果您發(fā)現(xiàn)我的文章有任何錯(cuò)誤，或?qū)ξ业奈恼掠惺裁春玫慕ㄗh，請(qǐng)聯(lián)系我！如果您喜歡我的文章，請(qǐng)點(diǎn)喜歡~*我是藍(lán)白絳，感謝你的閱讀！