伊人精品福利视频在线,啊啊啊啊啊啊精品一区

算法原理

XGB(extreme gradient boosting)是GBDT的一種工業(yè)實現(xiàn)，也是通過不斷增加新樹，擬合偽殘差去降低損失函數(shù)。其擬合過程是使用的損失函數(shù)的二階泰勒展開，這是和GBDT的一個區(qū)別。

$L(\theta)=\sum_{i}\left(y_{i}-\hat{y}_{i}\right)^{2}$

$\Omega(f)=\gamma T+\frac{1}{2} \lambda \sum_{j=1}^{T} w_{j}^{2}$
葉子節(jié)點數(shù)和葉節(jié)點權(quán)重

XGB中允許缺失值存在。在找分裂點時，不遍歷迭代缺失樣本，減少計算，分配樣本時，缺失的樣本同時分到左右子樹，計算哪邊的增益大就自動分到哪邊去。但在測試時如果遇到缺失值，會分到右子樹。

支持線性分類器（相當于引入L1 L2正則懲罰項的LR和線性回歸，目標函數(shù)公式=誤差平方和+正則項，似LR）
代價函數(shù)用了二階Talor展開，引入一階導(dǎo)和二階導(dǎo),提高模型擬和的速度（損失函數(shù)：一個樣本的誤差；代價函數(shù)：整個訓(xùn)練集上所有樣本誤差的平均；目標函數(shù)：代價函數(shù) + 正則化項）
可以給缺失值自動劃分方向；
同RF,支持樣本(行)隨機抽取，也支持特征(列)隨機抽取，降低運算，防過擬合；
代價函數(shù)引入正則化項，控制模型（樹）復(fù)雜度，
正則化項包含全部葉子節(jié)點個數(shù)，每個葉子節(jié)點得分的L2模的平方和（代表葉子節(jié)點權(quán)重的影響）
從貝葉斯（先驗累積思想）方差角度考慮，正則降低了模型的方差，防過擬和；
每次迭代后為葉子分配結(jié)合學習速率，減低每棵樹權(quán)重，減少每棵樹影響，靈活調(diào)整后面的學習空間；
支持并行，不是樹并行，是把特征值先預(yù)排序，存起來，可以重復(fù)并行使用計算分裂點；
分裂依據(jù)分開后與未分前的差值增益，不用每個節(jié)點排序算增益，減少計算量，可以并行計算；
可以引入閾值限制樹分裂，控制樹的規(guī)模。

缺點：

分類，回歸