gbdt xgboost的一點思考

GBDT和XGboost本質(zhì)上都是前向分布求和算法,如果是回歸問題,那么loss常用的是平方差,如果是分類問題,loss常用的是最大似然估計或者交叉熵,求和算法的含義是,整個預(yù)測函數(shù)可以通過多個若分類器組合而成,這里有幾個要點需要關(guān)注,第一,在構(gòu)建樹的過程中,每一步分裂點的選擇,目標(biāo)都是促進(jìn)使loss下降最大,第二,初始情況下,和函數(shù)只有一個初始的分類器本身,因此,找到使loss最小的預(yù)測值即為初始值,回歸問題在使用平方差時,該值即為均值,分類問題使用交叉熵作為loss時,初始值為概率的大的類別對應(yīng)的概率值,第三,當(dāng)一棵樹構(gòu)建完成時,葉子節(jié)點的值即為該棵樹對應(yīng)函數(shù)的輸出,可通過分別對每個葉子節(jié)點對應(yīng)的特征空間求loss的最小值獲取,第四,每棵樹采用擬合梯度的方式進(jìn)行生長的原因是,整個分類器是通過不斷添加弱分類器求得的,每個弱分類器由于擬合的是梯度,因此加上原來的預(yù)測函數(shù)即相當(dāng)于使用梯度下降,不斷逼近loss極小值,

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容