樹模型缺失值處理總結(jié)

本篇文章來總結(jié)一下樹模型缺失值處理的方法

1、決策樹

對普通的決策樹來說,缺失值需要注意三個(gè)方面的問題:

  1. 在選擇分裂屬性的時(shí)候,訓(xùn)練樣本存在缺失值,如何處理?
  2. 在建樹過程中,給定劃分屬性,若樣本在該屬性上的值是缺失的,那么該如何對這個(gè)樣本進(jìn)行劃分?
  3. 訓(xùn)練完成,給測試集樣本分類,有缺失值怎么辦?

針對前兩個(gè)問題,可以參考文獻(xiàn):https://blog.csdn.net/u012328159/article/details/79413610

針對第三個(gè)問題,通常選擇樣本數(shù)最多的特征值方向。

2、XGBoost

XGBoost處理缺失值,是將所有有缺失值的數(shù)據(jù)捆綁在一起,比較將這些數(shù)據(jù)都放入左子樹 和都放入右子樹時(shí)的損失大小。

參考文獻(xiàn)

1、決策樹(decision tree)(四)——缺失值處理:https://blog.csdn.net/u012328159/article/details/79413610
2、怎么理解決策樹、xgboost能處理缺失值?而有的模型(svm)對缺失值比較敏感呢?:https://www.zhihu.com/question/58230411

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • LR和SVM的區(qū)別 相同點(diǎn):1、都是監(jiān)督、分類算法,且一般處理二分類問題2、兩個(gè)方法都可以增加不同的正則化項(xiàng),如l...
    賬號已刪除閱讀 2,881評論 1 8
  • 初看Xgboost,翻了多篇博客發(fā)現(xiàn)關(guān)于xgboost原理的描述實(shí)在難以忍受,缺乏邏輯性,寫一篇供討論。 ——以下...
    chaaffff閱讀 1,894評論 0 8
  • 決策樹理論在決策樹理論中,有這樣一句話,“用較少的東西,照樣可以做很好的事情。越是小的決策樹,越優(yōu)于大的決策樹”。...
    制杖灶灶閱讀 6,081評論 0 25
  • 以西瓜書為主線,以其他書籍作為參考進(jìn)行補(bǔ)充,例如《統(tǒng)計(jì)學(xué)習(xí)方法》,《PRML》等 第一章 緒論 1.2 基本術(shù)語 ...
    danielAck閱讀 4,935評論 0 5
  • 吃過午飯,同事H一回到辦公室就開始發(fā)揚(yáng)她的八卦精神,說要給大家爆個(gè)料,她一個(gè)朋友單位的,真人真事。 一聽說有料,這...
    余小魚MsYu閱讀 667評論 7 5

友情鏈接更多精彩內(nèi)容