本篇文章來總結(jié)一下樹模型缺失值處理的方法
1、決策樹
對普通的決策樹來說,缺失值需要注意三個(gè)方面的問題:
- 在選擇分裂屬性的時(shí)候,訓(xùn)練樣本存在缺失值,如何處理?
- 在建樹過程中,給定劃分屬性,若樣本在該屬性上的值是缺失的,那么該如何對這個(gè)樣本進(jìn)行劃分?
- 訓(xùn)練完成,給測試集樣本分類,有缺失值怎么辦?
針對前兩個(gè)問題,可以參考文獻(xiàn):https://blog.csdn.net/u012328159/article/details/79413610
針對第三個(gè)問題,通常選擇樣本數(shù)最多的特征值方向。
2、XGBoost
XGBoost處理缺失值,是將所有有缺失值的數(shù)據(jù)捆綁在一起,比較將這些數(shù)據(jù)都放入左子樹 和都放入右子樹時(shí)的損失大小。
參考文獻(xiàn)
1、決策樹(decision tree)(四)——缺失值處理:https://blog.csdn.net/u012328159/article/details/79413610
2、怎么理解決策樹、xgboost能處理缺失值?而有的模型(svm)對缺失值比較敏感呢?:https://www.zhihu.com/question/58230411