數(shù)據(jù)預(yù)處理的常用流程
- 去除唯一屬性
- 處理缺失值
- 屬性編碼
- 數(shù)據(jù)標(biāo)準(zhǔn)化
- 特征選擇
- 主成分分析
缺失值處理的三種方法
- 直接使用含有缺失值的特征
對于某些算法可以直接使用含有缺失值的特征比如決策樹
2.刪除含有缺失值的特征
3.缺失值的補全
補全方法:
- 均值插補
樣本屬性可以度量使用平均值進行插補,樣本屬性不可度量使用有效值的眾數(shù)進行插補
- 用同類均值插補
首先將樣本分類,然后以該類中樣本的均值進行插補
- 建模預(yù)測
- 高維映射
將屬性映射到高維空間
- 多重插補
步驟:
- 通過變量之間的關(guān)系對缺失值進行預(yù)測,利用蒙特卡洛方法生成多個完整的數(shù)據(jù)集
- 在每個完整的數(shù)據(jù)集上面進行訓(xùn)練,得到訓(xùn)練后的模型及評價函數(shù)值
- 對來自各個完整的數(shù)據(jù)集的結(jié)果,根據(jù)評價函數(shù)進行選擇,選擇評價函數(shù)最大的模型其對應(yīng)值就是最后插補值
- 極大似然估計
- 壓縮感知以及矩陣補全
利用信號本身所具有的稀疏性,從部分信號中恢復(fù)原信號,氛圍感知觀測和重構(gòu)恢復(fù)兩個階段
特征編碼
特征二元化
將數(shù)值型屬性轉(zhuǎn)換為布爾值的屬性
獨熱編碼
采用N位狀態(tài)寄存器對N個可能的取值進行編碼
能夠處理非數(shù)值型屬性,在一定程度上擴充了特征,編碼之后屬性是稀疏的存在大量零元分量
特征選擇
特征選擇的方法大致分為三類
- 過濾式
- 包裹式
- 嵌入式