預(yù)處理

數(shù)據(jù)預(yù)處理的常用流程

  • 去除唯一屬性
  • 處理缺失值
  • 屬性編碼
  • 數(shù)據(jù)標(biāo)準(zhǔn)化
  • 特征選擇
  • 主成分分析

缺失值處理的三種方法

  1. 直接使用含有缺失值的特征

對于某些算法可以直接使用含有缺失值的特征比如決策樹

2.刪除含有缺失值的特征

3.缺失值的補全

補全方法:

  • 均值插補

樣本屬性可以度量使用平均值進行插補,樣本屬性不可度量使用有效值的眾數(shù)進行插補

  • 用同類均值插補

首先將樣本分類,然后以該類中樣本的均值進行插補

  • 建模預(yù)測
  • 高維映射

將屬性映射到高維空間

  • 多重插補

步驟:

  1. 通過變量之間的關(guān)系對缺失值進行預(yù)測,利用蒙特卡洛方法生成多個完整的數(shù)據(jù)集
  2. 在每個完整的數(shù)據(jù)集上面進行訓(xùn)練,得到訓(xùn)練后的模型及評價函數(shù)值
  3. 對來自各個完整的數(shù)據(jù)集的結(jié)果,根據(jù)評價函數(shù)進行選擇,選擇評價函數(shù)最大的模型其對應(yīng)值就是最后插補值
  • 極大似然估計
  • 壓縮感知以及矩陣補全

利用信號本身所具有的稀疏性,從部分信號中恢復(fù)原信號,氛圍感知觀測和重構(gòu)恢復(fù)兩個階段

特征編碼

特征二元化

將數(shù)值型屬性轉(zhuǎn)換為布爾值的屬性

獨熱編碼

采用N位狀態(tài)寄存器對N個可能的取值進行編碼

能夠處理非數(shù)值型屬性,在一定程度上擴充了特征,編碼之后屬性是稀疏的存在大量零元分量

特征選擇

特征選擇的方法大致分為三類

  • 過濾式
  • 包裹式
  • 嵌入式
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容