一、數(shù)據(jù)歸一化
原因:樣本有多個維度時,量綱的不同會影響特征的重要程度,如果將數(shù)據(jù)進(jìn)行歸一化處理可以消除量綱對特征的影響
常用的歸一化方式有兩種:
????最值歸一化:??Xs =(X – Xmin)/(Xmax – Xmin) ?? 適用于特征有明顯邊界的情況
????均值方差歸一化:Xs = (X – Xmean)/ S ? ?適用于特征有極端值的情況
二、數(shù)據(jù)離散化(分箱)
將數(shù)值型數(shù)據(jù)轉(zhuǎn)化成類別型數(shù)據(jù)。連續(xù)值的取值空間可能是無窮的,為了便于表示和在模型中處理,需要對連續(xù)值特征進(jìn)行離散化處理。
無監(jiān)督: 自定義分箱:根據(jù)自己需求或經(jīng)驗進(jìn)行分箱
????????????????等距分箱:從最小值到最大值均分為n份
????????????????等頻分箱:將數(shù)據(jù)分為n份,每份樣本個數(shù)相同
????????????????聚類分箱:根據(jù)k均值聚類分為n份,前一份觀測值小于后一份
????????????????二值化:轉(zhuǎn)化為bool類型
有監(jiān)督:卡方分箱:具有最小卡方值的區(qū)間合并在一起
? ? ? ? ? ? ?? 最小熵法分箱:根據(jù)熵的大小確定最優(yōu)分箱
三、缺失值處理
目前常用的三類處理方法:
1. 用平均值、中值、分位數(shù)、眾數(shù)、隨機(jī)值等替代。效果一般,因為等于人為增加了噪聲。
2. 先根據(jù)歐式距離或Pearson相似度,來確定和缺失數(shù)據(jù)樣本最近的K個樣本,將這K個樣本的相關(guān)feature加權(quán)平均來估計該樣本的缺失數(shù)據(jù)。
3. 將變量映射到高維空間
????a.對于離散型變量:男、女或缺失的情況,采用One-hot編碼,映射成三個變量,是否男、是否女、是否缺失;
????b.對于連續(xù)型變量,首先對連續(xù)變量進(jìn)行變量分箱,采用一定的數(shù)據(jù)平滑方式(平均值/中值/箱邊界)進(jìn)行離散化,然后增加是否缺失這種維度。
四、編碼與啞變量
One-hot編碼
????one-hot編碼,又稱獨(dú)熱編碼、一位有效編碼。其方法是使用N位狀態(tài)寄存器來對N個狀態(tài)進(jìn)行編碼,每個狀態(tài)都有它獨(dú)立的寄存器位,并且在任意時候,其中只有一位有效。one hot在特征提取上屬于詞袋模型(bag of words)
優(yōu)點(diǎn):一是解決了分類器不好處理離散數(shù)據(jù)的問題,二是在一定程度上也起到了擴(kuò)充特征的作用(上面樣本特征數(shù)從3擴(kuò)展到了9)
缺點(diǎn):在文本特征表示上有些缺點(diǎn)就非常突出了。首先,它是一個詞袋模型,不考慮詞與詞之間的順序(文本中詞的順序信息也是很重要的);其次,它假設(shè)詞與詞相互獨(dú)立(在大多數(shù)情況下,詞與詞是相互影響的);最后,它得到的特征是離散稀疏的。
dummy 編碼
啞變量編碼直觀的解釋就是任意的將一個狀態(tài)位去除。將one-hot簡化,比如用所有狀態(tài)位為0來表示新的狀態(tài)