一、數(shù)據(jù)歸一化

原因：樣本有多個維度時，量綱的不同會影響特征的重要程度，如果將數(shù)據(jù)進(jìn)行歸一化處理可以消除量綱對特征的影響

常用的歸一化方式有兩種：

????最值歸一化：??Xs =（X – Xmin）/（Xmax – Xmin） ?? 適用于特征有明顯邊界的情況

????均值方差歸一化：Xs = （X – Xmean）/ S ? ?適用于特征有極端值的情況

二、數(shù)據(jù)離散化（分箱）

將數(shù)值型數(shù)據(jù)轉(zhuǎn)化成類別型數(shù)據(jù)。連續(xù)值的取值空間可能是無窮的，為了便于表示和在模型中處理，需要對連續(xù)值特征進(jìn)行離散化處理。

無監(jiān)督：自定義分箱：根據(jù)自己需求或經(jīng)驗進(jìn)行分箱

????????????????等距分箱：從最小值到最大值均分為n份

????????????????等頻分箱：將數(shù)據(jù)分為n份，每份樣本個數(shù)相同

????????????????聚類分箱：根據(jù)k均值聚類分為n份，前一份觀測值小于后一份

????????????????二值化：轉(zhuǎn)化為bool類型

有監(jiān)督：卡方分箱：具有最小卡方值的區(qū)間合并在一起

? ? ? ? ? ? ?? 最小熵法分箱：根據(jù)熵的大小確定最優(yōu)分箱

目前常用的三類處理方法：

1. 用平均值、中值、分位數(shù)、眾數(shù)、隨機(jī)值等替代。效果一般，因為等于人為增加了噪聲。

2. 先根據(jù)歐式距離或Pearson相似度，來確定和缺失數(shù)據(jù)樣本最近的K個樣本，將這K個樣本的相關(guān)feature加權(quán)平均來估計該樣本的缺失數(shù)據(jù)。

3. 將變量映射到高維空間

????a.對于離散型變量：男、女或缺失的情況，采用One-hot編碼，映射成三個變量，是否男、是否女、是否缺失；

????b.對于連續(xù)型變量，首先對連續(xù)變量進(jìn)行變量分箱，采用一定的數(shù)據(jù)平滑方式(平均值/中值/箱邊界)進(jìn)行離散化，然后增加是否缺失這種維度。

One-hot編碼

????one-hot編碼，又稱獨(dú)熱編碼、一位有效編碼。其方法是使用N位狀態(tài)寄存器來對N個狀態(tài)進(jìn)行編碼，每個狀態(tài)都有它獨(dú)立的寄存器位，并且在任意時候，其中只有一位有效。one hot在特征提取上屬于詞袋模型（bag of words）

優(yōu)點(diǎn)：一是解決了分類器不好處理離散數(shù)據(jù)的問題，二是在一定程度上也起到了擴(kuò)充特征的作用（上面樣本特征數(shù)從3擴(kuò)展到了9）

缺點(diǎn)：在文本特征表示上有些缺點(diǎn)就非常突出了。首先，它是一個詞袋模型，不考慮詞與詞之間的順序（文本中詞的順序信息也是很重要的）；其次，它假設(shè)詞與詞相互獨(dú)立（在大多數(shù)情況下，詞與詞是相互影響的）；最后，它得到的特征是離散稀疏的。

dummy 編碼

　啞變量編碼直觀的解釋就是任意的將一個狀態(tài)位去除。將one-hot簡化，比如用所有狀態(tài)位為0來表示新的狀態(tài)