機(jī)器學(xué)習(xí)第三周-數(shù)據(jù)預(yù)處理和特征工程

一、數(shù)據(jù)歸一化

原因:樣本有多個維度時,量綱的不同會影響特征的重要程度,如果將數(shù)據(jù)進(jìn)行歸一化處理可以消除量綱對特征的影響

常用的歸一化方式有兩種:

????最值歸一化:??Xs =(X – Xmin)/(Xmax – Xmin) ?? 適用于特征有明顯邊界的情況

????均值方差歸一化:Xs = (X – Xmean)/ S ? ?適用于特征有極端值的情況


二、數(shù)據(jù)離散化(分箱)

將數(shù)值型數(shù)據(jù)轉(zhuǎn)化成類別型數(shù)據(jù)。連續(xù)值的取值空間可能是無窮的,為了便于表示和在模型中處理,需要對連續(xù)值特征進(jìn)行離散化處理。

無監(jiān)督: 自定義分箱:根據(jù)自己需求或經(jīng)驗進(jìn)行分箱

????????????????等距分箱:從最小值到最大值均分為n份

????????????????等頻分箱:將數(shù)據(jù)分為n份,每份樣本個數(shù)相同

????????????????聚類分箱:根據(jù)k均值聚類分為n份,前一份觀測值小于后一份

????????????????二值化:轉(zhuǎn)化為bool類型

有監(jiān)督:卡方分箱:具有最小卡方值的區(qū)間合并在一起

? ? ? ? ? ? ?? 最小熵法分箱:根據(jù)熵的大小確定最優(yōu)分箱


三、缺失值處理

目前常用的三類處理方法:

1. 用平均值、中值、分位數(shù)、眾數(shù)、隨機(jī)值等替代。效果一般,因為等于人為增加了噪聲。

2. 先根據(jù)歐式距離或Pearson相似度,來確定和缺失數(shù)據(jù)樣本最近的K個樣本,將這K個樣本的相關(guān)feature加權(quán)平均來估計該樣本的缺失數(shù)據(jù)。

3. 將變量映射到高維空間

????a.對于離散型變量:男、女或缺失的情況,采用One-hot編碼,映射成三個變量,是否男、是否女、是否缺失;

????b.對于連續(xù)型變量,首先對連續(xù)變量進(jìn)行變量分箱,采用一定的數(shù)據(jù)平滑方式(平均值/中值/箱邊界)進(jìn)行離散化,然后增加是否缺失這種維度。

四、編碼與啞變量

One-hot編碼

????one-hot編碼,又稱獨(dú)熱編碼、一位有效編碼。其方法是使用N位狀態(tài)寄存器來對N個狀態(tài)進(jìn)行編碼,每個狀態(tài)都有它獨(dú)立的寄存器位,并且在任意時候,其中只有一位有效。one hot在特征提取上屬于詞袋模型(bag of words)

優(yōu)點(diǎn):一是解決了分類器不好處理離散數(shù)據(jù)的問題,二是在一定程度上也起到了擴(kuò)充特征的作用(上面樣本特征數(shù)從3擴(kuò)展到了9)

缺點(diǎn):在文本特征表示上有些缺點(diǎn)就非常突出了。首先,它是一個詞袋模型,不考慮詞與詞之間的順序(文本中詞的順序信息也是很重要的);其次,它假設(shè)詞與詞相互獨(dú)立(在大多數(shù)情況下,詞與詞是相互影響的);最后,它得到的特征是離散稀疏的。

dummy 編碼

 啞變量編碼直觀的解釋就是任意的將一個狀態(tài)位去除。將one-hot簡化,比如用所有狀態(tài)位為0來表示新的狀態(tài)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容