特征工程-特征預(yù)處理

特征工程

-Data PreProcessing(數(shù)據(jù)預(yù)處理)
-Feature Extraction(特征提?。?br> -Feature Selection(特征選擇)
-Feature construction(特征構(gòu)造)等 ...
而數(shù)據(jù)預(yù)處理又包括了數(shù)據(jù)清洗和特征預(yù)處理等子問(wèn)題。

image.png

標(biāo)準(zhǔn)化與歸一化對(duì)比

1)標(biāo)準(zhǔn)化與歸一化的異同
相同點(diǎn):
它們的相同點(diǎn)在于都能取消由于量綱不同引起的誤差;都是一種線(xiàn)性變換,都是對(duì)向量X按照比例壓縮再進(jìn)行平移。

不同點(diǎn):
-目的不同,歸一化是為了消除綱量壓縮到[0,1]區(qū)間;
-標(biāo)準(zhǔn)化只是調(diào)整特征整體的分布;
-歸一化與最大,最小值有關(guān);
-標(biāo)準(zhǔn)化與均值,標(biāo)準(zhǔn)差有關(guān);
-歸一化輸出在[0,1]之間;
-標(biāo)準(zhǔn)化無(wú)限制。

2)什么時(shí)候用歸一化?什么時(shí)候用標(biāo)準(zhǔn)化?
-如果對(duì)輸出結(jié)果范圍有要求,用歸一化;
-如果數(shù)據(jù)較為穩(wěn)定,不存在極端的最大最小值,用歸一化;
-如果數(shù)據(jù)存在異常值和較多噪音,用標(biāo)準(zhǔn)化,可以間接通過(guò)中心化避免異常值和極端值的影響。

3)歸一化與標(biāo)準(zhǔn)化的應(yīng)用場(chǎng)景
在分類(lèi)、聚類(lèi)算法中,需要使用距離來(lái)度量相似性的時(shí)候(如SVM、KNN)、或者使用PCA技術(shù)進(jìn)行降維的時(shí)候,標(biāo)準(zhǔn)化(Z-score standardization)表現(xiàn)更好;
在不涉及距離度量、協(xié)方差計(jì)算、數(shù)據(jù)不符合正太分布的時(shí)候,可以使用第一種方法或其他歸一化方法。
比如圖像處理中,將RGB圖像轉(zhuǎn)換為灰度圖像后將其值限定在[0 255]的范圍;
基于樹(shù)的方法不需要進(jìn)行特征的歸一化。
例如隨機(jī)森林,bagging與boosting等方法。
如果是基于參數(shù)的模型或者基于距離的模型,因?yàn)樾枰獙?duì)參數(shù)或者距離進(jìn)行計(jì)算,都需要進(jìn)行歸一化。

數(shù)值型特征特征分箱(數(shù)據(jù)離散化)

分箱的重要性及其優(yōu)勢(shì):
-離散特征的增加和減少都很容易,易于模型的快速迭代;
-稀疏向量?jī)?nèi)積乘法運(yùn)算速度快,計(jì)算結(jié)果方便存儲(chǔ),容易擴(kuò)展;
-離散化后的特征對(duì)異常數(shù)據(jù)有很強(qiáng)的魯棒性;
比如一個(gè)特征是年齡>30是1,否則0。
如果特征沒(méi)有離散化,一個(gè)異常數(shù)據(jù)“年齡300歲”會(huì)給模型造成很大的干擾;

-對(duì)于線(xiàn)性模型,表達(dá)能力受限;
-單變量離散化為N個(gè)后,每個(gè)變量有單獨(dú)的權(quán)重,相當(dāng)于模型引入了非線(xiàn)性,能夠提升模型表達(dá)能力,加大擬合;
-離散化后可以進(jìn)行特征交叉,由M+N個(gè)變量變?yōu)镸*N個(gè)變量,進(jìn)一步引入非線(xiàn)性,提升表達(dá)能力;
-特征離散化后,模型會(huì)更穩(wěn)定;
比如如果對(duì)用戶(hù)年齡離散化,20-30作為一個(gè)區(qū)間,不會(huì)因?yàn)橐粋€(gè)用戶(hù)年齡長(zhǎng)了一歲就變成一個(gè)完全不同的人。
當(dāng)然處于區(qū)間相鄰處的樣本會(huì)剛好相反,所以怎么劃分區(qū)間是門(mén)學(xué)問(wèn);

-特征離散化以后,起到了簡(jiǎn)化了邏輯回歸模型的作用,降低了模型過(guò)擬合的風(fēng)險(xiǎn);
-可以將缺失作為獨(dú)立的一類(lèi)帶入模型;
-將所有變量變換到相似的尺度上。

待完善

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 昨晚我母親和她的男朋友又吵架了,我大概是到了兩點(diǎn)左右才徹底入睡的 我夢(mèng)到在一八的教室里,體育老師正在講臺(tái)上繪聲繪色...
    C藍(lán)狼閱讀 305評(píng)論 0 0
  • 承認(rèn)自己不喜歡看國(guó)產(chǎn)劇,倒不是因?yàn)榕懦?,只是覺(jué)得看劇太耗費(fèi)時(shí)間,精力,有種浪費(fèi)生命的感覺(jué)。當(dāng)然,我也追劇,美劇,也...
    小苜蓿閱讀 1,256評(píng)論 2 5
  • 為了迎接初中生活,小朋友上了銜接班。小學(xué)階段的我們沒(méi)有在外機(jī)構(gòu)上過(guò)補(bǔ)習(xí)呀,銜接班…,但學(xué)霸級(jí)們的媽媽都勸說(shuō)我一定得...
    影子_love閱讀 166評(píng)論 0 0
  • 零秒思考的本質(zhì)就是腦袋里的想法一一寫(xiě)下來(lái),這個(gè)點(diǎn)子可能會(huì)稍縱即逝,或者思考太多占用大腦內(nèi)存,大腦就像電腦,運(yùn)行過(guò)多...
    和自己較個(gè)勁閱讀 169評(píng)論 0 0
  • 簡(jiǎn)介 收到Microsoft Azure IoT團(tuán)隊(duì)寄來(lái)的套件,很驚艷,集各種開(kāi)源硬件設(shè)計(jì)與一身。 ARM mbe...
    小魚(yú)兒他老漢閱讀 996評(píng)論 0 1

友情鏈接更多精彩內(nèi)容