99是热这里只精品2,色欲在线网站,青青青操视频在线播放

特征工程

-Data PreProcessing（數(shù)據(jù)預(yù)處理）
-Feature Extraction（特征提?。?br> -Feature Selection（特征選擇）
-Feature construction（特征構(gòu)造）等 ...
而數(shù)據(jù)預(yù)處理又包括了數(shù)據(jù)清洗和特征預(yù)處理等子問(wèn)題。

image.png

標(biāo)準(zhǔn)化與歸一化對(duì)比

1）標(biāo)準(zhǔn)化與歸一化的異同
相同點(diǎn)：
它們的相同點(diǎn)在于都能取消由于量綱不同引起的誤差；都是一種線(xiàn)性變換，都是對(duì)向量X按照比例壓縮再進(jìn)行平移。

不同點(diǎn)：
-目的不同，歸一化是為了消除綱量壓縮到[0,1]區(qū)間；
-標(biāo)準(zhǔn)化只是調(diào)整特征整體的分布；
-歸一化與最大，最小值有關(guān)；
-標(biāo)準(zhǔn)化與均值，標(biāo)準(zhǔn)差有關(guān)；
-歸一化輸出在[0,1]之間；
-標(biāo)準(zhǔn)化無(wú)限制。

2）什么時(shí)候用歸一化？什么時(shí)候用標(biāo)準(zhǔn)化？
-如果對(duì)輸出結(jié)果范圍有要求，用歸一化；
-如果數(shù)據(jù)較為穩(wěn)定，不存在極端的最大最小值，用歸一化；
-如果數(shù)據(jù)存在異常值和較多噪音，用標(biāo)準(zhǔn)化，可以間接通過(guò)中心化避免異常值和極端值的影響。

3）歸一化與標(biāo)準(zhǔn)化的應(yīng)用場(chǎng)景
在分類(lèi)、聚類(lèi)算法中，需要使用距離來(lái)度量相似性的時(shí)候（如SVM、KNN）、或者使用PCA技術(shù)進(jìn)行降維的時(shí)候，標(biāo)準(zhǔn)化(Z-score standardization)表現(xiàn)更好；
在不涉及距離度量、協(xié)方差計(jì)算、數(shù)據(jù)不符合正太分布的時(shí)候，可以使用第一種方法或其他歸一化方法。
比如圖像處理中，將RGB圖像轉(zhuǎn)換為灰度圖像后將其值限定在[0 255]的范圍；
基于樹(shù)的方法不需要進(jìn)行特征的歸一化。
例如隨機(jī)森林，bagging與boosting等方法。
如果是基于參數(shù)的模型或者基于距離的模型，因?yàn)樾枰獙?duì)參數(shù)或者距離進(jìn)行計(jì)算，都需要進(jìn)行歸一化。

數(shù)值型特征特征分箱（數(shù)據(jù)離散化）

分箱的重要性及其優(yōu)勢(shì)：
-離散特征的增加和減少都很容易，易于模型的快速迭代；
-稀疏向量?jī)?nèi)積乘法運(yùn)算速度快，計(jì)算結(jié)果方便存儲(chǔ)，容易擴(kuò)展；
-離散化后的特征對(duì)異常數(shù)據(jù)有很強(qiáng)的魯棒性；
比如一個(gè)特征是年齡>30是1，否則0。
如果特征沒(méi)有離散化，一個(gè)異常數(shù)據(jù)“年齡300歲”會(huì)給模型造成很大的干擾；
-對(duì)于線(xiàn)性模型，表達(dá)能力受限；
-單變量離散化為N個(gè)后，每個(gè)變量有單獨(dú)的權(quán)重，相當(dāng)于模型引入了非線(xiàn)性，能夠提升模型表達(dá)能力，加大擬合；
-離散化后可以進(jìn)行特征交叉，由M+N個(gè)變量變?yōu)镸*N個(gè)變量，進(jìn)一步引入非線(xiàn)性，提升表達(dá)能力；
-特征離散化后，模型會(huì)更穩(wěn)定；
比如如果對(duì)用戶(hù)年齡離散化，20-30作為一個(gè)區(qū)間，不會(huì)因?yàn)橐粋€(gè)用戶(hù)年齡長(zhǎng)了一歲就變成一個(gè)完全不同的人。
當(dāng)然處于區(qū)間相鄰處的樣本會(huì)剛好相反，所以怎么劃分區(qū)間是門(mén)學(xué)問(wèn)；
-特征離散化以后，起到了簡(jiǎn)化了邏輯回歸模型的作用，降低了模型過(guò)擬合的風(fēng)險(xiǎn)；
-可以將缺失作為獨(dú)立的一類(lèi)帶入模型；
-將所有變量變換到相似的尺度上。

待完善

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

特征工程－特征預(yù)處理

特征工程－特征預(yù)處理

特征工程

標(biāo)準(zhǔn)化與歸一化對(duì)比

數(shù)值型特征特征分箱（數(shù)據(jù)離散化）

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

特征工程－特征預(yù)處理

特征工程

標(biāo)準(zhǔn)化與歸一化對(duì)比

數(shù)值型特征特征分箱（數(shù)據(jù)離散化）

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av