一.數(shù)值型類別變量

#簡單來說 LabelEncoder 是對不連續(xù)的數(shù)字或者文本進(jìn)行編號

from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()

le.fit([1,5,67,100])

le.transform([1,1,100,67,5])

輸出： array([0,0,3,2,1])

#OneHotEncoder 用于將表示分類的數(shù)據(jù)擴(kuò)維：

note:OneHotEncoder的輸入必須是 2-D array

from sklearn.preprocessing import OneHotEncoder

ohe = OneHotEncoder()

ohe.fit([[1],[2],[3],[4]]) ? ? ?#注意是兩個方括號[ [ ] ].

ohe.transform([2],[3],[1],[4]).toarray()

輸出：[ [0,1,0,0] , [0,0,1,0] , [1,0,0,0] ,[0,0,0,1] ]

二.字符串型類別變量

OneHotEncoder無法直接對字符串型的類別變量編碼，也就是說OneHotEncoder().fit_transform(testdata[['pet']])這句話會報錯(不信你試試)。已經(jīng)有很多人在 stackoverflow 和 sklearn 的 github issue 上討論過這個問題，但目前為止的 sklearn 版本仍沒有增加OneHotEncoder對字符串型類別變量的支持，所以一般都采用曲線救國的方式：

? ? ? ? ? ? ? ? 方法一先用 LabelEncoder() 轉(zhuǎn)換成連續(xù)的數(shù)值型變量，再用 OneHotEncoder() 二值化

????????????????方法二直接用 LabelBinarizer() 進(jìn)行二值化

eg.

testdata = pd.DataFrame({'pet': ['cat','dog','dog','fish']

然而要注意的是，無論 LabelEncoder() 還是 LabelBinarizer()，他們在 sklearn 中的設(shè)計初衷，都是為了解決標(biāo)簽 y 的離散化，而非輸入 X，所以他們的輸入被限定為 1-D array，這恰恰跟 OneHotEncoder() 要求輸入 2-D array 相左。

# 方法一: LabelEncoder() + OneHotEncoder()

a = LabelEncoder().fit_transform(testdata['pet'])

OneHotEncoder( sparse=False).fit_transform(a.reshape(-1,1))# 注意: 這里把 a 用 reshape 轉(zhuǎn)換成 2-D array

# 方法二: 直接用 LabelBinarizer()

LabelBinarizer().fit_transform(testdata['pet'])

array([[1.,0.,0.],

[0.,1.,0.],

[0.,0.,1.]])

正因為LabelEncoder和LabelBinarizer設(shè)計為只支持 1-D array，也使得它無法像上面 OneHotEncoder 那樣批量接受多列輸入，也就是說LabelEncoder().fit_transform(testdata[['pet', 'age']])會報錯。

另一種解決方案

其實如果我們跳出 scikit-learn，在 pandas 中可以很好地解決這個問題，用 pandas 自帶的get_dummies函數(shù)即可

get_dummies的優(yōu)勢在于:

本身就是 pandas 的模塊，所以對 DataFrame 類型兼容很好

不管你列是數(shù)值型還是字符串型，都可以進(jìn)行二值化編碼

能夠根據(jù)指令，自動生成二值化編碼后的變量名

這么看來，我們找到最完美的解決方案了？ No！get_dummies千般好，萬般好，但畢竟不是 sklearn 里的transformer類型，所以得到的結(jié)果得手動輸入到 sklearn 里的相應(yīng)模塊，也無法像 sklearn 的transformer一樣可以輸入到pipeline中進(jìn)行流程化地機(jī)器學(xué)習(xí)過程。更重要的一點

get_dummies不像 sklearn 的transformer一樣，有transform方法，所以一旦測試集中出現(xiàn)了訓(xùn)練集未曾出現(xiàn)過的特征取值，簡單地對測試集、訓(xùn)練集都用get_dummies方法將導(dǎo)致數(shù)據(jù)錯誤

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

關(guān)于sklearn獨熱編碼

關(guān)于sklearn獨熱編碼

一.數(shù)值型類別變量

二.字符串型類別變量

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

關(guān)于sklearn獨熱編碼

一.數(shù)值型類別變量

二.字符串型類別變量

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av