九九免费视频,日韩在线中文字幕国产

問(wèn)題由來(lái)
在很多機(jī)器學(xué)習(xí)任務(wù)中，特征并不總是連續(xù)值，而有可能是分類值。
例如，考慮一下的三個(gè)特征：
["male", "female"]
["from Europe", "from US", "from Asia"]
["uses Firefox", "uses Chrome", "uses Safari", "uses Internet Explorer"]

如果將上述特征用數(shù)字表示，效率會(huì)高很多。例如：
["male", "from US", "uses Internet Explorer"] 表示為[0, 1, 3]
["female", "from Asia", "uses Chrome"]表示為[1, 2, 1]

但是，即使轉(zhuǎn)化為數(shù)字表示后，上述數(shù)據(jù)也不能直接用在我們的分類器中。因?yàn)椋诸惼魍J(rèn)數(shù)據(jù)數(shù)據(jù)是連續(xù)的，并且是有序的。但是，按照我們上述的表示，數(shù)字并不是有序的，而是隨機(jī)分配的。
獨(dú)熱編碼
為了解決上述問(wèn)題，其中一種可能的解決方法是采用獨(dú)熱編碼（One-Hot Encoding）。
獨(dú)熱編碼即 One-Hot 編碼，又稱一位有效編碼，其方法是使用N位狀態(tài)寄存器來(lái)對(duì)N個(gè)狀態(tài)進(jìn)行編碼，每個(gè)狀態(tài)都由他獨(dú)立的寄存器位，并且在任意時(shí)候，其中只有一位有效。
例如：
自然狀態(tài)碼為：000,001,010,011,100,101
獨(dú)熱編碼為：000001,000010,000100,001000,010000,100000

可以這樣理解，對(duì)于每一個(gè)特征，如果它有m個(gè)可能值，那么經(jīng)過(guò)獨(dú)熱編碼后，就變成了m個(gè)二元特征。并且，這些特征互斥，每次只有一個(gè)激活。因此，數(shù)據(jù)會(huì)變成稀疏的。
這樣做的好處主要有：
解決了分類器不好處理屬性數(shù)據(jù)的問(wèn)題

在一定程度上也起到了擴(kuò)充特征的作用

舉例
我們基于Python和Scikit-learn寫(xiě)一個(gè)簡(jiǎn)單的例子：
from sklearn import preprocessing
enc = preprocessing.OneHotEncoder()
enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])
enc.transform([[0, 1, 3]]).toarray()

輸出結(jié)果：
array([[ 1., 0., 0., 1., 0., 0., 0., 0., 1.]])

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

機(jī)器學(xué)習(xí) 數(shù)據(jù)預(yù)處理之獨(dú)熱編碼（One-Hot Encoding）

機(jī)器學(xué)習(xí) 數(shù)據(jù)預(yù)處理之獨(dú)熱編碼（One-Hot Encoding）

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

機(jī)器學(xué)習(xí) 數(shù)據(jù)預(yù)處理之獨(dú)熱編碼（One-Hot Encoding）

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av