最近在使用mlxtend,里面有個(gè)
it transforms the input dataset (a Python list of lists) into a one-hot encoded NumPy boolean array:
一開始沒理解這個(gè)one-hot是啥,看了下文知道,就是True-False形式的數(shù)據(jù),那種0、1 的格式。
one-hot code 又稱為1位有效編碼
這個(gè)一般在機(jī)器學(xué)習(xí)中提到的比較多,在數(shù)據(jù)預(yù)處理的過程中使用較多,一般特征值使用0、1來表示會(huì)方便很多,而且效率高。
像性別,一般有男、女,轉(zhuǎn)為one-hot,就是[10,01],如果再加上個(gè)未知,那就是[100,010,001]
感覺這里需要注意的就是將所有的特征值轉(zhuǎn)換為0,1,有幾個(gè)特征值,就轉(zhuǎn)換為幾位編碼。
這里也不介紹啥復(fù)雜高深的機(jī)器學(xué)習(xí)概念了,我也還沒掌握呢,記錄下這么個(gè)方法,以后會(huì)用到的。在pandas中好像也有方法可以轉(zhuǎn)換,等我學(xué)習(xí)下,再過來分享。
補(bǔ)充