從數(shù)據(jù)中提取有用特征

幾乎所有的機(jī)器學(xué)習(xí)模型都是與用向量表示的數(shù)值特征打交道。因此,需要將原始數(shù)據(jù)轉(zhuǎn)換為數(shù)值。

  • 數(shù)值特征:這些特征通常為實數(shù)或整數(shù),比如年齡
  • 類別特征:它們的取值只能是可能狀態(tài)集合中的某一種。性別、職業(yè)或者電影類別便是這類特征。
  • 文本特征:它們派生自數(shù)據(jù)中的文本內(nèi)容,比如電影名、描述或評論。
  • 其他特征:大部分其他特征最終都表示為數(shù)值。比如圖像、音頻和視頻,地理位置則可由經(jīng)緯度或地理散列(geohash)表示
類別特征

當(dāng)類別特征為原始形式時,其取值來自所有可能取值所構(gòu)成的集合,而不是一個數(shù)字,故不能作為輸入。
將類別特征表示為數(shù)字形式,??山柚鷎之1(1-of-k)編碼方法進(jìn)行。

詞袋分詞法

如果每個單詞都是一種可能的取值,那么可能出現(xiàn)的單詞組合幾乎有無限種。這時模型幾乎看不到有相同的特征出現(xiàn)兩次,學(xué)習(xí)效果也不理想,因此需要將原始的文本轉(zhuǎn)換為一種更便于機(jī)器學(xué)習(xí)的形式。

  1. 分詞(tokenization):可用的方法如空白分詞法,在空白處對文本進(jìn)行分割,可能同時還刪除標(biāo)點符號和其他非字母或數(shù)字字符
  2. 刪除停用詞:比如the、and和but
  3. 提取詞干:將各個詞項簡化為其基本的形式或者干詞。比如dogs變?yōu)閐og
  4. 向量化:一般用k之1編碼,然后用稀疏矩陣來表示

另外還有一個特征抽取的神器:word2vec,有興趣可以參考這篇文章《通俗理解word2vec》

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 葫蘆書是機(jī)器學(xué)習(xí)崗位面試的必讀書,第一遍讀,就當(dāng)作對自己這四個月以來入門機(jī)器學(xué)習(xí)的知識測驗,順便查漏補(bǔ)缺。葫蘆書比...
    單調(diào)不減閱讀 1,999評論 0 0
  • 1 文本分類 文本分類是自然語言處理領(lǐng)域最活躍的研究方向之一,目前文本分類在工業(yè)界的應(yīng)用場景非常普遍,從新聞的分類...
    高永峰_GYF閱讀 28,661評論 4 21
  • 簡書的Markdown 語法,不支持公式啊,太郁悶了。公式都顯示不出來下載鏈接:http://download.c...
    thirsd閱讀 16,150評論 0 11
  • 1.文本分類 轉(zhuǎn)眼學(xué)生生涯就結(jié)束了,在家待就業(yè)期間正好有一段空閑期,可以對曾經(jīng)感興趣的一些知識點進(jìn)行總結(jié)。 本文介...
    流川楓AI閱讀 35,905評論 23 76
  • 系列文章綜述 這個系列會包含兩部分與金融數(shù)據(jù)處理有關(guān)的文章,第一部分分析數(shù)據(jù),第二部分從已經(jīng)分析的數(shù)據(jù)中進(jìn)行信息提...
    呂不韋閱讀 11,395評論 0 9

友情鏈接更多精彩內(nèi)容