色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

<bdo id="6oyoo"></bdo>

<bdo id="6oyoo"></bdo><input id="6oyoo"><th id="6oyoo"></th></input>

登錄注冊寫文章

從數(shù)據(jù)中提取有用特征

從數(shù)據(jù)中提取有用特征

幾乎所有的機(jī)器學(xué)習(xí)模型都是與用向量表示的數(shù)值特征打交道。因此，需要將原始數(shù)據(jù)轉(zhuǎn)換為數(shù)值。

數(shù)值特征：這些特征通常為實數(shù)或整數(shù)，比如年齡
類別特征：它們的取值只能是可能狀態(tài)集合中的某一種。性別、職業(yè)或者電影類別便是這類特征。
文本特征：它們派生自數(shù)據(jù)中的文本內(nèi)容，比如電影名、描述或評論。
其他特征：大部分其他特征最終都表示為數(shù)值。比如圖像、音頻和視頻，地理位置則可由經(jīng)緯度或地理散列（geohash）表示

類別特征

當(dāng)類別特征為原始形式時，其取值來自所有可能取值所構(gòu)成的集合，而不是一個數(shù)字，故不能作為輸入。
將類別特征表示為數(shù)字形式，?？山柚鷎之1（1-of-k）編碼方法進(jìn)行。

詞袋分詞法

如果每個單詞都是一種可能的取值，那么可能出現(xiàn)的單詞組合幾乎有無限種。這時模型幾乎看不到有相同的特征出現(xiàn)兩次，學(xué)習(xí)效果也不理想，因此需要將原始的文本轉(zhuǎn)換為一種更便于機(jī)器學(xué)習(xí)的形式。

分詞（tokenization）：可用的方法如空白分詞法，在空白處對文本進(jìn)行分割，可能同時還刪除標(biāo)點符號和其他非字母或數(shù)字字符
刪除停用詞：比如the、and和but
提取詞干：將各個詞項簡化為其基本的形式或者干詞。比如dogs變?yōu)閐og
向量化：一般用k之1編碼，然后用稀疏矩陣來表示

另外還有一個特征抽取的神器：word2vec，有興趣可以參考這篇文章《通俗理解word2vec》

最后編輯于：2020.01.09 15:45:18

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

葫蘆書第一章——特征工程
葫蘆書是機(jī)器學(xué)習(xí)崗位面試的必讀書，第一遍讀，就當(dāng)作對自己這四個月以來入門機(jī)器學(xué)習(xí)的知識測驗，順便查漏補(bǔ)缺。葫蘆書比...
單調(diào)不減閱讀 1,999評論 0贊 0
基于Text-CNN模型的中文文本分類實戰(zhàn)
1 文本分類文本分類是自然語言處理領(lǐng)域最活躍的研究方向之一，目前文本分類在工業(yè)界的應(yīng)用場景非常普遍，從新聞的分類...
高永峰_GYF閱讀 28,661評論 4贊 21

文本特征提取方案匯總
簡書的Markdown 語法，不支持公式啊，太郁悶了。公式都顯示不出來下載鏈接：http://download.c...
thirsd閱讀 16,150評論 0贊 11
吾愛NLP(4)—基于Text-CNN模型的中文文本分類實戰(zhàn)
1.文本分類轉(zhuǎn)眼學(xué)生生涯就結(jié)束了，在家待就業(yè)期間正好有一段空閑期，可以對曾經(jīng)感興趣的一些知識點進(jìn)行總結(jié)。本文介...
流川楓AI閱讀 35,905評論 23贊 76
文本清洗+文本分類
系列文章綜述這個系列會包含兩部分與金融數(shù)據(jù)處理有關(guān)的文章，第一部分分析數(shù)據(jù)，第二部分從已經(jīng)分析的數(shù)據(jù)中進(jìn)行信息提...
呂不韋閱讀 11,395評論 0贊 9

友情鏈接更多精彩內(nèi)容

1贊2贊

贊賞

手機(jī)看全文

延川县| 玉林市| 邻水| 百色市| 南康市| 江津市| 兴义市| 寿宁县| 永修县| 南安市| 江门市| 乌海市| 突泉县| 泾川县| 孙吴县| 千阳县| 图木舒克市| 桦川县| 保康县| 肇东市| 奎屯市| 准格尔旗| 阆中市| 巧家县| 深水埗区| 西乌珠穆沁旗| 陕西省| 吴桥县| 外汇| 忻城县| 海南省| 抚松县| 乐业县| 墨江| 诸城市| 理塘县| 桂林市| 灵川县| 中江县| 安仁县| 瑞丽市|

<dfn id="sm1px"></dfn>