論?種類分類

4.1 任務(wù)說明

學(xué)習(xí)主題:論?分類(數(shù)據(jù)建模任務(wù)),利?已有數(shù)據(jù)建模,對新論?進?類別分類;

學(xué)習(xí)內(nèi)容:使?論?標題完成類別分類;

學(xué)習(xí)成果:學(xué)會?本分類的基本?法、 TF-IDF 等;

4.2 數(shù)據(jù)處理步驟

在原始arxiv論?中論?都有對應(yīng)的類別,?論?類別是作者填寫的。在本次任務(wù)中我們可以借助論?的標題和摘要完成:

對論?標題和摘要進?處理;

對論?類別進?處理;

構(gòu)建?本分類模型;

4.3 ?本分類思路

思路1:TF-IDF+機器學(xué)習(xí)分類器

直接使?TF-IDF對?本提取特征,使?分類器進?分類,分類器的選擇上可以使?SVM、LR、XGboost等

思路2:FastText

FastText是??款的詞向量,利?Facebook提供的FastText?具,可以快速構(gòu)建分類器

思路3:WordVec+深度學(xué)習(xí)分類器

WordVec是進階款的詞向量,并通過構(gòu)建深度學(xué)習(xí)分類完成分類。深度學(xué)習(xí)分類的?絡(luò)結(jié)構(gòu)可以選擇TextCNN、TextRnn或者BiLSTM。

思路4:Bert詞向量

Bert是?配款的詞向量,具有強?的建模學(xué)習(xí)能?。


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容