4.1 任務(wù)說明
學(xué)習(xí)主題:論?分類(數(shù)據(jù)建模任務(wù)),利?已有數(shù)據(jù)建模,對新論?進?類別分類;
學(xué)習(xí)內(nèi)容:使?論?標題完成類別分類;
學(xué)習(xí)成果:學(xué)會?本分類的基本?法、 TF-IDF 等;
4.2 數(shù)據(jù)處理步驟
在原始arxiv論?中論?都有對應(yīng)的類別,?論?類別是作者填寫的。在本次任務(wù)中我們可以借助論?的標題和摘要完成:
對論?標題和摘要進?處理;
對論?類別進?處理;
構(gòu)建?本分類模型;
4.3 ?本分類思路
思路1:TF-IDF+機器學(xué)習(xí)分類器
直接使?TF-IDF對?本提取特征,使?分類器進?分類,分類器的選擇上可以使?SVM、LR、XGboost等
思路2:FastText
FastText是??款的詞向量,利?Facebook提供的FastText?具,可以快速構(gòu)建分類器
思路3:WordVec+深度學(xué)習(xí)分類器
WordVec是進階款的詞向量,并通過構(gòu)建深度學(xué)習(xí)分類完成分類。深度學(xué)習(xí)分類的?絡(luò)結(jié)構(gòu)可以選擇TextCNN、TextRnn或者BiLSTM。
思路4:Bert詞向量
Bert是?配款的詞向量,具有強?的建模學(xué)習(xí)能?。




