文本分類達(dá)到0.717的準(zhǔn)確率,發(fā)文慶祝

一直在關(guān)注文本分類的動(dòng)態(tài),直到最近找到了應(yīng)用場(chǎng)景才開(kāi)始真正動(dòng)手。AI很火,但是泡沫終將遠(yuǎn)去,在AI技術(shù)成本昂貴的今天,我們的投資在多年后能留下多少一定是技術(shù)本身帶來(lái)的商業(yè)價(jià)值。

方案的選擇

還是老規(guī)矩,先上方案選型。路很多,正確的選擇一條適合自己的路其實(shí)比怎么做更重要。少走彎路,結(jié)合長(zhǎng)期運(yùn)營(yíng)布局。
文本分類的方法很多,SVM, TextCNN, IDF和本文的FastText ,之所以選擇了FastText是有現(xiàn)成的代碼測(cè)試了一下效果,發(fā)現(xiàn)速度很快,處理幾萬(wàn)條文本幾乎不占CPU。
考慮到SVM太基礎(chǔ),可能無(wú)法應(yīng)對(duì)復(fù)雜的語(yǔ)料環(huán)境。
IDF可能也可以,只是沒(méi)能來(lái)得及試驗(yàn)。
TextCNN涉及到Tensorflow或者PyTorch等神經(jīng)網(wǎng)絡(luò)高計(jì)算量工具,作為最后的選擇。

關(guān)鍵經(jīng)驗(yàn)

  • 其實(shí)按照fasttext官網(wǎng)一步步走下來(lái)就很順利。
  • 計(jì)算平臺(tái)目前只有l(wèi)inux和mac, 我用centos7 都是直接make安裝,不到10分鐘裝好。虛機(jī)上也能非???。
  • 語(yǔ)料的準(zhǔn)備是重中之重,不論采用哪種方式進(jìn)行文本分類,都需要訓(xùn)練集和測(cè)試集。我是手工準(zhǔn)備了1萬(wàn)條記錄作為標(biāo)準(zhǔn)語(yǔ)料。后續(xù)會(huì)進(jìn)入自我學(xué)習(xí)的循環(huán),依靠用戶體驗(yàn),不斷更新語(yǔ)料的正確分類,作為訓(xùn)練的輸入。語(yǔ)料一定要做常規(guī)的處理:盡可能裁剪掉不必要的信息,添加自定義分詞詞典,去掉自定義的停用詞。
  • 調(diào)優(yōu)的工作能達(dá)到不錯(cuò)的效果,其實(shí)調(diào)優(yōu)就是調(diào)整下參數(shù),最簡(jiǎn)單的一步。如果計(jì)算速度快,調(diào)優(yōu)也很快。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容