這可能是最容易上手的文本分類工具

之前在做文本分類時,發(fā)現(xiàn)在不同業(yè)務(wù)上的文本分類流程是一致的,即輸入輸出一致,故把此抽離出來形成一個基礎(chǔ)工具,方便對數(shù)據(jù)有基礎(chǔ)的感知和對算法有基本的選型。不管你是做前端、后端還是算法,都可以拿來一試。

一、簡介

本工具主要是基于scikit-learn和tensorflow-keras而形成,主要目的是為了提供更加簡單快捷的baseline搭建流程。主要組件都是基于業(yè)務(wù)實踐而選擇的較為高效的方法。

(1)特征級別:字級別(char)和詞級別(word)
(2)特征表示:詞頻、ngram、tfidf、word2vec等
(3)模型:貝葉斯、邏輯回歸、fastText、TextCNN、TextRNN等
(4)模型集成:串聯(lián)和并聯(lián)等
(5)模型評估:precision_score、recall_score、f1_score等

二、使用

2.1 第三方包模式

python setup.py install(or develop)  # 可以跟使用其他python程序包一樣使用該工具包

2.2 命令行模式

# 模型訓(xùn)練
python youmin_textclassifier_train.py -n="test" -t="./data_sample/train_data.txt" -e="./data_sample/test_data.txt" -o="./data/"
# 模型預(yù)測
python youmin_textclassifier_predict.py -n="test" -o="./data/" -p="./data_sample/predict_data.txt" -d="./data/predict.txt"

2.3 項目引用包模式

cd examples
python3 classify.py base_on_list
python3 classify.py base_on_file
python3 classify.py base_on_dir

附錄

[1] 感謝TextGrocery
[2] 項目詳情頁youmin_textclassifier,如果覺得對自己有幫助的小伙伴請幫忙star~~
[3] 個人博客DebugNLP,歡迎各路同學(xué)互相交流
[4] 本文所有代碼只用于技術(shù)交流,拒絕任何商用活動,使用者如有任何問題、建議和意見,歡迎發(fā)郵件至 yongjin.weng@foxmail.com

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容