2022-02-21:NlP處理基本思路

1.獲取預(yù)料

預(yù)料是nlp研究的內(nèi)容,通常使用文本集合作為語(yǔ)料庫(kù),預(yù)料的來(lái)源分為3種:(1)已有的預(yù)料----積累的文檔。(2)下載現(xiàn)有的語(yǔ)料---搜狗語(yǔ)料,人民日?qǐng)?bào)語(yǔ)料等。(3)使用爬蟲(chóng)抓取。

2.語(yǔ)料的預(yù)處理

2.1 語(yǔ)料清洗:人工去重,對(duì)齊,標(biāo)注或者規(guī)則提取內(nèi)容,根據(jù)詞性和命名實(shí)體提取
2.2 分詞:將文本分成詞語(yǔ)。(基于字符串匹配的分詞方法,基于理解的分詞方法,基于統(tǒng)計(jì)的分詞方法,基于規(guī)則的分詞方法)
2.3 詞性標(biāo)注:在情感分析或者知識(shí)推理中需要。(最大熵詞性標(biāo)注,基于統(tǒng)計(jì)最大概率輸出詞性,基于HMM的詞性標(biāo)注,基于規(guī)則)
2.4 去停用詞:去掉對(duì)文本特征沒(méi)有任何貢獻(xiàn)作用的字詞,比如標(biāo)點(diǎn)符號(hào),語(yǔ)氣,人稱等)

3.特征工程

將分詞表示成計(jì)算機(jī)能夠計(jì)算的類(lèi)型(詞向量),常用的模型(詞袋模型,tf-idf,one-hot,word2Vec)

4.特征選擇

常見(jiàn)的特征選擇方法(DF,MI,IG,CHI,WLLR,WFO)

5.模型訓(xùn)練

機(jī)器學(xué)習(xí)模型:KNN,SVM,Naive Bayes,K-Means,D-tree,GBDT等
深度學(xué)習(xí)模型:CNN,RNN,LSTM,seq2seq,fastText,TextCNN等

評(píng)價(jià)指標(biāo)

Roc曲線,混淆矩陣,AUC曲線

模型部署

離線訓(xùn)練,線上部署。
在線訓(xùn)練,并持久化

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容