1.獲取預(yù)料
預(yù)料是nlp研究的內(nèi)容,通常使用文本集合作為語(yǔ)料庫(kù),預(yù)料的來(lái)源分為3種:(1)已有的預(yù)料----積累的文檔。(2)下載現(xiàn)有的語(yǔ)料---搜狗語(yǔ)料,人民日?qǐng)?bào)語(yǔ)料等。(3)使用爬蟲(chóng)抓取。
2.語(yǔ)料的預(yù)處理
2.1 語(yǔ)料清洗:人工去重,對(duì)齊,標(biāo)注或者規(guī)則提取內(nèi)容,根據(jù)詞性和命名實(shí)體提取
2.2 分詞:將文本分成詞語(yǔ)。(基于字符串匹配的分詞方法,基于理解的分詞方法,基于統(tǒng)計(jì)的分詞方法,基于規(guī)則的分詞方法)
2.3 詞性標(biāo)注:在情感分析或者知識(shí)推理中需要。(最大熵詞性標(biāo)注,基于統(tǒng)計(jì)最大概率輸出詞性,基于HMM的詞性標(biāo)注,基于規(guī)則)
2.4 去停用詞:去掉對(duì)文本特征沒(méi)有任何貢獻(xiàn)作用的字詞,比如標(biāo)點(diǎn)符號(hào),語(yǔ)氣,人稱等)
3.特征工程
將分詞表示成計(jì)算機(jī)能夠計(jì)算的類(lèi)型(詞向量),常用的模型(詞袋模型,tf-idf,one-hot,word2Vec)
4.特征選擇
常見(jiàn)的特征選擇方法(DF,MI,IG,CHI,WLLR,WFO)
5.模型訓(xùn)練
機(jī)器學(xué)習(xí)模型:KNN,SVM,Naive Bayes,K-Means,D-tree,GBDT等
深度學(xué)習(xí)模型:CNN,RNN,LSTM,seq2seq,fastText,TextCNN等
評(píng)價(jià)指標(biāo)
Roc曲線,混淆矩陣,AUC曲線
模型部署
離線訓(xùn)練,線上部署。
在線訓(xùn)練,并持久化