中文分詞技術(shù)原理及應(yīng)用:https://sanwen8.cn/p/2919tFk.html ??
方法:
基于AC自動(dòng)機(jī)的快速分詞:http://kexue.fm/archives/3908/
字標(biāo)注法和HMM模型:http://kexue.fm/archives/3922/
基于雙向LSTM的seq2seq字標(biāo)注【中文分詞】:http://kexue.fm/archives/3924/
輕便的深度學(xué)習(xí)分詞系統(tǒng):http://kexue.fm/archives/4114/ ? <并不實(shí)用>
基于語(yǔ)言模型的無(wú)監(jiān)督分詞:http://kexue.fm/archives/3956/
基于全卷積網(wǎng)絡(luò)的中文分詞:http://kexue.fm/archives/4195/
深度學(xué)習(xí)分詞:http://kexue.fm/archives/4245/
現(xiàn)有的分詞算法可分為三大類(lèi):基于字符串匹配的分詞方法、基于理解的分詞方法(試驗(yàn)階段)和基于統(tǒng)計(jì)的分詞方法
基于字符串匹配的分詞方法
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的詞數(shù)最?。?;還可以將上述各種方法相互組合
這類(lèi)算法優(yōu)點(diǎn)是速度塊,都是O(n)時(shí)間復(fù)雜度,實(shí)現(xiàn)簡(jiǎn)單,效果尚可。也有缺點(diǎn),就是對(duì)歧義和未登錄詞處理不好。常見(jiàn)的基于字符串匹配的分詞工具有IKanalyzer,Paoding等。
基于統(tǒng)計(jì)的分詞方法:因此在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度。可以對(duì)語(yǔ)料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們的互現(xiàn)信息。定義兩個(gè)字的互現(xiàn)信息,計(jì)算兩個(gè)漢字X、Y的相鄰共現(xiàn)概率?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個(gè)閾值時(shí),便可認(rèn)為此字組可能構(gòu)成了一個(gè)詞。這種方法只需對(duì)語(yǔ)料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典,因而又叫做無(wú)詞典分詞法或統(tǒng)計(jì)取詞方法。
這類(lèi)分詞算法能很好處理歧義和未登錄詞問(wèn)題,效果比前一類(lèi)效果好,但是需要大量的人工標(biāo)注數(shù)據(jù),以及較慢的分詞速度?;诮y(tǒng)計(jì)學(xué)**的分詞工具有ICTCLAS、結(jié)巴分詞等。
基于統(tǒng)計(jì)的分詞方法有CRF(條件隨機(jī)場(chǎng))