分詞系列

中文分詞技術(shù)原理及應(yīng)用:https://sanwen8.cn/p/2919tFk.html ??

方法:

基于AC自動(dòng)機(jī)的快速分詞:http://kexue.fm/archives/3908/

字標(biāo)注法和HMM模型:http://kexue.fm/archives/3922/

基于雙向LSTM的seq2seq字標(biāo)注【中文分詞】:http://kexue.fm/archives/3924/

輕便的深度學(xué)習(xí)分詞系統(tǒng):http://kexue.fm/archives/4114/ ? <并不實(shí)用>

基于語(yǔ)言模型的無(wú)監(jiān)督分詞:http://kexue.fm/archives/3956/

基于全卷積網(wǎng)絡(luò)的中文分詞:http://kexue.fm/archives/4195/

深度學(xué)習(xí)分詞:http://kexue.fm/archives/4245/

現(xiàn)有的分詞算法可分為三大類(lèi):基于字符串匹配的分詞方法、基于理解的分詞方法(試驗(yàn)階段)基于統(tǒng)計(jì)的分詞方法

基于字符串匹配的分詞方法

1)正向最大匹配法(由左到右的方向);

2)逆向最大匹配法(由右到左的方向);

3)最少切分(使每一句中切出的詞數(shù)最?。?;還可以將上述各種方法相互組合

這類(lèi)算法優(yōu)點(diǎn)是速度塊,都是O(n)時(shí)間復(fù)雜度,實(shí)現(xiàn)簡(jiǎn)單,效果尚可。也有缺點(diǎn),就是對(duì)歧義和未登錄詞處理不好。常見(jiàn)的基于字符串匹配的分詞工具有IKanalyzer,Paoding等。

基于統(tǒng)計(jì)的分詞方法:因此在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度。可以對(duì)語(yǔ)料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們的互現(xiàn)信息。定義兩個(gè)字的互現(xiàn)信息,計(jì)算兩個(gè)漢字X、Y的相鄰共現(xiàn)概率?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個(gè)閾值時(shí),便可認(rèn)為此字組可能構(gòu)成了一個(gè)詞。這種方法只需對(duì)語(yǔ)料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典,因而又叫做無(wú)詞典分詞法或統(tǒng)計(jì)取詞方法。

這類(lèi)分詞算法能很好處理歧義和未登錄詞問(wèn)題,效果比前一類(lèi)效果好,但是需要大量的人工標(biāo)注數(shù)據(jù),以及較慢的分詞速度?;诮y(tǒng)計(jì)學(xué)**的分詞工具有ICTCLAS、結(jié)巴分詞等。

基于統(tǒng)計(jì)的分詞方法有CRF(條件隨機(jī)場(chǎng))

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 轉(zhuǎn)載請(qǐng)注明:終小南 ? 中文分詞算法總結(jié) 什么是中文分詞眾所周知,英文是以 詞為單位的,詞和詞之間是靠空格隔開(kāi),而...
    kirai閱讀 10,079評(píng)論 3 24
  • 常用概念: 自然語(yǔ)言處理(NLP) 數(shù)據(jù)挖掘 推薦算法 用戶(hù)畫(huà)像 知識(shí)圖譜 信息檢索 文本分類(lèi) 常用技術(shù): 詞級(jí)別...
    御風(fēng)之星閱讀 9,976評(píng)論 1 25
  • 背景 英文以空格作為分隔符,而中文詞語(yǔ)之間沒(méi)有分隔; 在中文里,“詞”和“詞組”邊界模糊現(xiàn)代漢語(yǔ)的基本表達(dá)單元雖然...
    翼徳閱讀 2,819評(píng)論 0 5
  • 今天,人民幣1毛的購(gòu)買(mǎi)力,相當(dāng)于30年前人民幣多少錢(qián)呢? 小編作為上世紀(jì)八十年代出生的人,親身經(jīng)歷了人民幣的突飛猛...
    szlysjk閱讀 1,063評(píng)論 0 0
  • 因懦弱而得出的判斷會(huì)將事態(tài)推向不利的方向。倘若類(lèi)似死亡通告之類(lèi)的東西真的出現(xiàn),那么就應(yīng)該從正面接受。在認(rèn)清事實(shí)之后...
    偽善的小傻子閱讀 212評(píng)論 0 0

友情鏈接更多精彩內(nèi)容