**中文分詞(Chinese Word Segmentation) **指的是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。
目錄
常見的分詞系統(tǒng)介紹
- ICTCLAS(NLPIR)
- MMSEG4J
- IK Analyzer
- LTP-cloud
- paoding
常見的分詞系統(tǒng)簡介

ICTCLAS
簡介
ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),又稱NLPIR,是中國科學(xué)院計(jì)算技術(shù)研究所研制的漢語分詞系統(tǒng)。
網(wǎng)址:http://ictclas.nlpir.org/
主要功能包括:
- 中文分詞;
- 詞性標(biāo)注;
- 命名實(shí)體識(shí)別;
- 用戶詞典功能;
支持GBK編碼、UTF8編碼、BIG5編碼;
支持Windows,Linux,Android等操作系統(tǒng);
支持Java/C++/C#/C等開發(fā)。
在線演示

中文分詞

實(shí)體抽取

詞頻統(tǒng)計(jì)

MMSEG4J
**mmseg4j core ** 使用 Chih-Hao Tsai 的 MMSeg 算法實(shí)現(xiàn)的中文分詞器。
實(shí)現(xiàn)了 **Lucene **的 analyzer 和 **Solr **的 TokenizerFactory 以方便在Lucene和Solr中使用。
MMSeg 算法有兩種分詞方法:Simple和Complex,都是基于正向最大匹配。Complex 加了四個(gè)規(guī)則過濾。
官方說:詞語的正確識(shí)別率達(dá)到了 98.41%。mmseg4j 已經(jīng)實(shí)現(xiàn)了這兩種分詞算法。
Lucene簡介

*Lucene是一個(gè)非常優(yōu)秀的開源的全文搜索引擎; 我們可以在它的上面開發(fā)出各種全文搜索的應(yīng)用來。Lucene在國外有很高的知名度; 現(xiàn)在已經(jīng)是Apache的頂級(jí)項(xiàng)目 *
Sorl簡介

Solr is the popular, blazing-fast, open source enterprise search platform built on Apache Lucene?
Solr是一個(gè)高性能,采用Java5開發(fā),基于Lucene的全文搜索服務(wù)器。同時(shí)對(duì)其進(jìn)行了擴(kuò)展,提供了比Lucene更為豐富的查詢語言,同時(shí)實(shí)現(xiàn)了可配置、可擴(kuò)展并對(duì)查詢性能進(jìn)行了優(yōu)化,并且提供了一個(gè)完善的功能管理界面,是一款非常優(yōu)秀的全文搜索引擎。

參考鏈接:
mmseg4j-core from Github
中文分詞器 mmseg4j
IK Analyzer
IK Analyzer 是一個(gè)開源的,基于java語言開發(fā)的輕量級(jí)的中文分詞工具包。
從2006年12月推出1.0版開始, IKAnalyzer已經(jīng)推出了4個(gè)大版本。最初,它是以開源項(xiàng)目Luence為應(yīng)用主體的,結(jié)合詞典分詞和文法分析算法的中文分詞組件。從3.0版本開始,IK發(fā)展為面向Java的公用分詞組件,獨(dú)立于Lucene項(xiàng)目,同時(shí)提供了對(duì)Lucene的默認(rèn)優(yōu)化實(shí)現(xiàn),并且支持solr6.x版本。在2012版本中,IK實(shí)現(xiàn)了簡單的分詞歧義排除算法,標(biāo)志著IK分詞器從單純的詞典分詞向模擬語義分詞衍化。
IK Analyzer 2012特性:
采用了特有的“正向迭代最細(xì)粒度切分算法“,支持細(xì)粒度和智能分詞兩種切分模式;
在系統(tǒng)環(huán)境:Core2 i7 3.4G雙核,4G內(nèi)存,window 7 64位, Sun JDK 1.6_29 64位 普通pc環(huán)境測試,IK2012具有160萬字/秒(3000KB/S)的高速處理能力。
2012版本的智能分詞模式支持簡單的分詞排歧義處理和數(shù)量詞合并輸出。
采用了多子處理器分析模式,支持:英文字母、數(shù)字、中文詞匯等分詞處理,兼容韓文、日文字符
優(yōu)化的詞典存儲(chǔ),更小的內(nèi)存占用。支持用戶詞典擴(kuò)展定義。特別的,在2012版本,詞典支持中文,英文,數(shù)字混合詞語。
LTP cloud(語言云)

語言云是哈工大和科大訊飛聯(lián)合研發(fā)的云端中文自然語言處理服務(wù)平臺(tái),提供分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、依存句法分析、語義角色標(biāo)注等自然語言處理服務(wù)。
在線演示
樣例:他叫湯姆去拿外衣。
他點(diǎn)頭表示同意我的意見。
我們即將以昂揚(yáng)的斗志迎來新的一年。
國內(nèi)專家學(xué)者40余人參加研討會(huì)。
句子視圖

篇章視圖




相關(guān)鏈接:
LTP Docs
訊飛開放平臺(tái)
paoding(庖丁解牛分詞器)
庖丁中文分詞器是一個(gè)使用Java開發(fā)的,可結(jié)合到Lucene應(yīng)用中的,為互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)使用的中文搜索引擎分詞組件。Paoding填補(bǔ)了國內(nèi)中文分詞方面開源組件的空白,致力于此并希翼成為互聯(lián)網(wǎng)網(wǎng)站首選的中文分詞開源組件。 Paoding中文分詞追求分詞的高效率和用戶良好體驗(yàn)。
Paoding's Knives 中文分詞具有極 高效率 和 高擴(kuò)展性 。引入隱喻,采用完全的面向?qū)ο笤O(shè)計(jì),構(gòu)思先進(jìn)。
高效率:在PIII 1G內(nèi)存?zhèn)€人機(jī)器上,1秒 可準(zhǔn)確分詞 100萬 漢字。
采用基于 不限制個(gè)數(shù) 的詞典文件對(duì)文章進(jìn)行有效切分,使能夠?qū)?duì)詞匯分類定義。
能夠?qū)ξ粗脑~匯進(jìn)行合理解析
參考鏈接:
中文分詞庫 Paoding