熱門中文分詞系統(tǒng)調(diào)查報(bào)告

**中文分詞(Chinese Word Segmentation) **指的是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。
目錄

常見的分詞系統(tǒng)介紹

  • ICTCLAS(NLPIR)
  • MMSEG4J
  • IK Analyzer
  • LTP-cloud
  • paoding

常見的分詞系統(tǒng)簡介

ICTCLAS


簡介

ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),又稱NLPIR,是中國科學(xué)院計(jì)算技術(shù)研究所研制的漢語分詞系統(tǒng)。

網(wǎng)址:http://ictclas.nlpir.org/

主要功能包括:

  • 中文分詞;
  • 詞性標(biāo)注;
  • 命名實(shí)體識(shí)別;
  • 用戶詞典功能;

支持GBK編碼、UTF8編碼、BIG5編碼;
支持Windows,Linux,Android等操作系統(tǒng);
支持Java/C++/C#/C等開發(fā)。

在線演示


中文分詞



實(shí)體抽取



詞頻統(tǒng)計(jì)

MMSEG4J


**mmseg4j core ** 使用 Chih-Hao Tsai 的 MMSeg 算法實(shí)現(xiàn)的中文分詞器。

實(shí)現(xiàn)了 **Lucene **的 analyzer 和 **Solr **的 TokenizerFactory 以方便在Lucene和Solr中使用。

MMSeg 算法有兩種分詞方法:Simple和Complex,都是基于正向最大匹配。Complex 加了四個(gè)規(guī)則過濾。

官方說:詞語的正確識(shí)別率達(dá)到了 98.41%。mmseg4j 已經(jīng)實(shí)現(xiàn)了這兩種分詞算法。

Lucene簡介

*Lucene是一個(gè)非常優(yōu)秀的開源的全文搜索引擎; 我們可以在它的上面開發(fā)出各種全文搜索的應(yīng)用來。Lucene在國外有很高的知名度; 現(xiàn)在已經(jīng)是Apache的頂級(jí)項(xiàng)目 *

Apache Lucene官網(wǎng)

Sorl簡介

Solr is the popular, blazing-fast, open source enterprise search platform built on Apache Lucene?

Solr是一個(gè)高性能,采用Java5開發(fā),基于Lucene的全文搜索服務(wù)器。同時(shí)對(duì)其進(jìn)行了擴(kuò)展,提供了比Lucene更為豐富的查詢語言,同時(shí)實(shí)現(xiàn)了可配置、可擴(kuò)展并對(duì)查詢性能進(jìn)行了優(yōu)化,并且提供了一個(gè)完善的功能管理界面,是一款非常優(yōu)秀的全文搜索引擎。

Solr

參考鏈接:
mmseg4j-core from Github
中文分詞器 mmseg4j

IK Analyzer


IK Analyzer 是一個(gè)開源的,基于java語言開發(fā)的輕量級(jí)的中文分詞工具包。

從2006年12月推出1.0版開始, IKAnalyzer已經(jīng)推出了4個(gè)大版本。最初,它是以開源項(xiàng)目Luence為應(yīng)用主體的,結(jié)合詞典分詞和文法分析算法的中文分詞組件。從3.0版本開始,IK發(fā)展為面向Java的公用分詞組件,獨(dú)立于Lucene項(xiàng)目,同時(shí)提供了對(duì)Lucene的默認(rèn)優(yōu)化實(shí)現(xiàn),并且支持solr6.x版本。在2012版本中,IK實(shí)現(xiàn)了簡單的分詞歧義排除算法,標(biāo)志著IK分詞器從單純的詞典分詞向模擬語義分詞衍化。

IK Analyzer 2012特性:

  1. 采用了特有的“正向迭代最細(xì)粒度切分算法“,支持細(xì)粒度和智能分詞兩種切分模式;

  2. 在系統(tǒng)環(huán)境:Core2 i7 3.4G雙核,4G內(nèi)存,window 7 64位, Sun JDK 1.6_29 64位 普通pc環(huán)境測試,IK2012具有160萬字/秒(3000KB/S)的高速處理能力。

  3. 2012版本的智能分詞模式支持簡單的分詞排歧義處理和數(shù)量詞合并輸出。

  4. 采用了多子處理器分析模式,支持:英文字母、數(shù)字、中文詞匯等分詞處理,兼容韓文、日文字符

  5. 優(yōu)化的詞典存儲(chǔ),更小的內(nèi)存占用。支持用戶詞典擴(kuò)展定義。特別的,在2012版本,詞典支持中文,英文,數(shù)字混合詞語。

LTP cloud(語言云)


語言云是哈工大和科大訊飛聯(lián)合研發(fā)的云端中文自然語言處理服務(wù)平臺(tái),提供分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、依存句法分析、語義角色標(biāo)注等自然語言處理服務(wù)。

在線演示

樣例:他叫湯姆去拿外衣。
他點(diǎn)頭表示同意我的意見。
我們即將以昂揚(yáng)的斗志迎來新的一年。
國內(nèi)專家學(xué)者40余人參加研討會(huì)。

句子視圖
句子視圖
篇章視圖
分詞
詞性標(biāo)注

命名實(shí)體

相關(guān)鏈接:
LTP Docs
訊飛開放平臺(tái)

paoding(庖丁解牛分詞器)


庖丁中文分詞器是一個(gè)使用Java開發(fā)的,可結(jié)合到Lucene應(yīng)用中的,為互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)使用的中文搜索引擎分詞組件。Paoding填補(bǔ)了國內(nèi)中文分詞方面開源組件的空白,致力于此并希翼成為互聯(lián)網(wǎng)網(wǎng)站首選的中文分詞開源組件。 Paoding中文分詞追求分詞的高效率和用戶良好體驗(yàn)。

Paoding's Knives 中文分詞具有極 高效率 和 高擴(kuò)展性 。引入隱喻,采用完全的面向?qū)ο笤O(shè)計(jì),構(gòu)思先進(jìn)。

高效率:在PIII 1G內(nèi)存?zhèn)€人機(jī)器上,1秒 可準(zhǔn)確分詞 100萬 漢字。

采用基于 不限制個(gè)數(shù) 的詞典文件對(duì)文章進(jìn)行有效切分,使能夠?qū)?duì)詞匯分類定義。

能夠?qū)ξ粗脑~匯進(jìn)行合理解析
參考鏈接:
中文分詞庫 Paoding

參考鏈接:
搜索引擎11 款開放中文分詞引擎大比拼
中文分詞工具測評(píng)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 常用概念: 自然語言處理(NLP) 數(shù)據(jù)挖掘 推薦算法 用戶畫像 知識(shí)圖譜 信息檢索 文本分類 常用技術(shù): 詞級(jí)別...
    御風(fēng)之星閱讀 9,962評(píng)論 1 25
  • 1)ICTCLAS 最早的中文開源分詞項(xiàng)目之一,由中科院計(jì)算所的張華平、劉群所開發(fā),采用C/C++編寫,算法基于《...
    MobotStone閱讀 6,074評(píng)論 1 15
  • 一、相關(guān)度排序 1.什么是相關(guān)度排序 相關(guān)度排序是查詢結(jié)果按照與查詢關(guān)鍵字的相關(guān)性進(jìn)行排序,越相關(guān)的越靠前。比如搜...
    我可能是個(gè)假開發(fā)閱讀 2,292評(píng)論 1 15
  • 1 準(zhǔn)備工作及相關(guān)介紹 solr和lucene的版本是同步更新的,最新版本是6.5.0。本案例使用4.10.3 j...
    阿太哥閱讀 2,408評(píng)論 1 5
  • 《我的姥爺》 對(duì)姥爺最早的記憶是那一年夏天,姥爺騎著他那輛哐當(dāng)響的自行車到縣城里給我和幾個(gè)表哥一人買了一件夏季衣服...
    玉孜航閱讀 286評(píng)論 1 1

友情鏈接更多精彩內(nèi)容