mmseg4j中文分詞包使用

目錄

1.mmseg4j中文分詞包(下載、安裝與運(yùn)行)
2.分詞方法與效果分析
3.分詞包算法學(xué)習(xí)
4.分詞結(jié)果
5.詞云分析

一、mmseg4j中文分詞包

1.下載:我這里采用的是mmseg4j+solr,通過(guò)solr(可視化界面)整合mmseg4j中文分詞包來(lái)進(jìn)行分詞。
(1)mmseg4j:選擇最新版本mmseg4j-2.3.0
mmseg4j-solr-2.3.0-with-mmseg4j-core是Solr的中文分詞包,支持Solr5.x版本,向上兼容Solr6,但是不支持Solr6的所有版本。該壓縮包含有mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar
(2)solr:選擇最新版本solr-6.5.1

Solr是一個(gè)高性能,采用Java5開(kāi)發(fā),基于Lucene的全文搜索服務(wù)器。用戶(hù)可以通過(guò)http請(qǐng)求,向搜索引擎服務(wù)器提交一定格式的XML文件,生成索引;也可以通過(guò)Http Get操作提出查找請(qǐng)求,并得到XML格式的返回結(jié)果。提供了比Lucene更為豐富的查詢(xún)語(yǔ)言, 同時(shí)實(shí)現(xiàn)了可配置、可擴(kuò)展并對(duì)查詢(xún)性能進(jìn)行了優(yōu)化,并且提供了一個(gè)完善的功能管理界面, 是一款非常優(yōu)秀的全文搜索引擎。

(3)JDK:選擇最新版本jdk-1.8.0-131
solr服務(wù)器搭建需要在JAVA環(huán)境當(dāng)中。


tips:注意solr版本、JDK和mmseg4j版本要搭配,不然會(huì)出問(wèn)題。

我之前采用的是mmseg4j-1.9.1和solr-6.5.1,結(jié)果出現(xiàn)下列錯(cuò)誤:

1.png

2.安裝配置、運(yùn)行
(1)檢查Java環(huán)境(cmd)

Paste_Image.png

如上圖所示,說(shuō)明JAVA環(huán)境已搭好。
(2)分別安裝配置solr-6.5.1和mmseg4j-2.3.0
(3)裝好之后,在cmd當(dāng)中啟動(dòng)solr:
$ CD SOLR
$CD SOLR-6.5.1
$ CD BIN
$SOLR START

Paste_Image.png

(4)瀏覽器輸入:http://localhost:8983/solr/ 看到solr界面

Paste_Image.png

(5)solr整合mmseg4j
友情鏈接:http://blog.csdn.net/youyou_yo/article/details/52065562?locationNum=1&fps=1
solr集成mmseg4j之后,就可以看見(jiàn)mmseg4j新增的field:

Paste_Image.png

二、分詞方法與效果分析

1.mmseg4j兩種分詞方法: Complex、Simple
三種分詞模式:Complex、Simple、MaxWord,默認(rèn)是MaxWord。
mmseg4j用Chih-HaoTsai的MMSeg算法實(shí)現(xiàn)的中文分詞器,MMSeg算法有兩種分詞方法:Simple和Complex,都是基于正向最大匹配。
2.效果分析
下面用三種模式進(jìn)行分詞:

蒂姆伯納斯李,英國(guó)計(jì)算機(jī)科學(xué)家。他是萬(wàn)維網(wǎng)的發(fā)明者,麻省理工學(xué)院教授。1990年12月25日,羅伯特卡里奧在CERN和他一起成功通過(guò)Internet實(shí)現(xiàn)了HTTP代理與服務(wù)器的第一次通訊。1999年《時(shí)代》將他列入20世紀(jì)最有影響的100名英國(guó)人之一。 2004年,英女皇伊麗莎白二世向蒂姆伯納斯李頒發(fā)大英帝國(guó)爵級(jí)司令勛章。2009年4月,他獲選為美國(guó)國(guó)家科學(xué)院外籍院士。在2012年夏季奧林匹克運(yùn)動(dòng)會(huì)開(kāi)幕典禮上,他獲得了“萬(wàn)維網(wǎng)發(fā)明者”的美譽(yù)。2017年4月4日,蒂姆伯納斯李獲得2016年ACM“圖靈獎(jiǎng)”。

(1)Complex

蒂  姆    伯   納   斯   李 英國(guó)    計(jì)算機(jī) 科學(xué)家         他是  萬(wàn)維網(wǎng) 的   發(fā)明者 麻省理工學(xué)院  教授  1990 年  12  月   25 日    羅伯特 卡   里   奧   在   cern    和他  一起  成功  通過(guò)  internet    現(xiàn)   了   http    代理  與   服務(wù)器 的   第一次 通訊  1999    年   時(shí)代  他   列入  20  世紀(jì)  最有  影響  的   100 名   英國(guó)人 之一  2004    年   英   女皇  伊麗莎白    二世  向   蒂 姆 伯   納   斯   李   頒發(fā)  大   英   帝國(guó)  爵   級(jí) 司令    勛章  2009    年   4   月   他   獲選  為   美國(guó)  國(guó)家  科學(xué)院 外籍  院士  在   2012    年   夏季  奧林匹克運(yùn)動(dòng)會(huì) 開(kāi)幕典禮    上   他   獲得  了   萬(wàn)維網(wǎng) 發(fā)明者 的   美譽(yù)  2017    年   4   月   4   日   蒂   姆   伯   納   斯   李   獲得  2016    年   acm 圖   靈   獎(jiǎng)

(2)MaxWord

蒂   姆   伯   納   斯   李   英國(guó)   計(jì)算 機(jī)   科學(xué)  學(xué)家  他是   萬(wàn)  維   網(wǎng)   的   發(fā)明   者  麻省  理工  工學(xué)  學(xué)院  教授  1990    年   12  月   25  日   羅   伯   特   卡   里   奧   在   cern     和他 一起  成功  通過(guò)  internet    實(shí)現(xiàn)  了   http    代理  與   服務(wù)  器   的   第一  一次  通訊  1999    年   時(shí)代  將他  列入  20  世紀(jì)  最有  影響  的   100 名   英國(guó)   國(guó)人  之一  2004   年   英   女皇  伊   麗   莎   白   二世  向 蒂 姆   伯   納   斯   李   頒發(fā)  大   英   帝國(guó)  爵   級(jí)   司令  勛章  2009    年   4   月   他   獲選  為   美國(guó)  國(guó)家  科學(xué)  學(xué)院  外籍  院士  在   2012    年   夏季  奧   林   匹   克   運(yùn)動(dòng)  會(huì)   開(kāi)幕  典禮  上   他   獲得  了   萬(wàn)   維   網(wǎng)   發(fā)明  者   的   美譽(yù)  2017    年   4   月   4   日   蒂   姆   伯   納   斯   李   獲得   2016   年   acm 圖   靈   獎(jiǎng)

(3)Simple

蒂   姆   伯   納   斯   李   英國(guó)  計(jì)算機(jī)科學(xué)   家   他是  萬(wàn)維網(wǎng) 的   發(fā)明者 麻省理工學(xué)院  教授  1990    年   12  月   25  日   羅伯特 卡   里   奧   在   cern    和他  一起  成功  通過(guò)  internet    實(shí)現(xiàn)  了   http    代理  與   服務(wù)器 的   第一次 通訊  1999    年   時(shí)代  將他  列入  20  世紀(jì)  最有  影響  的   100 名   英國(guó)人 之一  2004    年   英   女皇  伊麗莎白    二世  向 蒂 姆   伯   納   斯   李   頒發(fā)  大   英   帝國(guó)  爵   級(jí)   司令  勛章  2009    年   4   月   他   獲選  為   美國(guó)  國(guó)家  科學(xué)院 外籍  院士  在   2012    年   夏季  奧林匹克運(yùn)動(dòng)會(huì) 開(kāi)幕典禮    上   他   獲得  了   萬(wàn)維網(wǎng) 發(fā)明者 的   美譽(yù)  2017    年   4   月   4   日   蒂   姆   伯   納   斯   李   獲得  2016    年   acm 圖   靈   獎(jiǎng)

Complex方法錯(cuò)誤共有8處錯(cuò)誤

正確分詞                    錯(cuò)誤分詞  
蒂姆伯納斯李                蒂|(zhì)姆|伯|納|斯|李
羅伯特卡里奧                羅伯特|卡|里|奧   
最有影響                    最有|影響
伊麗莎白二世                伊麗莎白|二世
大英帝國(guó)                    大|英|帝國(guó)
圖靈獎(jiǎng)                      圖|靈|獎(jiǎng)

MaxWord 方法錯(cuò)誤共有16處錯(cuò)誤

 正確分詞                    錯(cuò)誤分詞
 蒂姆伯納斯李                蒂|(zhì)姆|伯|納|斯|李
計(jì)算機(jī)|科學(xué)家                計(jì)算|機(jī)|科學(xué)|學(xué)家   
萬(wàn)維網(wǎng)                      萬(wàn)|維|網(wǎng)
發(fā)明者                      發(fā)明|者 
麻省理工學(xué)院                 麻省|理工|工學(xué)|學(xué)院    
羅伯特卡里奧                 羅伯特|卡|里|奧  
服務(wù)器                      服務(wù)|器  
第一次                      第一|一次   
最有影響                    最有|影響
英國(guó)人                      英國(guó)|國(guó)人   
伊麗莎白二世                 伊|麗|莎|白|二世  
大英帝國(guó)                    大|英|帝國(guó)  
 科學(xué)院                     科學(xué)|學(xué)院  
奧林匹克運(yùn)動(dòng)會(huì)               奧|林|匹|克|運(yùn)動(dòng)|會(huì)  
開(kāi)幕典禮                    開(kāi)幕|典禮  
圖靈獎(jiǎng)                      圖|靈|獎(jiǎng)

Simple 方法錯(cuò)誤共有 8處錯(cuò)誤

正確分詞                    錯(cuò)誤分詞
 蒂姆伯納斯李                蒂|(zhì)姆|伯|納|斯|李
計(jì)算機(jī)|科學(xué)家                計(jì)算機(jī)科學(xué)|家    
羅伯特卡里奧                 羅伯特|卡|里|奧 
最有影響                    最有|影響
伊麗莎白二世                 伊麗莎白|二世  
伯納斯李                        伯|納|斯|李
大英帝國(guó)                    大|英|帝國(guó)  
圖靈獎(jiǎng)                      圖|靈|獎(jiǎng)  

可以看出,Complex方法正確率最高,Simple方法正確率次之,MaxWord方法相對(duì)差一些。但是三種方法都無(wú)法對(duì)專(zhuān)有名詞(人名、地名等)進(jìn)行正確劃分。
提高分詞正確率:改進(jìn)算法;增加自定義詞典


三、分詞算法學(xué)習(xí)

1.Complex算法
匹配出所有的“三個(gè)詞的詞組”(即原文中的chunk,“詞組”),即從某一既定的字為起始位置,得到所有可能的“以三個(gè)詞為一組”的所有組合。比如“研究生命起源”,可以得到 :

研_究_生 
研_究_生命 
研究生_命_起源 
研究_生命_起源   

2.Simple算法
即簡(jiǎn)單的正向匹配,根據(jù)開(kāi)頭的字,列出所有可能的結(jié)果。比如“國(guó)際化大都市”,可以得到:

國(guó) 
國(guó)際 
國(guó)際化 
…   

3.消除歧義的規(guī)則
消除歧義的規(guī)則”有四個(gè),使用中依次用這四個(gè)規(guī)則進(jìn)行過(guò)濾,直到只有一種結(jié)果或者第四個(gè)規(guī)則使用完畢,4條消歧規(guī)則包括:

  1. 備選詞組合的長(zhǎng)度之和最大(最大匹配);
  2. 備選詞組合的平均詞長(zhǎng)最大(最大平均詞語(yǔ)長(zhǎng)度);
  3. 備選詞組合的詞長(zhǎng)變化最?。ㄔ~語(yǔ)長(zhǎng)度的最小變化率);
  4. 備選詞組合中,單字詞的出現(xiàn)頻率統(tǒng)計(jì)值最高(詞頻最高的單字單詞)。

四、分詞結(jié)果

下面以自定義詞典提高分詞精度
1.將mmseg4j-2.3.0中的mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar放入webapp/solr/WEB-INF/lib下(之前已放進(jìn)去)。

2.修改managed-schema配置,添加下列內(nèi)容:

<requestHandler name="/mmseg4j/reloadwords" class="com.chenlb.mmseg4j.solr.MMseg4jHandler">
<lst name="defaults">
    <str name="dicPath">自定義詞庫(kù)路徑</str>
    <str name="check">true</str>
    <str name="reload">true</str>
</lst>
</requestHandler>  

3.在自己建的core(我的是glf)下conf中新建words-自定義.dic文件

Paste_Image.png

然后對(duì)其進(jìn)行編輯:注意一行一個(gè)詞

Paste_Image.png

友情鏈接:http://m.blog.csdn.net/article/details?id=60961353

4.在cmd中重新啟動(dòng)solr,可以看見(jiàn)我自定義的詞典
$SOLR RESTART -P 8983

4.png

5.分詞結(jié)果提交

蒂姆伯納斯李  英國(guó)  計(jì)算機(jī) 科學(xué)家 他是  萬(wàn)維網(wǎng) 的   發(fā)明者 麻省理工學(xué)院  教授  1990    年   12  月   25  日   羅伯特卡里奧  在   cern    和他  一起  成功  通過(guò)  internet    實(shí)現(xiàn)  了   http    代理  與   服務(wù)器 的   第一次 通訊  1999    年   時(shí)代  將他  列入  20  世紀(jì)  最有影響    的   100 名   英國(guó)人 之一  2004    年   英   女皇  伊麗莎白二世  向   蒂姆伯納斯李  頒發(fā)  大英帝國(guó)    爵   級(jí)   司令  勛章  2009    年   4   月   他   獲選  為   美國(guó)  國(guó)家  科學(xué)院 外籍  院士  在   2012    年   夏季  林匹克運(yùn)動(dòng)會(huì)  開(kāi)幕典禮    上   他   獲得  了   萬(wàn)維網(wǎng) 發(fā)明者 的   美譽(yù)  2017    年   4   月   4   日   蒂姆伯納斯李  獲得  2016    年   acm 圖靈獎(jiǎng)  

四、詞云分析(圖悅在線(xiàn)詞頻分析工具

Paste_Image.png

導(dǎo)出excel:

Paste_Image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容