目錄
1.mmseg4j中文分詞包(下載、安裝與運(yùn)行)
2.分詞方法與效果分析
3.分詞包算法學(xué)習(xí)
4.分詞結(jié)果
5.詞云分析
一、mmseg4j中文分詞包
1.下載:我這里采用的是mmseg4j+solr,通過(guò)solr(可視化界面)整合mmseg4j中文分詞包來(lái)進(jìn)行分詞。
(1)mmseg4j:選擇最新版本mmseg4j-2.3.0
mmseg4j-solr-2.3.0-with-mmseg4j-core是Solr的中文分詞包,支持Solr5.x版本,向上兼容Solr6,但是不支持Solr6的所有版本。該壓縮包含有mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar
(2)solr:選擇最新版本solr-6.5.1
Solr是一個(gè)高性能,采用Java5開(kāi)發(fā),基于Lucene的全文搜索服務(wù)器。用戶(hù)可以通過(guò)http請(qǐng)求,向搜索引擎服務(wù)器提交一定格式的XML文件,生成索引;也可以通過(guò)Http Get操作提出查找請(qǐng)求,并得到XML格式的返回結(jié)果。提供了比Lucene更為豐富的查詢(xún)語(yǔ)言, 同時(shí)實(shí)現(xiàn)了可配置、可擴(kuò)展并對(duì)查詢(xún)性能進(jìn)行了優(yōu)化,并且提供了一個(gè)完善的功能管理界面, 是一款非常優(yōu)秀的全文搜索引擎。
(3)JDK:選擇最新版本jdk-1.8.0-131
solr服務(wù)器搭建需要在JAVA環(huán)境當(dāng)中。
tips:注意solr版本、JDK和mmseg4j版本要搭配,不然會(huì)出問(wèn)題。
我之前采用的是mmseg4j-1.9.1和solr-6.5.1,結(jié)果出現(xiàn)下列錯(cuò)誤:

2.安裝配置、運(yùn)行
(1)檢查Java環(huán)境(cmd)

如上圖所示,說(shuō)明JAVA環(huán)境已搭好。
(2)分別安裝配置solr-6.5.1和mmseg4j-2.3.0
(3)裝好之后,在cmd當(dāng)中啟動(dòng)solr:
$ CD SOLR
$CD SOLR-6.5.1
$ CD BIN
$SOLR START

(4)瀏覽器輸入:http://localhost:8983/solr/ 看到solr界面

(5)solr整合mmseg4j
友情鏈接:http://blog.csdn.net/youyou_yo/article/details/52065562?locationNum=1&fps=1
solr集成mmseg4j之后,就可以看見(jiàn)mmseg4j新增的field:

二、分詞方法與效果分析
1.mmseg4j兩種分詞方法: Complex、Simple
三種分詞模式:Complex、Simple、MaxWord,默認(rèn)是MaxWord。
mmseg4j用Chih-HaoTsai的MMSeg算法實(shí)現(xiàn)的中文分詞器,MMSeg算法有兩種分詞方法:Simple和Complex,都是基于正向最大匹配。
2.效果分析
下面用三種模式進(jìn)行分詞:
蒂姆伯納斯李,英國(guó)計(jì)算機(jī)科學(xué)家。他是萬(wàn)維網(wǎng)的發(fā)明者,麻省理工學(xué)院教授。1990年12月25日,羅伯特卡里奧在CERN和他一起成功通過(guò)Internet實(shí)現(xiàn)了HTTP代理與服務(wù)器的第一次通訊。1999年《時(shí)代》將他列入20世紀(jì)最有影響的100名英國(guó)人之一。 2004年,英女皇伊麗莎白二世向蒂姆伯納斯李頒發(fā)大英帝國(guó)爵級(jí)司令勛章。2009年4月,他獲選為美國(guó)國(guó)家科學(xué)院外籍院士。在2012年夏季奧林匹克運(yùn)動(dòng)會(huì)開(kāi)幕典禮上,他獲得了“萬(wàn)維網(wǎng)發(fā)明者”的美譽(yù)。2017年4月4日,蒂姆伯納斯李獲得2016年ACM“圖靈獎(jiǎng)”。
(1)Complex
蒂 姆 伯 納 斯 李 英國(guó) 計(jì)算機(jī) 科學(xué)家 他是 萬(wàn)維網(wǎng) 的 發(fā)明者 麻省理工學(xué)院 教授 1990 年 12 月 25 日 羅伯特 卡 里 奧 在 cern 和他 一起 成功 通過(guò) internet 現(xiàn) 了 http 代理 與 服務(wù)器 的 第一次 通訊 1999 年 時(shí)代 他 列入 20 世紀(jì) 最有 影響 的 100 名 英國(guó)人 之一 2004 年 英 女皇 伊麗莎白 二世 向 蒂 姆 伯 納 斯 李 頒發(fā) 大 英 帝國(guó) 爵 級(jí) 司令 勛章 2009 年 4 月 他 獲選 為 美國(guó) 國(guó)家 科學(xué)院 外籍 院士 在 2012 年 夏季 奧林匹克運(yùn)動(dòng)會(huì) 開(kāi)幕典禮 上 他 獲得 了 萬(wàn)維網(wǎng) 發(fā)明者 的 美譽(yù) 2017 年 4 月 4 日 蒂 姆 伯 納 斯 李 獲得 2016 年 acm 圖 靈 獎(jiǎng)
(2)MaxWord
蒂 姆 伯 納 斯 李 英國(guó) 計(jì)算 機(jī) 科學(xué) 學(xué)家 他是 萬(wàn) 維 網(wǎng) 的 發(fā)明 者 麻省 理工 工學(xué) 學(xué)院 教授 1990 年 12 月 25 日 羅 伯 特 卡 里 奧 在 cern 和他 一起 成功 通過(guò) internet 實(shí)現(xiàn) 了 http 代理 與 服務(wù) 器 的 第一 一次 通訊 1999 年 時(shí)代 將他 列入 20 世紀(jì) 最有 影響 的 100 名 英國(guó) 國(guó)人 之一 2004 年 英 女皇 伊 麗 莎 白 二世 向 蒂 姆 伯 納 斯 李 頒發(fā) 大 英 帝國(guó) 爵 級(jí) 司令 勛章 2009 年 4 月 他 獲選 為 美國(guó) 國(guó)家 科學(xué) 學(xué)院 外籍 院士 在 2012 年 夏季 奧 林 匹 克 運(yùn)動(dòng) 會(huì) 開(kāi)幕 典禮 上 他 獲得 了 萬(wàn) 維 網(wǎng) 發(fā)明 者 的 美譽(yù) 2017 年 4 月 4 日 蒂 姆 伯 納 斯 李 獲得 2016 年 acm 圖 靈 獎(jiǎng)
(3)Simple
蒂 姆 伯 納 斯 李 英國(guó) 計(jì)算機(jī)科學(xué) 家 他是 萬(wàn)維網(wǎng) 的 發(fā)明者 麻省理工學(xué)院 教授 1990 年 12 月 25 日 羅伯特 卡 里 奧 在 cern 和他 一起 成功 通過(guò) internet 實(shí)現(xiàn) 了 http 代理 與 服務(wù)器 的 第一次 通訊 1999 年 時(shí)代 將他 列入 20 世紀(jì) 最有 影響 的 100 名 英國(guó)人 之一 2004 年 英 女皇 伊麗莎白 二世 向 蒂 姆 伯 納 斯 李 頒發(fā) 大 英 帝國(guó) 爵 級(jí) 司令 勛章 2009 年 4 月 他 獲選 為 美國(guó) 國(guó)家 科學(xué)院 外籍 院士 在 2012 年 夏季 奧林匹克運(yùn)動(dòng)會(huì) 開(kāi)幕典禮 上 他 獲得 了 萬(wàn)維網(wǎng) 發(fā)明者 的 美譽(yù) 2017 年 4 月 4 日 蒂 姆 伯 納 斯 李 獲得 2016 年 acm 圖 靈 獎(jiǎng)
Complex方法錯(cuò)誤共有8處錯(cuò)誤
正確分詞 錯(cuò)誤分詞
蒂姆伯納斯李 蒂|(zhì)姆|伯|納|斯|李
羅伯特卡里奧 羅伯特|卡|里|奧
最有影響 最有|影響
伊麗莎白二世 伊麗莎白|二世
大英帝國(guó) 大|英|帝國(guó)
圖靈獎(jiǎng) 圖|靈|獎(jiǎng)
MaxWord 方法錯(cuò)誤共有16處錯(cuò)誤
正確分詞 錯(cuò)誤分詞
蒂姆伯納斯李 蒂|(zhì)姆|伯|納|斯|李
計(jì)算機(jī)|科學(xué)家 計(jì)算|機(jī)|科學(xué)|學(xué)家
萬(wàn)維網(wǎng) 萬(wàn)|維|網(wǎng)
發(fā)明者 發(fā)明|者
麻省理工學(xué)院 麻省|理工|工學(xué)|學(xué)院
羅伯特卡里奧 羅伯特|卡|里|奧
服務(wù)器 服務(wù)|器
第一次 第一|一次
最有影響 最有|影響
英國(guó)人 英國(guó)|國(guó)人
伊麗莎白二世 伊|麗|莎|白|二世
大英帝國(guó) 大|英|帝國(guó)
科學(xué)院 科學(xué)|學(xué)院
奧林匹克運(yùn)動(dòng)會(huì) 奧|林|匹|克|運(yùn)動(dòng)|會(huì)
開(kāi)幕典禮 開(kāi)幕|典禮
圖靈獎(jiǎng) 圖|靈|獎(jiǎng)
Simple 方法錯(cuò)誤共有 8處錯(cuò)誤
正確分詞 錯(cuò)誤分詞
蒂姆伯納斯李 蒂|(zhì)姆|伯|納|斯|李
計(jì)算機(jī)|科學(xué)家 計(jì)算機(jī)科學(xué)|家
羅伯特卡里奧 羅伯特|卡|里|奧
最有影響 最有|影響
伊麗莎白二世 伊麗莎白|二世
伯納斯李 伯|納|斯|李
大英帝國(guó) 大|英|帝國(guó)
圖靈獎(jiǎng) 圖|靈|獎(jiǎng)
可以看出,Complex方法正確率最高,Simple方法正確率次之,MaxWord方法相對(duì)差一些。但是三種方法都無(wú)法對(duì)專(zhuān)有名詞(人名、地名等)進(jìn)行正確劃分。
提高分詞正確率:改進(jìn)算法;增加自定義詞典
三、分詞算法學(xué)習(xí)
1.Complex算法
匹配出所有的“三個(gè)詞的詞組”(即原文中的chunk,“詞組”),即從某一既定的字為起始位置,得到所有可能的“以三個(gè)詞為一組”的所有組合。比如“研究生命起源”,可以得到 :
研_究_生
研_究_生命
研究生_命_起源
研究_生命_起源
2.Simple算法
即簡(jiǎn)單的正向匹配,根據(jù)開(kāi)頭的字,列出所有可能的結(jié)果。比如“國(guó)際化大都市”,可以得到:
國(guó)
國(guó)際
國(guó)際化
…
3.消除歧義的規(guī)則
消除歧義的規(guī)則”有四個(gè),使用中依次用這四個(gè)規(guī)則進(jìn)行過(guò)濾,直到只有一種結(jié)果或者第四個(gè)規(guī)則使用完畢,4條消歧規(guī)則包括:
- 備選詞組合的長(zhǎng)度之和最大(最大匹配);
- 備選詞組合的平均詞長(zhǎng)最大(最大平均詞語(yǔ)長(zhǎng)度);
- 備選詞組合的詞長(zhǎng)變化最?。ㄔ~語(yǔ)長(zhǎng)度的最小變化率);
- 備選詞組合中,單字詞的出現(xiàn)頻率統(tǒng)計(jì)值最高(詞頻最高的單字單詞)。
四、分詞結(jié)果
下面以自定義詞典提高分詞精度
1.將mmseg4j-2.3.0中的mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar放入webapp/solr/WEB-INF/lib下(之前已放進(jìn)去)。
2.修改managed-schema配置,添加下列內(nèi)容:
<requestHandler name="/mmseg4j/reloadwords" class="com.chenlb.mmseg4j.solr.MMseg4jHandler">
<lst name="defaults">
<str name="dicPath">自定義詞庫(kù)路徑</str>
<str name="check">true</str>
<str name="reload">true</str>
</lst>
</requestHandler>
3.在自己建的core(我的是glf)下conf中新建words-自定義.dic文件

然后對(duì)其進(jìn)行編輯:注意一行一個(gè)詞

友情鏈接:http://m.blog.csdn.net/article/details?id=60961353
4.在cmd中重新啟動(dòng)solr,可以看見(jiàn)我自定義的詞典
$SOLR RESTART -P 8983

5.分詞結(jié)果提交
蒂姆伯納斯李 英國(guó) 計(jì)算機(jī) 科學(xué)家 他是 萬(wàn)維網(wǎng) 的 發(fā)明者 麻省理工學(xué)院 教授 1990 年 12 月 25 日 羅伯特卡里奧 在 cern 和他 一起 成功 通過(guò) internet 實(shí)現(xiàn) 了 http 代理 與 服務(wù)器 的 第一次 通訊 1999 年 時(shí)代 將他 列入 20 世紀(jì) 最有影響 的 100 名 英國(guó)人 之一 2004 年 英 女皇 伊麗莎白二世 向 蒂姆伯納斯李 頒發(fā) 大英帝國(guó) 爵 級(jí) 司令 勛章 2009 年 4 月 他 獲選 為 美國(guó) 國(guó)家 科學(xué)院 外籍 院士 在 2012 年 夏季 林匹克運(yùn)動(dòng)會(huì) 開(kāi)幕典禮 上 他 獲得 了 萬(wàn)維網(wǎng) 發(fā)明者 的 美譽(yù) 2017 年 4 月 4 日 蒂姆伯納斯李 獲得 2016 年 acm 圖靈獎(jiǎng)
四、詞云分析(圖悅在線(xiàn)詞頻分析工具)

導(dǎo)出excel:
