分詞練習(xí)

一、實(shí)驗(yàn)?zāi)繕?biāo)

嘗試使用jieba對《龍族》進(jìn)行分詞,并進(jìn)行分詞效果比較分析

二、使用工具

在線分詞工具、jieba

三、分詞步驟

1.代碼演示:

# encoding:utf-8

from __future__import print_function, unicode_literals

import sys

sys.path.append("../")

import jieba

jieba.load_userdict("venv/userdict.txt")

import jieba.analyse

import jieba.possegas pseg

jieba.add_word('楚子航')

jieba.add_word('尼伯龍根')

jieba.del_word('廢柴')

test_sent =open('venv/dragon.txt','r', encoding='utf8' ).read()

words = jieba.cut(test_sent)

print('/'.join(words))

print("="*40)

words = jieba.cut(test_sent, cut_all=True)

print('/'.join(words))

print("="*40)

result = pseg.cut(test_sent)

for win result:

print(w.word, "/", w.flag, ", ", end=' ')

print("\n" +"="*40)

list = jieba.analyse.extract_tags(test_sent, topK=20, withWeight=False, allowPOS=())

for keysin list:

print(keys)

2.分詞效果:

初學(xué)階段使用網(wǎng)絡(luò)教程的示例代碼:

# encoding=utf-8

import jieba

seg_list = jieba.cut("我來到北京清華大學(xué)", cut_all=True)

print("Full Mode: " +"/ ".join(seg_list))# 全模式

seg_list = jieba.cut("我來到北京清華大學(xué)", cut_all=False)

print("Default Mode: " +"/ ".join(seg_list))# 精確模式

seg_list = jieba.cut("他來到了網(wǎng)易杭研大廈")# 默認(rèn)是精確模式

print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明碩士畢業(yè)于中國科學(xué)院計(jì)算所,后在日本京都大學(xué)深造")# 搜索引擎模式

print(", ".join(seg_list))

經(jīng)嘗試,得到類似結(jié)果,并將其運(yùn)用到自己的分詞中

四種不同模式的分詞效果

3.自定義詞典:(省略了詞頻和詞性)


自定義詞典詞語表

使用add_word(word, freq=None, tag=None)和del_word(word)可在程序中動(dòng)態(tài)修改詞典

修改前

jieba.add_word('楚子航')

jieba.add_word('尼伯龍根')

jieba.del_word('我們')

jieba.del_word('沒有')

jieba.del_word('什么')

jieba.del_word('自己')

jieba.del_word('一個(gè)')

jieba.del_word('他們')

jieba.del_word('知道')

jieba.del_word('像是')

修改后

4.關(guān)鍵詞提?。?/h4>

import jieba.analyse

list = jieba.analyse.extract_tags(test_sent, topK=20, withWeight=False, allowPOS=())

for keys in list:

print(keys)

test_sent 為待提取的文本;topK 為返回幾個(gè) TF/IDF 權(quán)重最大的關(guān)鍵詞,選擇默認(rèn)值 20

withWeight 為是否一并返回關(guān)鍵詞權(quán)重值,選擇默認(rèn)值False;allowPOS 僅包括指定詞性的詞,默認(rèn)值為空,即不篩選


關(guān)鍵詞提?。ú糠郑?br>

5.詞性標(biāo)注

jieba.posseg.POSTokenizer(tokenizer=None)新建自定義分詞器,tokenizer參數(shù)可指定內(nèi)部使用的jieba.Tokenizer分詞器。jieba.posseg.dt為默認(rèn)詞性標(biāo)注分詞器

使用jieba.posseg來進(jìn)行詞性標(biāo)注

import jieba.posseg as pseg

result = pseg.cut(test_sent)

for w in result:

print(w.word, "/", w.flag, ", ", end=' ')

print("\n" +"="*40)

運(yùn)行部分結(jié)果:


部分結(jié)果展示

四、問題分析

部分關(guān)鍵詞提取仍存在語氣詞等,因處理文檔較大,需要自定義去除很多字段


結(jié)果存在欠缺

因?yàn)闆]有設(shè)置編碼格式,調(diào)用外部文檔出現(xiàn)問題。

import jieba

jieba.load_userdict("venv/userdict.txt")

test_sent =open('venv/dragon.txt','r', encoding='utf8' ).read()

五、分詞工具包


來源百度


來源百度

六、分詞工具對比

使用在線分詞工具結(jié)果


在線分詞工具

使用jieba自行編程來進(jìn)行分詞

運(yùn)行結(jié)果
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 一、jieba分詞1.在cmd中安裝結(jié)巴分詞 python setup.py install 并在python環(huán)境...
    hai_king閱讀 354評論 0 1
  • 1.常用的分詞工具包 perminusminusStanford 漢語分詞工具哈工大語言云ICTCLAS——Ans...
    雞肉卷福閱讀 757評論 0 0
  • 在接下來的分詞練習(xí)中將使用到四川大學(xué)公共管理學(xué)院的一篇新聞進(jìn)行練習(xí),文本如下: 為貫徹落實(shí)黨的十九大精神,不斷提升...
    nicokani閱讀 1,367評論 0 4
  • 使用ICTCLAS(NLPIR)在線分詞工具和jieba分詞組件進(jìn)行分詞練習(xí)。 一. ICTCLAS 1.簡介 漢...
    Carina_55閱讀 897評論 0 1
  • 接分詞練習(xí)1——分詞工具包 分詞效果嘗試 接下來我將體驗(yàn)NLPIR和jieba分詞的效果,其中,NLPIR使用在線...
    駱落啊閱讀 762評論 0 1

友情鏈接更多精彩內(nèi)容