Python 自然語(yǔ)言處理 入門—關(guān)于jieba庫(kù)的使用

1. 什么是jiaba庫(kù)

jieba 是一個(gè)python實(shí)現(xiàn)的分詞庫(kù),對(duì)中文有著很強(qiáng)大的分詞能力。
git鏈接:https://github.com/fxsjy/jieba

2. jieba庫(kù)的優(yōu)點(diǎn)

1 支持三種分詞模式:
a. 精確模式,試圖將句子最精確地切開(kāi),適合文本分析;
b. 全模式,把句子中所有的可以成詞的詞語(yǔ)都掃描出來(lái), 速度非???,但是不能解決歧義;
c. 搜索引擎模式,在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提高召回率,適合用于搜索引擎分詞。

2 支持自定義詞典

3. 關(guān)于jiaba庫(kù)的基本功能

demo1:分詞

#coding:utf-8
import jieba

words=jieba.cut("他來(lái)到了網(wǎng)易杭研大廈")
print "/".join(words)
2017-03-06 15-01-20屏幕截圖.png

demo2 : 加入自定義字典

#coding:utf-8
import jieba

jieba.load_userdict("dict.txt")
words=jieba.cut("他來(lái)到了網(wǎng)易杭研大廈")
print "/".join(words)
print type(words)

<br />
自定義的詞典 dict.txt

杭研大廈 100 n

自定義的詞典一行上面有三列,第二個(gè)是指出現(xiàn)的次數(shù),第三個(gè)是詞性

運(yùn)行結(jié)果:


2017-03-06 15-13-44屏幕截圖.png

也就是說(shuō)杭研大廈被看作為了一個(gè)整體。

demo3:允許程序在運(yùn)行的時(shí)候,動(dòng)態(tài)的修改詞典

#coding:utf-8
import jieba
words =jieba.cut("我們中出了一個(gè)叛徒",HMM=False)
#jieba.suggest_freq(('中出'),True)
print '/'.join(words)
2017-03-06 17-54-31屏幕截圖.png

使用 suggest_freq(segment, tune=True) 可調(diào)節(jié)單個(gè)詞語(yǔ)的詞頻,使其(或不能)被分出來(lái)。
注意:自動(dòng)計(jì)算的詞頻在使用 HMM 新詞發(fā)現(xiàn)功能時(shí)可能無(wú)效。

#coding:utf-8
import jieba
words =jieba.cut("我們中出了一個(gè)叛徒",HMM=False)
jieba.suggest_freq(('中出'),True)
#jieba.suggest_freq(('中','出'),True)
print '/'.join(words)
2017-03-06 17-56-35屏幕截圖.png

demo4: 關(guān)鍵詞提取

demo5:詞性標(biāo)注

#coding:utf-8
import jieba.posseg as pseg 

words=pseg.cut("我愛(ài)北京天安門")
for word ,flag in words:
    print ('%s %s' %(word,flag))
2017-03-06 18-07-03屏幕截圖.png

demo5:三種模式的分詞

# encoding=utf-8
import jieba

seg_list = jieba.cut("我來(lái)到北京清華大學(xué)", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我來(lái)到北京清華大學(xué)", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精確模式

seg_list = jieba.cut("他來(lái)到了網(wǎng)易杭研大廈")  # 默認(rèn)是精確模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明碩士畢業(yè)于中國(guó)科學(xué)院計(jì)算所,后在日本京都大學(xué)深造")  # 搜索引擎模式
print(", ".join(seg_list))

運(yùn)行結(jié)果:


2017-03-06 18-10-06屏幕截圖.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 1.安裝及入門介紹 推薦直接 pip install jieba 結(jié)巴中文分詞涉及到的算法包括: (1)基于Tri...
    MiracleJQ閱讀 13,453評(píng)論 0 5
  • 關(guān)鍵詞:windows平臺(tái)下jieba安裝、三種模式比較、自定義詞典、停用詞語(yǔ)料、詞頻統(tǒng)計(jì)、詞云生成 jieba簡(jiǎn)...
    秋燈鎖憶閱讀 4,667評(píng)論 0 2
  • 注:參考文檔 一、在線詞云圖工具# (1)、使用### 在正式使用jieba分詞之前,首先嘗試用在線分詞工具來(lái)將自...
    DearIreneLi閱讀 6,369評(píng)論 1 8
  • 常用概念: 自然語(yǔ)言處理(NLP) 數(shù)據(jù)挖掘 推薦算法 用戶畫像 知識(shí)圖譜 信息檢索 文本分類 常用技術(shù): 詞級(jí)別...
    御風(fēng)之星閱讀 9,984評(píng)論 1 25
  • ProcessOn簡(jiǎn)介 ProcessOn是一個(gè)在線作圖工具的聚合平臺(tái),它可以在線畫流程圖、思維導(dǎo)圖、UI原型圖、...
    thychan閱讀 1,008評(píng)論 1 3

友情鏈接更多精彩內(nèi)容