jieba 主要用于Python中文分詞,主要有以下3種特性:
- 支持3種分詞模式:精確模式、全模式、搜索引擎模式
- 支持繁體分詞
- 支持自定義詞典
# 導(dǎo)入jieba
import jieba
import jieba.posseg as pseg #詞性標(biāo)注
import jiaba.analyse as anls # 關(guān)鍵詞提取
1 分詞
可使用jieba.cut和jieba.cut_for_search方法進(jìn)行分詞,兩者所返回的結(jié)構(gòu)都是一個(gè)可迭代的 gengeator ,可使用for循環(huán)獲得分詞后得到的每一個(gè)詞語(yǔ)(unicode),或者直接使用jieba.lcut以及jieba.lcut_for_search直接返回list。其中:
-
jieba.cut和jieba.lcut接受3個(gè)參數(shù):- 需要分詞的字符串(Unicode 或 UTF-8字符串、GBK字符串)
- cut_all 參數(shù):是否使用全模式,默認(rèn)值為
False - HMM參數(shù):用來(lái)控制是否使用HMM模型,默認(rèn)值為
True
-
jieba.cut_for_search和jieba.lcut_for_search接受2個(gè)參數(shù):- 需要分詞的字符串(Unicode 或 UTF-8字符串、GBK字符串)
- HMM參數(shù):用來(lái)控制是否使用HMM模型,默認(rèn)值為
True
/ 盡量不要使用GBK字符串,可能會(huì)被錯(cuò)誤解碼成UTF-8
1.1 全模式和精確模式
# 全模式
seg_list = jieba.cut("他來(lái)到上海交通大學(xué)", cut_all=True)
print("【全模式】:" + " / ".join(seg_list) )
>> 【全模式】:他/來(lái)到/上海/上海交通大學(xué)/交通/大學(xué)
# 精確模式
seg_list = jieba.cut("他來(lái)到上海交通大學(xué)", cut_all=False)
print("【精確模式】:" + " / ".join(seg_list) )
>> 【精確模式】:他/來(lái)到/上海交通大學(xué)
type(seg_list)
>> generator
# 返回列表
seg_list = jieba.lcut("他來(lái)到上海交通大學(xué)", cut_all=True)
print(seg_list)
>> ['他', '來(lái)到', '上海', '上海交通大學(xué)', '交通', '大學(xué)']
seg_list = jieba.lcut("他來(lái)到上海交通大學(xué)", cut_all=False)
print(seg_list)
>> ['他', '來(lái)到', '上海交通大學(xué)']
type(seg_list)
>> list
1.2 搜索引擎模式
# 搜索引擎模式
seg_list = jieba.cut_for_search("他畢業(yè)于上海交通大學(xué)機(jī)電系,后來(lái)在一機(jī)部上海電器科學(xué)研究所工作" )
print("【搜索引擎模式】:" + "/ ".join(seg_list))
>> 【搜索引擎模式】:他/畢業(yè)/于/上海/交通/大學(xué)/上海交通大學(xué)/機(jī)電/系/,/后來(lái)/在/一機(jī)部/上海/電器/科學(xué)/研究/研究所/工作
# 返回列表
seg_list = jieba.lcut_for_search("他畢業(yè)于上海交通大學(xué)機(jī)電系,后來(lái)在一機(jī)部上海電器科學(xué)研究所工作")
print("{0}".format(seg_list))
>> ['他', '畢業(yè)', '于', '上海', '交通', '大學(xué)', '上海交通大學(xué)', '機(jī)電', '系', ',', '后來(lái)', '在', '一機(jī)部', '上海', '電器', '科學(xué)', '研究', '研究所', '工作']
1.3 HMM模型
HMM模型,即隱馬爾可夫模型,是一種基于概率的統(tǒng)計(jì)分析模型,用來(lái)描述一個(gè)系統(tǒng)隱性狀態(tài)的轉(zhuǎn)移和隱性狀態(tài)的表現(xiàn)概率。在jieba中,對(duì)于未登錄到詞庫(kù)的詞,使用了基于漢字成詞能力的HMM模型和Viterbi算法,其大致原理是:
采用四個(gè)隱含狀態(tài),分別表示為單字成詞,詞組的開頭,詞組的中間,詞組的結(jié)尾。通過(guò)標(biāo)注好的分詞訓(xùn)練集,可以得到HMM的各個(gè)參數(shù),然后使用Viterbi算法來(lái)解釋測(cè)試集,得到分詞結(jié)果。
# 未啟用HMM
seg_list = jieba.cut("他來(lái)到了網(wǎng)易杭研大廈", HMM=False) # 默認(rèn)精確模式和啟用HMM
print(【未啟用 HMM】:" + "/ ".join(seg_list))
>> 【未啟用HMM】:他/來(lái)到/了/網(wǎng)易/杭/研/大廈
# 啟用HMM
seg_list = jieba.cut("他來(lái)到了網(wǎng)易杭研大廈", HMM=True) # 默認(rèn)精確模式和啟用HMM
print(【啟用 HMM】:" + "/ ".join(seg_list))
>> 【啟用HMM】:他/來(lái)到/了/網(wǎng)易/杭研/大廈
2、繁體字分詞
Python支持繁體字分詞,用法與上面相同。
3、添加自定義詞典
開發(fā)者可以指定自定義詞典,以便包含jieba詞庫(kù)里沒(méi)有的詞,詞典格式如下:
詞語(yǔ) 詞頻(可省略) 詞性(可省略)
例如:
創(chuàng)新辦 3 i
云計(jì)算 5
凱特琳 nz
雖然jieba有新詞識(shí)別能力,但自行添加新詞可以保證更高的準(zhǔn)確率。
3.1 載入詞典
使用jieba.load_userdict(file_name)即可載入詞典。
/ file_name為文件類對(duì)象或自定義詞典的路徑
# 示例文本
sample_text = "周大福是創(chuàng)新辦主任也是云計(jì)算方面的專家"
# 未加載詞典
print("未加載詞典:" + '/'.join(jieba.cut(sample_text)))
>> 未加載詞典:周大福/是/創(chuàng)新/辦/主任/也/是/云/計(jì)算/方面/的/專家
# 載入詞典
jieba.load_userdict(r"D:\ext.hexiaomin\數(shù)據(jù)分析\JupyterProject\userdict.txt")
# 加載詞典后
print("加載詞典后:"+ '/'.join(jieba.cut(sample_text)))
>> 加載詞典后:周大福/是/創(chuàng)新辦/主任/也/是/云計(jì)算/方面/的/專家
3.2 調(diào)整詞典
使用add_word(word, freq=None, tag=None)和del_word(word)可在程序中動(dòng)態(tài)修改詞典。
jieba.add_word('石墨烯') # 增加自定義詞語(yǔ)
jieba.add_word('凱特琳', freq=42, tag='nz') # 設(shè)置詞頻和詞性
jieba.del_word('自定義詞') # 刪除自定義詞語(yǔ)
使用suggest_freq(segment, tune=True)可調(diào)節(jié)單個(gè)詞語(yǔ)的詞頻,使其能(或不能)被分出來(lái)。
# 調(diào)節(jié)詞頻前
print('調(diào)節(jié)詞頻前:'+'/'.join(jieba.cut('如果放到post中將出錯(cuò)。', HMM=False)))
>> 調(diào)節(jié)詞頻前:如果/放到/post/中將/出錯(cuò)/。
# 調(diào)節(jié)詞頻
jieba.suggest_freq(('中', '將'), tune=True)
>> 494
# 調(diào)節(jié)詞頻后
print('調(diào)節(jié)詞頻后:'+'/'.join(jieba.cut('如果放到post中將出錯(cuò)。', HMM=False)))
>> 調(diào)節(jié)詞頻后:如果/放到/post/中/將/出錯(cuò)/。
4、關(guān)鍵詞提取
jieba提供了兩種關(guān)鍵詞提取方法,分別基于TF-IDF算法和TextRank算法。
4.1 基于TF-IDF算法的關(guān)鍵詞提取
TF-IDF(詞頻-逆文件頻率)是一種統(tǒng)計(jì)方法,用以評(píng)估一個(gè)詞語(yǔ)對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的一份文件的重要程度,其原理可概括為:
一個(gè)詞語(yǔ)在一篇文章中出現(xiàn)次數(shù)越多,同時(shí)在所有文檔中出現(xiàn)次數(shù)越少,認(rèn)為此詞或者短語(yǔ)具有很好的類別區(qū)分能力,適合用來(lái)分類。
計(jì)算公式:TF-IDF = TF * IDF
TF(term frequency, TF):詞頻,某一個(gè)給定的詞語(yǔ)在該文件中出現(xiàn)的次數(shù),計(jì)算公式:

這個(gè)數(shù)字通常會(huì)被歸一化,用詞頻除以文章總次數(shù),防止偏向長(zhǎng)的文件。分子是該詞在文件中出現(xiàn)的次數(shù);分母是文件中所有詞出現(xiàn)的次數(shù)總和。
IDF(inverse document frequency, IDF):逆文件頻率,如果包含該詞條的文件越少,則說(shuō)明詞條具有很好的類別區(qū)分能力,計(jì)算公式:

IDF可以用總文件數(shù)目除以包含該詞的文件數(shù)目,再取對(duì)數(shù)。如果該詞語(yǔ)不在語(yǔ)料庫(kù)中,會(huì)導(dǎo)致分母為0,所以一般情況下分母+1。
通過(guò)jieba.analyse.extract_tags方法可以基于TF-IDF算法進(jìn)行關(guān)鍵字提取,該方法包括4個(gè)參數(shù):
- sentence:為待提取的文本
- topK:為返回幾個(gè)TF/IDF權(quán)重最大的關(guān)鍵詞,默認(rèn)值為20
- withWeight:是否一并返回關(guān)鍵詞權(quán)重值,默認(rèn)值為False
- allowPOS:僅包括指定詞性的詞,默認(rèn)值為空
s = "此外,公司擬對(duì)全資子公司吉林歐亞置業(yè)有限公司增資4.3億元,增資后,吉林歐亞置業(yè)注冊(cè)資本由7000萬(wàn)元增加到5億元。吉林歐亞置業(yè)主要經(jīng)營(yíng)范圍為房地產(chǎn)開發(fā)及百貨零售等業(yè)務(wù)。目前在建吉林歐亞城市商業(yè)綜合體項(xiàng)目。2013年,實(shí)現(xiàn)營(yíng)業(yè)收入0萬(wàn)元,實(shí)現(xiàn)凈利潤(rùn)-139.13萬(wàn)元。"
for x, w in anls.extract_tags(s, topK=20, withWeight=True):
print('%s %s' %(x, w))
>>
歐亞 0.7300142700289363
吉林 0.659038184373617
置業(yè) 0.4887134522112766
萬(wàn)元 0.3392722481859574
增資 0.33582401985234045
4.3 0.25435675538085106
7000 0.25435675538085106
2013 0.25435675538085106
139.13 0.25435675538085106
實(shí)現(xiàn) 0.19900979900382978
綜合體 0.19480309624702127
經(jīng)營(yíng)范圍 0.19389757253595744
億元 0.1914421623587234
在建 0.17541884768425534
全資 0.17180164988510638
注冊(cè)資本 0.1712441526
百貨 0.16734460041382979
零售 0.1475057117057447
子公司 0.14596045237787234
營(yíng)業(yè) 0.13920178509021275
使用jieba.analyse.TFIDF(idf_path=None)可以新建TFIFDF實(shí)例,其中idf_path為IDF頻率文件。
4.2 基于TextRank算法的關(guān)鍵詞提取
TextRank是另一種關(guān)鍵詞提取算法,通過(guò)jieba.analyse.textrank方法可以使用基于TextRank算法的關(guān)鍵詞提取,其與jieba.analyse.extract_tags有一樣的參數(shù),但前者默認(rèn)過(guò)濾詞性(allowPOS=('ns', 'n', 'vn', 'v'))。
for x, w in anls.textrank(s, withWeight=True):
print('%s %s' % (x, w))
>>
吉林 1.0
歐亞 0.9966893354178172
置業(yè) 0.6434360313092776
實(shí)現(xiàn) 0.5898606692859626
收入 0.43677859947991454
增資 0.4099900531283276
子公司 0.35678295947672795
城市 0.34971383667403655
商業(yè) 0.34817220716026936
業(yè)務(wù) 0.3092230992619838
在建 0.3077929164033088
營(yíng)業(yè) 0.3035777049319588
全資 0.303540981053475
綜合體 0.29580869172394825
注冊(cè)資本 0.29000519464085045
有限公司 0.2807830798576574
零售 0.27883620861218145
百貨 0.2781657628445476
開發(fā) 0.2693488779295851
經(jīng)營(yíng)范圍 0.2642762173558316
使用jieba.analyse.TextRank()可以新建TextRank實(shí)例。
4.3 自定義語(yǔ)料庫(kù)
關(guān)鍵詞提取所使用逆向文件頻率(IDF)文本語(yǔ)料庫(kù)和停止詞(stop words)文本語(yǔ)料庫(kù)可以切換成自定義語(yǔ)料庫(kù)的路徑。
jieba.analyse.set_stop_words("stop_words.txt")
jieba.analyse.set_idf_path("idf.txt.big");
5、詞性標(biāo)注
jieba.posseg.POSTokenizer(tokenizer=None)新建自定義分詞器,tokenizer參數(shù)可指定內(nèi)部使用的jieba.Tokenizer分詞器。jieba.posseg.df為默認(rèn)詞性標(biāo)注分詞器。
/標(biāo)注句子分詞后每個(gè)詞的詞性,采用和ictclas兼容的標(biāo)記法。
words = pseg.cut("他改變了中國(guó)")
for word, flag in words:
print("{0} {1}".format(word, flag))
>>
他 r
改變 v
了 ul
中國(guó) ns
6、并行分詞
將目標(biāo)文本按行分隔后,把各行文本分配到多個(gè)Python進(jìn)程并行分詞,然后歸并結(jié)果,從而獲得分詞速度的可觀提升。用法:
- jieba.enable_parallel(4):開啟并行分詞模式,參數(shù)為并行進(jìn)程數(shù)
- jieba.disable_parallel():關(guān)閉并行分詞模式
注意:基于Python自帶的multiprocessing模塊,目前暫不支持windows
7、返回詞語(yǔ)在原文的起止位置
使用jieba.tokenize方法可以返回詞語(yǔ)在原文的起止位置。
注意:輸入?yún)?shù)只接受unicode
result = jieba.tokenize(u'上海益民食品一廠有限公司')
print('普通模式')
for tk in result:
print("word: {0} \t\t start: {1} \t\t end: {2}".format(tk[0],tk[1],tk[2]))
>>
word: 上海 start: 0 end:2
word: 益民 start: 2 end:4
word: 食品 start: 4 end:6
word: 一廠 start: 6 end:8
word: 有限公司 start: 8 end:12