引言

“結(jié)巴”分詞是一個Python 中文分詞組件，參見https://github.com/fxsjy/jieba
可以對中文文本進(jìn)行分詞、詞性標(biāo)注、關(guān)鍵詞抽取等功能，并且支持自定義詞典。

本文包括以下內(nèi)容：
1、jieba分詞包的安裝
2、jieba分詞的使用教程
3、jieba分詞的工作原理與工作流程
4、jieba分詞所涉及到的HMM、TextRank、TF-IDF等算法介紹

安裝

可以直接使用pip來進(jìn)行安裝：
sudo pip install jieba
或者
sudo pip3 install jieba

簡單使用

分詞

對一句話進(jìn)行分詞

import jieba

text = "征戰(zhàn)四海只為今日一勝，我不會再敗了。"
# jieba.cut直接得到generator形式的分詞結(jié)果
seg = jieba.cut(text)  
print(' '.join(seg)) 

# 也可以使用jieba.lcut得到list的分詞結(jié)果
seg = jieba.lcut(text)
print(seg)

征戰(zhàn) 四海 只 為 今日 一勝 ， 我 不會 再敗 了 。
['征戰(zhàn)', '四海', '只', '為', '今日', '一勝', '，', '我', '不會', '再敗', '了', '。']

命令行進(jìn)行分詞

python -m jieba input.txt > output.txt

詞性分析

import jieba.posseg as posseg

text = "征戰(zhàn)四海只為今日一勝，我不會再敗了。"
# generator形式形如pair(‘word’, ‘pos’)的結(jié)果
seg = posseg.cut(text)  
print([se for se in seg]) 

# list形式的結(jié)果
seg = posseg.lcut(text)
print(seg)

[pair('征戰(zhàn)', 'v'), pair('四海', 'ns'), pair('只', 'd'), pair('為', 'p'), pair('今日', 't'), pair('一', 'm'), pair('勝', 'v'), pair('，', 'x'), pair('我', 'r'), pair('不會', 'v'), pair('再敗', 'v'), pair('了', 'ul'), pair('。', 'x')]
[pair('征戰(zhàn)', 'v'), pair('四海', 'ns'), pair('只', 'd'), pair('為', 'p'), pair('今日', 't'), pair('一', 'm'), pair('勝', 'v'), pair('，', 'x'), pair('我', 'r'), pair('不會', 'v'), pair('再敗', 'v'), pair('了', 'ul'), pair('。', 'x')]

關(guān)鍵詞抽取

關(guān)鍵詞抽取有兩種算法，基于TF-IDF和基于TextRank：

import jieba.analyse as analyse
text = "征戰(zhàn)四海只為今日一勝，我不會再敗了。"
# TF-IDF
tf_result = analyse.extract_tags(text, topK=5) # topK指定數(shù)量，默認(rèn)20
print(tf_result)
# TextRank
tr_result = analyse.textrank(text, topK=5) # topK指定數(shù)量，默認(rèn)20
print(tr_result)

['一勝', '再敗', '征戰(zhàn)', '四海', '今日']
['一勝', '再敗', '征戰(zhàn)', '四海', '今日']

完整用法

分詞

jieba分詞有三種不同的分詞模式：精確模式、全模式和搜索引擎模式：

jieba.cut(sentence,cut_all=False,HMM=True) # 精確模式
jieba.cut(sentence,cut_all=True,HMM=True) # 全模式
jieba.cut_for_search (sentence, HMM=True) # 搜索引擎模式

對應(yīng)的，函數(shù)前加l即是對應(yīng)得到list結(jié)果的函數(shù)：

jieba.lcut(sentence,cut_all=False,HMM=True) # 精確模式
jieba.lcut(sentence,cut_all=True,HMM=True) # 全模式
jieba.lcut_for_search (sentence, HMM=True) # 搜索引擎模式

sentence = "征戰(zhàn)四海只為今日一勝，我不會再敗了。"
#---------------result----------------
'今天天氣 真 好' # 精確模式
'今天 今天天氣 天天 天氣 真好' # 全模式
'今天 天天 天氣 今天天氣 真 好' # 搜索引擎模式

精確模式是最常用的分詞方法，全模式會將句子中所有可能的詞都列舉出來，搜索引擎模式則適用于搜索引擎使用。具體的差別可在下一節(jié)工作流程的分析中詳述。

在上述每個函數(shù)中，都有名為HMM的參數(shù)。這一項(xiàng)表示是否在分詞過程中利用HMM進(jìn)行新詞發(fā)現(xiàn)。關(guān)于HMM，本文附錄中將簡述相關(guān)知識。

另外分詞支持自定義字典，詞典格式和 dict.txt 一樣，一個詞占一行；每一行分三部分：詞語、詞頻（可省略）、詞性（可省略），用空格隔開，順序不可顛倒。
具體使用方法為：

jieba.load_userdict(file_name)  # 載入自定義詞典
jieba.add_word(word, freq=None, tag=None) # 在程序中動態(tài)修改詞典
jieba.del_word(word) 
jieba.suggest_freq(segment, tune=True) # 調(diào)節(jié)單個詞語的詞頻，使其能/不能被分詞開

關(guān)鍵詞抽取

關(guān)鍵詞抽取的兩個函數(shù)的完整參數(shù)為：

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=(), withFlag=False)
# topK 表示返回最大權(quán)重關(guān)鍵詞的個數(shù)，None表示全部
# withWeight表示是否返回權(quán)重，是的話返回(word,weight)的list
# allowPOS僅包括指定詞性的詞，默認(rèn)為空即不篩選。
jieba.analyse.textrank(self, sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'), withFlag=False)
# 與TF-IDF方法相似，但是注意allowPOS有默認(rèn)值，即會默認(rèn)過濾某些詞性。

并行分詞

可以通過

jieba.enable_parallel(4) # 開啟并行分詞模式，參數(shù)為并行進(jìn)程數(shù)，默認(rèn)全部
jieba.disable_parallel() # 關(guān)閉并行分詞模式

來打開或關(guān)閉并行分詞功能。
個人感覺一般用不到，大文件分詞需要手動實(shí)現(xiàn)多進(jìn)程并行，句子分詞也不至于用這個。

代碼研讀與工作流程分析

整體工作流程

jieba分詞主要通過詞典來進(jìn)行分詞及詞性標(biāo)注，兩者使用了一個相同的詞典。正因如此，分詞的結(jié)果優(yōu)劣將很大程度上取決于詞典，雖然使用了HMM來進(jìn)行新詞發(fā)現(xiàn)。
jieba分詞包整體的工作流程如下圖所示：

整體工作流程

下面將根據(jù)源碼詳細(xì)地分析各個模塊的工作流程。

在之后幾節(jié)中，我們在藍(lán)色的方框中示范了關(guān)鍵步驟的輸出樣例或詞典文件的格式樣例。在本節(jié)中都采用類似的表示方式。

分詞

jieba分詞中，首先通過對照典生成句子的有向無環(huán)圖，再根據(jù)選擇的模式不同，根據(jù)詞典尋找最短路徑后對句子進(jìn)行截取或直接對句子進(jìn)行截取。對于未登陸詞（不在詞典中的詞）使用HMM進(jìn)行新詞發(fā)現(xiàn)。

a.精確模式與全模式

b.搜索引擎模式

a圖中演示了分詞的主要過程，但是其中只演示了被切分出來的一個子字符串的分詞操作過程，在實(shí)際操作流程中，將對每一個子字符串都分別進(jìn)行圖中的處理，最后將切分的分詞結(jié)果與非漢字部分依次連接起來，作為最終的分詞結(jié)果。
如果開啟了HMM，那么將會連起來不在詞典中出現(xiàn)的連續(xù)單字進(jìn)行新詞發(fā)現(xiàn)。比如例子中的“真好啊”，詞典中沒有這個詞，所以會拿去HMM模型中進(jìn)行新詞發(fā)現(xiàn)；但是如果原句是“今天天氣真好”，基于詞典切分為“今天天”“真”“好”，詞典中有“真好”一詞，但是因?yàn)轭l率小所以未被選擇為最佳路徑，所以“真”“好”兩個字不會被拿去做新詞發(fā)現(xiàn)（即便其通過HMM的結(jié)果將會是“真好”），最終分詞結(jié)果將是“今天天氣”“真”“好”。

詞典的格式應(yīng)為
word1 freq1 word_type1
word2 freq2 word_type2
…
其中自定義用戶詞典中詞性word_type可以省略。
詞典在其他模塊的流程中可能也會用到，為方便敘述，后續(xù)的流程圖中將會省略詞典的初始化部分。

圖b演示了搜索引擎模式的工作流程，它會在精確模式分詞的基礎(chǔ)上，將長詞再次進(jìn)行切分。

HMM與新詞發(fā)現(xiàn)

在這里我們假定讀者已經(jīng)了解HMM相關(guān)知識，如果沒有可先行閱讀下一章內(nèi)容中的HMM相關(guān)部分或者跳過本節(jié)。

在jieba分詞中，將字在詞中的位置B、M、E、S作為隱藏狀態(tài)，字是觀測狀態(tài)，使用了詞典文件分別存儲字之間的表現(xiàn)概率矩陣（finalseg/prob_emit.py）、初始概率向量(finalseg/prob_start.py)和轉(zhuǎn)移概率矩陣(finalseg/prob_trans.py)。這就是一個標(biāo)準(zhǔn)的解碼問題，根據(jù)概率再利用viterbi算法對最大可能的隱藏狀態(tài)進(jìn)行求解。

HMM工作流程

上圖簡單示范了jieba分詞中新詞發(fā)現(xiàn)模塊的工作流程，其具體計算過程可參考附錄內(nèi)容，為求頁面整齊，這里不再累述。
在最后時刻，即“啊”對應(yīng)的時刻里，最大概率的為S，而

，那么隱藏狀態(tài)序列即為(BES)，對應(yīng)于漢字“真好啊”——即“真好”是一個詞，“啊”字單字成詞。

詞性分析

詞性分析部分與分詞模塊用了同一個基礎(chǔ)的分詞器，對于詞典詞的詞性，將直接從詞典中提取，但是對于新詞，詞性分析部分有一個專屬的新詞及其詞性的發(fā)現(xiàn)模塊。
用于詞性標(biāo)注的HMM模型與用于分詞的HMM模型相似，同樣將文字序列視為可見狀態(tài)，但是隱藏狀態(tài)不再是單單的詞的位置（B/E/M/S），而變成了詞的位置與詞性的組合，如(B,v)(B,n)(S,n)等等。因此其初始概率向量、轉(zhuǎn)移概率矩陣和表現(xiàn)概率矩陣和上一節(jié)中所用的相比都要龐大的多，但是其本質(zhì)以及運(yùn)算步驟都沒有變化。
具體的工作流程如下圖所示。

a.詞性標(biāo)注工作流程

b.用于HMM的概率詞典示意圖

關(guān)鍵詞提取

jieba分詞中有兩種不同的用于關(guān)鍵詞抽取的算法，分別為TextRank和TF-IDF。實(shí)現(xiàn)流程比較簡單，其核心在于算法本身。下面簡單地畫出實(shí)現(xiàn)流程，具體的算法可以參閱下一章內(nèi)容。

關(guān)鍵詞提取實(shí)現(xiàn)流程示意圖

TextRank方法默認(rèn)篩選詞性，而TF-IDF方法模型不進(jìn)行詞性篩選。

【附錄】

在本章中，將會簡單介紹相關(guān)的算法知識，主要包括用于新詞發(fā)現(xiàn)的隱馬爾科夫模型和維特比算法、用于關(guān)鍵詞提取的TextRank和TF-IDF算法。

HMM

HMM即隱馬爾科夫模型，是一種基于馬爾科夫假設(shè)的統(tǒng)計模型。之所以為“隱”，是因?yàn)橄噍^于馬爾科夫過程HMM有著未知的參數(shù)。在世界上，能看到的往往都是表象，而事物的真正狀態(tài)往往都隱含在表象之下，并且與表象有一定的關(guān)聯(lián)關(guān)系。

此處我們假設(shè)讀者已經(jīng)對機(jī)器學(xué)習(xí)或統(tǒng)計模型等相關(guān)內(nèi)容有了一個大致的了解，我們利用各種模型的目的在于對于給定的輸入X，能夠預(yù)測出類別Y。生成模型通過學(xué)習(xí)聯(lián)合概率分布P(X,Y)，然后通過貝葉斯定理求解條件概率

HMM屬于生成模型的有向圖PGM，通過聯(lián)合概率建模：

其中，S、O分別表示狀態(tài)序列與觀測序列。

HMM的解碼問題為

定義在時刻t狀態(tài)為s的所有單個路徑st1中的概率最大值為

則有：

此式即為用于HMM解碼問題的Viterbi算法的遞推式。

如果讀者還對這部分內(nèi)容心存疑問，不妨先往下閱讀，下面我們將以一個比較簡單的例子對HMM及解碼算法進(jìn)行實(shí)際說明與演示，在讀完下一小節(jié)之后再回來看這些式子，或許能夠恍然大悟。

下面以一個簡單的例子來進(jìn)行闡述：
假設(shè)小明有一個網(wǎng)友小紅，小紅每天都會在朋友圈說明自己今天做了什么，并且假設(shè)其僅受當(dāng)天天氣的影響，而當(dāng)天的天氣也只受前一天天氣的影響。
于小明而言，小紅每天做了什么是可見狀態(tài)，而小紅那里的天氣如何就是隱藏狀態(tài)，這就構(gòu)成了一個HMM模型。一個HMM模型需要有五個要素：隱藏狀態(tài)集、觀測集、轉(zhuǎn)移概率、觀測概率和初始狀態(tài)概率。

我們定義隱藏狀態(tài)集為N，N中包括了所有有可能出現(xiàn)的隱藏狀態(tài)，在本例中我們認(rèn)為

定義觀測集為M，M中包括了所有可能出現(xiàn)在觀測中的表現(xiàn)狀態(tài)，在本例中我們假設(shè)

接下來定義觀測概率矩陣：

其中，

即在第j個隱藏狀態(tài)時，表現(xiàn)為i表現(xiàn)狀態(tài)的概率。式中的n和m表示隱藏狀態(tài)集和觀測集中的數(shù)量。
本例中在不同的天氣下，小紅要做不同事情的概率也不同，觀測概率以表格的形式呈現(xiàn)如下：

HMM中還定義了轉(zhuǎn)移概率矩陣：

其中

表示第i個隱藏狀態(tài)轉(zhuǎn)移為第j個隱藏狀態(tài)的概率。
本例中我們認(rèn)定，其轉(zhuǎn)移概率如下圖所示：

除此之外，還需要一個初始狀態(tài)概率向量π，它表示了觀測開始時，即t=0時，隱藏狀態(tài)的概率值。本例中我們指定π={0,0,1}。

至此，一個完整的隱馬爾科夫模型已經(jīng)定義完畢了。

HMM一般由三類問題：
概率計算問題，即給定A,B,π和隱藏狀態(tài)序列，計算觀測序列的概率；
預(yù)測問題，也成解碼問題，已知A,B,π和觀測序列，求最優(yōu)可能對應(yīng)的狀態(tài)序列；
學(xué)習(xí)問題，已知觀測序列，估計模型的A,B,π參數(shù)，使得在該模型下觀測序列的概率最大，即用極大似然估計的方法估計參數(shù)。

在jieba分詞中所用的是解碼問題，所以此處對預(yù)測問題和學(xué)習(xí)問題不做深入探討，在下一小節(jié)中我們將繼續(xù)以本節(jié)中的例子為例，對解碼問題進(jìn)行求解。

Viterbi算法

在jieba分詞中，采用了HMM進(jìn)行新詞發(fā)現(xiàn)，它將每一個字表示為B/M/E/S分別代表出現(xiàn)在詞頭、詞中、詞尾以及單字成詞。將B/M/E/S作為HMM的隱藏狀態(tài)，而連續(xù)的各個單字作為觀測狀態(tài)，其任務(wù)即為利用觀測狀態(tài)預(yù)測隱藏狀態(tài)，并且其模型的A,B,π概率已經(jīng)給出在文件中，所以這是一個標(biāo)準(zhǔn)的解碼問題。在jieba分詞中采用了Viterbi算法來進(jìn)行求解。

Viterbi算法的基本思想是：如果最佳路徑經(jīng)過一個點(diǎn)，那么起始點(diǎn)到這個點(diǎn)的路徑一定是最短路徑，否則用起始點(diǎn)到這點(diǎn)更短的一條路徑代替這段，就會得到更短的路徑，這顯然是矛盾的；從起始點(diǎn)到結(jié)束點(diǎn)的路徑，必然要經(jīng)過第n個時刻，假如第n個時刻有k個狀態(tài)，那么最終路徑一定經(jīng)過起始點(diǎn)到時刻n中k個狀態(tài)里最短路徑的點(diǎn)。
將時刻t隱藏狀態(tài)為i所有可能的狀態(tài)轉(zhuǎn)移路徑i1到i2的狀態(tài)最大值記為

我們可以據(jù)此由初始時刻依次向后推出每一個時刻的最大概率隱藏狀態(tài)。

下面我們繼續(xù)以上一節(jié)中的例子來對viterbi算法進(jìn)行闡述：
小明不知道小紅是哪里人，他只能通過小紅每天的活動來推斷那里的天氣。
假設(shè)連續(xù)三天，小紅的活動依次為：“睡覺-打游戲-逛街”，我們將據(jù)此計算最有可能的天氣情況。

我們需要得到三種天氣在第一天對應(yīng)的可能出現(xiàn)“睡覺”的可能性，考慮到初始概率向量：

現(xiàn)在開始遞推三個隱藏狀態(tài)（天氣）在第二天時對應(yīng)的各自可見狀態(tài)（打游戲）：

在上式中，

表示能使得

最大的前一時刻的隱藏狀態(tài)，比如

表示第一天為雨天能夠使得第二天為晴天的概率最大（也就是說如果第二天是晴天在最短路徑上的話，第一天是雨天也一定在最短路徑上，參見上文中Viterbi算法的基本思想）

下面繼續(xù)遞推第三天（逛街）的隱藏狀態(tài)：

此時已經(jīng)到了最后的時刻，我們開始回溯。

此時的最大概率為

由于

從而得到最終最有可能的隱藏狀態(tài)序列為：（雨天，雨天，晴天）。

其計算過程示意圖如下圖所示。

在圖中，線條上方的數(shù)字表示轉(zhuǎn)移概率（或初始概率），隱藏狀態(tài)點(diǎn)框內(nèi)的數(shù)字表示表現(xiàn)概率，隱藏狀態(tài)點(diǎn)框上方的數(shù)字表示此隱藏狀態(tài)點(diǎn)的最大聯(lián)合概率，即

，指向隱藏節(jié)點(diǎn)i的紅色的線條表示使得節(jié)點(diǎn)i處聯(lián)合概率最大的路徑，加粗的紅色線條表示能使最終時刻聯(lián)合概率最大（即

）的路徑。

TF-IDF

TF-IDF（詞頻-逆文本頻率）是一種用以評估字詞在文檔中重要程度的統(tǒng)計方法。它的核心思想是，如果某個詞在一篇文章中出現(xiàn)的頻率即TF高，并且在其他文檔中出現(xiàn)的很少，則認(rèn)為這個詞有很好的類別區(qū)分能力。

其中：

式中，分子為i詞在j文檔中出現(xiàn)的次數(shù)，分母為j文檔中所有字詞出現(xiàn)的次數(shù)之和。

式中分子為語料庫中的文件總數(shù)，分母為包含該詞的文件數(shù)目。
jieba分詞中逆文檔頻率直接由詞典讀入。

TextRank

TextRank是一種用以關(guān)鍵詞提取的算法，因?yàn)槭腔赑ageRank的，所以先介紹PageRank。
PageRank通過互聯(lián)網(wǎng)中的超鏈接關(guān)系確定一個網(wǎng)頁的排名，其公式是通過一種投票的思想來設(shè)計的：如果我們計算網(wǎng)頁A的PageRank值，那么我們需要知道哪些網(wǎng)頁鏈接到A，即首先得到A的入鏈，然后通過入鏈給網(wǎng)頁A進(jìn)行投票來計算A的PR值。其公式為：

其中：

要計算PR值的網(wǎng)頁

鏈接到Vi的網(wǎng)頁，即它的入鏈

Vj的PR值

所有入鏈的集合

網(wǎng)頁j中鏈接存在的鏈接指向的網(wǎng)頁的集合

其個數(shù)

d為阻尼系數(shù)，取值范圍為0-1，代表從一定點(diǎn)指向其他任意點(diǎn)的概率，一般取值0.85。
將上式多次迭代即可直到收斂即可得到結(jié)果。

TextRank算法基于PageRank的思想，利用投票機(jī)制對文本中重要成分進(jìn)行排序。如果兩個詞在一個固定大小的窗口內(nèi)共同出現(xiàn)過，則認(rèn)為兩個詞之間存在連線。

TextRank算法的得分定義為：

公式1

公式與PageRank的基本相同。多次迭代直至收斂，即可得到結(jié)果。
在jieba分詞中，TextRank設(shè)定的詞窗口大小為5，將公式1迭代10次的結(jié)果作為最終權(quán)重的結(jié)果，而不一定迭代至收斂。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

jieba分詞詳解

jieba分詞詳解

引言

安裝

簡單使用

分詞

對一句話進(jìn)行分詞

命令行進(jìn)行分詞

詞性分析

關(guān)鍵詞抽取

完整用法

分詞

關(guān)鍵詞抽取

并行分詞

代碼研讀與工作流程分析

整體工作流程

分詞

HMM與新詞發(fā)現(xiàn)

詞性分析

關(guān)鍵詞提取

【附錄】

HMM

Viterbi算法

TF-IDF

TextRank

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

jieba分詞詳解

引言

安裝

簡單使用

分詞

對一句話進(jìn)行分詞

命令行進(jìn)行分詞

詞性分析

關(guān)鍵詞抽取

完整用法

分詞

關(guān)鍵詞抽取

并行分詞

代碼研讀與工作流程分析

整體工作流程

分詞

HMM與新詞發(fā)現(xiàn)

詞性分析

關(guān)鍵詞提取

【附錄】

HMM

Viterbi算法

TF-IDF

TextRank

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av