分詞算法HMM隱馬爾可夫模型

前言

在網(wǎng)上看了很多關(guān)于馬爾可夫模型的資料,有很多文章寫得不錯,在此記錄自己學習過程中的筆記


一 HMM隱馬爾可夫模型

隱馬爾可夫模型(Hidden Markov Model, HMM)是關(guān)于時序的概率模型,描述由一個隱藏的馬爾可夫鏈隨機生成不可觀測的狀態(tài)隨機序列,再由各個狀態(tài)生成一個觀測而產(chǎn)生觀測隨機序列的過程。隱藏的馬爾可夫鏈隨機生成的狀態(tài)的序列,稱為狀態(tài)序列;每個狀態(tài)生成一個觀測,而由此產(chǎn)生的觀測的隨機序列,稱為觀測序列。序列的每一個位置又可以看作是一個時刻。

隱馬爾可夫模型由初始概率分布、狀態(tài)轉(zhuǎn)移概率分布以及觀測概率分布確定。

一個簡單的例子

假設(shè)我們有3顆不同的骰子。第一個是6面體、第二個是4面體、第三個是8面體,對應每一面數(shù)值分別為(1,2,3,4,5,6)、(1,2,3,4)、(1,2,3,4,5,6,7,8),出現(xiàn)概率分別為\frac{1}{6} 、\frac{1}{4} 、\frac{1}{8}

我們開始擲骰子,我們從這三個骰子里挑選一個骰子的概率為\frac{1}{3}。我們擲骰子的數(shù)值在1~8之間。當不停的擲骰子我們會得到一串數(shù)字序列。例如(擲骰10次):1、6、3、5、2、7、3、5、 2、4。


上圖可以看出馬爾可夫模型為節(jié)點為隱含狀態(tài),邊為轉(zhuǎn)移概率的有向圖模型,接下來我們通過這個例子介紹幾個概念。

可見狀態(tài)鏈(觀測序列):擲骰子得到的這串數(shù)字對應概念中我們可觀察的參數(shù)。

隱含狀態(tài)鏈(狀態(tài)序列):在這個擲骰子的例子中隱含狀態(tài)鏈為我們擲的骰子的序列(有多種可能)。隱含狀態(tài)(骰子)之間存在轉(zhuǎn)換概率,D4的下一個狀態(tài)D4、D6、D8的概率都是\frac{1}{3}

轉(zhuǎn)換概率(狀態(tài)轉(zhuǎn)移概率):隱含狀態(tài)轉(zhuǎn)換(骰子改變)的概率

輸出概率(發(fā)射狀態(tài)):盡管可見狀態(tài)之間沒有轉(zhuǎn)換概率,但是隱含狀態(tài)和可見狀態(tài)之間有一個概率叫做輸出概率。就我們的例子來說,六面體擲出1的概率為\frac{1}{6},四面體擲出1的概率為\frac{1}{4},八面體擲出1的概率為\frac{1}{8}。

當然轉(zhuǎn)換概率和輸出概率我們都是隨意更改的,比如輸出概率方面我們對骰子做點手腳可以讓例如六面體擲出1的概率為\frac{1}{2},其它數(shù)字的概率為\frac{1}{10}。轉(zhuǎn)換概率方面我們可以放入比如在2顆D6、4顆D4、4顆D8中選擇篩子,然后有放回的選擇篩子,轉(zhuǎn)換概率D6為0.2, D4為0.4,D8為0.4。


使用維特比算法(Viterbi algorithm)進行分詞根據(jù)觀測序列推斷出狀態(tài)序列

觀察值序列:小明碩士畢業(yè)于中國科學院計算所

隱含狀態(tài)集:隱含狀態(tài)指的是每個字的狀態(tài)。 有詞語的開頭、詞語的中間字、詞尾、單個字,這里的隱含狀態(tài)集有4個狀態(tài)對應的英文字母{B,M,E,S}

輸入:小明碩士畢業(yè)于中國科學院計算所

輸出:BEBEBMEBEBMEBES(BE/BE/BME/BE/BME/BE/S =小明/碩士/畢業(yè)于/中國/科學院/計算/所)


1、定義V[id][字的狀態(tài)] = 概率,注意這里的概率,前幾個的字的狀態(tài)都確定下來了(概率最大),這里的概率就是一個累乘的概率了。

2、因為第一個字為‘小’,所以第一個字的概率V[1][B]= 初始概率[B] *發(fā)射概率[B][‘小’],同理可得V[1][M]、V[1][E]、V[1][S]選擇其中概率最大的一個加入到結(jié)果序列。

3、從第二個字開始,對于字的狀態(tài)Y,都有前一個字的狀態(tài)是X的概率* X轉(zhuǎn)移到Y(jié)的概率 * Y狀態(tài)下輸出字為‘明’的概率。因為前一個字的狀態(tài)Y有四種可能,所以Y的概率有四個,選取其中較大一個作為V[2][字的狀態(tài)]的概率,同時加入到結(jié)果序列中。

4、比較V[15][B]、V[15][M]、V[15][E]、V[15][S],找出較大的哪一個對應的序列,就是最終結(jié)果。


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容