https://zhuanlan.zhihu.com/p/33397147
https://www.bilibili.com/video/av52273255/
概率圖模型(probabilistic graphical model, PGM)指用圖表示變量相關(guān)(依賴(lài))關(guān)系的概率模型,主要分為兩類(lèi):
- 有向圖模型或貝葉斯網(wǎng)(Bayesian network),使用有向圖表示變量間的依賴(lài)關(guān)系;
-
無(wú)向圖模型或馬爾可夫網(wǎng)(Markov network),使用無(wú)向圖表示變量間相關(guān)關(guān)系。
監(jiān)督學(xué)習(xí)的任務(wù)就是學(xué)習(xí)一個(gè)模型,對(duì)于給定的輸入X,能預(yù)測(cè)出類(lèi)別Y。所學(xué)習(xí)到的模型一般可表示為決策函數(shù):
或者條件概率
監(jiān)督學(xué)習(xí)的模型分為生成模型(generative model)與判別模型(discriminative model)生成模型學(xué)習(xí)聯(lián)合概率分布,然后通過(guò)貝葉斯定理求解條件概率,而判別模型則是直接學(xué)習(xí)決策函數(shù)或條件概率。
HMM
HMM適用于以下情況:①問(wèn)題是基于序列的,如時(shí)間序列、狀態(tài)序列 ②問(wèn)題有兩類(lèi)數(shù)據(jù):一類(lèi)是可觀(guān)測(cè)到的,即觀(guān)測(cè)序列;一類(lèi)是不可觀(guān)測(cè)到的,即隱藏轉(zhuǎn)態(tài)序列。
HMM基于以下兩個(gè)假設(shè):①齊次馬爾科夫鏈假設(shè):即任意時(shí)刻的隱藏狀態(tài)只依賴(lài)于它前一個(gè)隱藏狀態(tài),即從時(shí)刻t到時(shí)刻t+1的狀態(tài)轉(zhuǎn)移概率 ,
②觀(guān)測(cè)獨(dú)立性假設(shè),即任意時(shí)刻的觀(guān)察狀態(tài)只僅僅依賴(lài)于當(dāng)前時(shí)刻的隱藏狀態(tài),即觀(guān)測(cè)狀態(tài)在隱藏轉(zhuǎn)態(tài)
下生成的概率為
HMM屬于生成模型的有向圖PGM,通過(guò)聯(lián)合概率建模:
其中,
、
分別表示狀態(tài)序列與觀(guān)測(cè)序列。HMM的解碼問(wèn)題為
;定義在時(shí)刻t狀態(tài)為s的所有單個(gè)路徑
中的概率最大值為
,則有
此即為維特比算法遞推式,可以看出HMM是通過(guò)聯(lián)合概率來(lái)求解標(biāo)注問(wèn)題的。
HMM缺點(diǎn):不適合處理大規(guī)模數(shù)據(jù)
HMM優(yōu)點(diǎn):有好的可解釋性
MEMM
最大熵隱含馬爾科夫
CRF
條件隨機(jī)場(chǎng)
條件隨機(jī)場(chǎng)假設(shè)輸出變量構(gòu)成馬爾科夫隨機(jī)場(chǎng),而我們平時(shí)看到的大多是線(xiàn)性鏈條隨機(jī)場(chǎng),也就是由輸入對(duì)輸出進(jìn)行預(yù)測(cè)的判別模型。求解方法為極大似然估計(jì)或正則化的極大似然估計(jì)。
問(wèn):為什么Bi-LSTM+CRF效果好?
LSTM的優(yōu)點(diǎn)是能夠通過(guò)雙向的設(shè)置學(xué)習(xí)到觀(guān)測(cè)序列(輸入的字)之間的依賴(lài),在訓(xùn)練過(guò)程中,LSTM能夠根據(jù)目標(biāo)(比如識(shí)別實(shí)體)自動(dòng)提取觀(guān)測(cè)序列的特征,但是缺點(diǎn)是無(wú)法學(xué)習(xí)到狀態(tài)序列(輸出的標(biāo)注)之間的關(guān)系,要知道,在命名實(shí)體識(shí)別任務(wù)中,標(biāo)注之間是有一定的關(guān)系的,比如B類(lèi)標(biāo)注(表示某實(shí)體的開(kāi)頭)后面不會(huì)再接一個(gè)B類(lèi)標(biāo)注,所以L(fǎng)STM在解決NER這類(lèi)序列標(biāo)注任務(wù)時(shí),雖然可以省去很繁雜的特征工程,但是也存在無(wú)法學(xué)習(xí)到標(biāo)注上下文的缺點(diǎn)。相反,CRF的優(yōu)點(diǎn)就是能對(duì)隱含狀態(tài)建模。所以一般的做法是,在LSTM后面再加一層CRF,以獲得兩者的優(yōu)點(diǎn)。
CRF其實(shí)是在LSTM已經(jīng)學(xué)習(xí)到發(fā)射概率矩陣的基礎(chǔ)上學(xué)習(xí)一個(gè)轉(zhuǎn)移概率矩陣
lstm在序列標(biāo)注的問(wèn)題,落實(shí)到題主說(shuō)的ner,也就是一個(gè)seq2seq,在英文中,可以是對(duì)每一個(gè)input的單詞,對(duì)例如bieo的四個(gè)標(biāo)簽進(jìn)行預(yù)測(cè),假設(shè)當(dāng)前輸出的事100個(gè)words,那個(gè)輸出的就是100*4的一個(gè)概率預(yù)測(cè),這應(yīng)該就是答主的疑惑,我們直接用一個(gè)分類(lèi)器,四個(gè)里面選一個(gè)就好了,為什么要再接crf呢?那么,我們首先考慮我們使用lstm的初衷,就是為了考慮上下文來(lái)分析當(dāng)前的tag標(biāo)注,其實(shí)crf也是接近的原理,crf意會(huì)一點(diǎn)的描述其實(shí)有點(diǎn)像一張概率圖,在single crf中,你需要做的是盡可能的對(duì)每個(gè)對(duì)象挖掘多的特征,然后學(xué)習(xí)他們之間的一種“銜接”關(guān)系,在lstm后面加上crf,相當(dāng)于對(duì)lstm抽象過(guò)的一種語(yǔ)言關(guān)系來(lái)進(jìn)行crf訓(xùn)練
問(wèn):CRF與HMM的異同
CRF與HMM都是概率圖模型,HMM是生成模型,需要求得的是聯(lián)合概率分布,即上帝視角,是基于統(tǒng)計(jì)得到發(fā)射矩陣和轉(zhuǎn)移矩陣。CRF屬于判別式模型,不需要這些上帝信息,CRF的學(xué)習(xí)參數(shù)是特征函數(shù)的權(quán)重w。
問(wèn):CRF與MEMM的異同
1、首先二者都是概率圖模型
2、MEMM求解是局部最優(yōu),CRF求解是全局最優(yōu)
3、由于MEMM求解是局部最優(yōu),故存在標(biāo)簽偏置現(xiàn)象(label bias)
CRF不僅解決了HMM輸出獨(dú)立性假設(shè)的問(wèn)題,還解決了MEMM的標(biāo)注偏置問(wèn)題,MEMM容易陷入局部最優(yōu)是因?yàn)橹辉诰植孔鰵w一化,而CRF統(tǒng)計(jì)了全局概率,在做歸一化時(shí)考慮了數(shù)據(jù)在全局的分布,而不是僅僅在局部歸一化,這樣就解決了MEMM中的標(biāo)記偏置的問(wèn)題。使得序列標(biāo)注的解碼變得最優(yōu)解。

