概率圖模型

https://zhuanlan.zhihu.com/p/33397147
https://www.bilibili.com/video/av52273255/
概率圖模型(probabilistic graphical model, PGM)指用圖表示變量相關(guān)(依賴(lài))關(guān)系的概率模型,主要分為兩類(lèi):

  • 有向圖模型或貝葉斯網(wǎng)(Bayesian network),使用有向圖表示變量間的依賴(lài)關(guān)系;
  • 無(wú)向圖模型或馬爾可夫網(wǎng)(Markov network),使用無(wú)向圖表示變量間相關(guān)關(guān)系。


監(jiān)督學(xué)習(xí)的任務(wù)就是學(xué)習(xí)一個(gè)模型,對(duì)于給定的輸入X,能預(yù)測(cè)出類(lèi)別Y。所學(xué)習(xí)到的模型一般可表示為決策函數(shù):
\begin{equation} Y = f(X) \label{eq:deci} \end{equation}或者條件概率\begin{equation} \arg \mathop{max}\limits_{Y} P(Y|X) \label{eq:cond} \end{equation}
監(jiān)督學(xué)習(xí)的模型分為生成模型(generative model)與判別模型(discriminative model)生成模型學(xué)習(xí)聯(lián)合概率分布P(X, Y),然后通過(guò)貝葉斯定理求解條件概率,而判別模型則是直接學(xué)習(xí)決策函數(shù)或條件概率。

HMM

HMM適用于以下情況:①問(wèn)題是基于序列的,如時(shí)間序列、狀態(tài)序列 ②問(wèn)題有兩類(lèi)數(shù)據(jù):一類(lèi)是可觀(guān)測(cè)到的,即觀(guān)測(cè)序列;一類(lèi)是不可觀(guān)測(cè)到的,即隱藏轉(zhuǎn)態(tài)序列。
HMM基于以下兩個(gè)假設(shè):齊次馬爾科夫鏈假設(shè):即任意時(shí)刻的隱藏狀態(tài)只依賴(lài)于它前一個(gè)隱藏狀態(tài),即從時(shí)刻t到時(shí)刻t+1的狀態(tài)轉(zhuǎn)移概率a_{ij}a_{ij} = P(i_{t+1} = q_j | i_t= q_i)
觀(guān)測(cè)獨(dú)立性假設(shè),即任意時(shí)刻的觀(guān)察狀態(tài)只僅僅依賴(lài)于當(dāng)前時(shí)刻的隱藏狀態(tài),即觀(guān)測(cè)狀態(tài)v_k在隱藏轉(zhuǎn)態(tài)q_j下生成的概率為P(v_k|q_j)

HMM屬于生成模型的有向圖PGM,通過(guò)聯(lián)合概率建模:
P(S,O) = \prod_{t=1}^{n}P(s_t|s_{t-1})P(o_t|s_t)其中,S、O分別表示狀態(tài)序列與觀(guān)測(cè)序列。HMM的解碼問(wèn)題為\arg \mathop{max}\limits_{S} P(S|O);定義在時(shí)刻t狀態(tài)為s的所有單個(gè)路徑s^t_1中的概率最大值為\delta_t(s) = \max P(s_1^{t-1}, o_1^{t}, s_t=s),則有
\begin{aligned} \delta_{t+1}(s) & = \max P(s_1^{t}, o_1^{t+1}, s_{t+1}=s) \\ & = \max_{s'} P(s_1^{t-1}, o_1^{t}, s_t=s') P(s_{t+1}|s_t) P(o_{t+1}|s_{t+1}) \\ & = \max_{s'} [\delta_t(s') P(s|s')] P(o_{t+1}|s) \end{aligned}
此即為維特比算法遞推式,可以看出HMM是通過(guò)聯(lián)合概率來(lái)求解標(biāo)注問(wèn)題的。

HMM缺點(diǎn):不適合處理大規(guī)模數(shù)據(jù)
HMM優(yōu)點(diǎn):有好的可解釋性

MEMM
最大熵隱含馬爾科夫

CRF
條件隨機(jī)場(chǎng)
條件隨機(jī)場(chǎng)假設(shè)輸出變量構(gòu)成馬爾科夫隨機(jī)場(chǎng),而我們平時(shí)看到的大多是線(xiàn)性鏈條隨機(jī)場(chǎng),也就是由輸入對(duì)輸出進(jìn)行預(yù)測(cè)的判別模型。求解方法為極大似然估計(jì)或正則化的極大似然估計(jì)。


問(wèn):為什么Bi-LSTM+CRF效果好?
LSTM的優(yōu)點(diǎn)是能夠通過(guò)雙向的設(shè)置學(xué)習(xí)到觀(guān)測(cè)序列(輸入的字)之間的依賴(lài),在訓(xùn)練過(guò)程中,LSTM能夠根據(jù)目標(biāo)(比如識(shí)別實(shí)體)自動(dòng)提取觀(guān)測(cè)序列的特征,但是缺點(diǎn)是無(wú)法學(xué)習(xí)到狀態(tài)序列(輸出的標(biāo)注)之間的關(guān)系,要知道,在命名實(shí)體識(shí)別任務(wù)中,標(biāo)注之間是有一定的關(guān)系的,比如B類(lèi)標(biāo)注(表示某實(shí)體的開(kāi)頭)后面不會(huì)再接一個(gè)B類(lèi)標(biāo)注,所以L(fǎng)STM在解決NER這類(lèi)序列標(biāo)注任務(wù)時(shí),雖然可以省去很繁雜的特征工程,但是也存在無(wú)法學(xué)習(xí)到標(biāo)注上下文的缺點(diǎn)。相反,CRF的優(yōu)點(diǎn)就是能對(duì)隱含狀態(tài)建模。所以一般的做法是,在LSTM后面再加一層CRF,以獲得兩者的優(yōu)點(diǎn)。
CRF其實(shí)是在LSTM已經(jīng)學(xué)習(xí)到發(fā)射概率矩陣的基礎(chǔ)上學(xué)習(xí)一個(gè)轉(zhuǎn)移概率矩陣
lstm在序列標(biāo)注的問(wèn)題,落實(shí)到題主說(shuō)的ner,也就是一個(gè)seq2seq,在英文中,可以是對(duì)每一個(gè)input的單詞,對(duì)例如bieo的四個(gè)標(biāo)簽進(jìn)行預(yù)測(cè),假設(shè)當(dāng)前輸出的事100個(gè)words,那個(gè)輸出的就是100*4的一個(gè)概率預(yù)測(cè),這應(yīng)該就是答主的疑惑,我們直接用一個(gè)分類(lèi)器,四個(gè)里面選一個(gè)就好了,為什么要再接crf呢?那么,我們首先考慮我們使用lstm的初衷,就是為了考慮上下文來(lái)分析當(dāng)前的tag標(biāo)注,其實(shí)crf也是接近的原理,crf意會(huì)一點(diǎn)的描述其實(shí)有點(diǎn)像一張概率圖,在single crf中,你需要做的是盡可能的對(duì)每個(gè)對(duì)象挖掘多的特征,然后學(xué)習(xí)他們之間的一種“銜接”關(guān)系,在lstm后面加上crf,相當(dāng)于對(duì)lstm抽象過(guò)的一種語(yǔ)言關(guān)系來(lái)進(jìn)行crf訓(xùn)練


問(wèn):CRF與HMM的異同
CRF與HMM都是概率圖模型,HMM是生成模型,需要求得的是聯(lián)合概率分布,即上帝視角,是基于統(tǒng)計(jì)得到發(fā)射矩陣和轉(zhuǎn)移矩陣。CRF屬于判別式模型,不需要這些上帝信息,CRF的學(xué)習(xí)參數(shù)是特征函數(shù)的權(quán)重w


問(wèn):CRF與MEMM的異同
1、首先二者都是概率圖模型
2、MEMM求解是局部最優(yōu),CRF求解是全局最優(yōu)
3、由于MEMM求解是局部最優(yōu),故存在標(biāo)簽偏置現(xiàn)象(label bias)
CRF不僅解決了HMM輸出獨(dú)立性假設(shè)的問(wèn)題,還解決了MEMM的標(biāo)注偏置問(wèn)題,MEMM容易陷入局部最優(yōu)是因?yàn)橹辉诰植孔鰵w一化,而CRF統(tǒng)計(jì)了全局概率,在做歸一化時(shí)考慮了數(shù)據(jù)在全局的分布,而不是僅僅在局部歸一化,這樣就解決了MEMM中的標(biāo)記偏置的問(wèn)題。使得序列標(biāo)注的解碼變得最優(yōu)解。

參考:https://zhuanlan.zhihu.com/p/33397147

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容