看了李航老師的《統(tǒng)計學(xué)習(xí)方法》中的條件隨機場,完全是一頭霧水;國外有一個很著名的條件隨機場的教程,是英文的,原文在這里[http://blog.echen.me/2012/01/03/introduction-to-conditional-random-fields/],英文版太長,又不想看,不過幸好在簡書上找到一個比較容易理解的入門小教程,原文在這里:http://www.itdecent.cn/p/55755fc649b1
假設(shè)你有許多小明同學(xué)一天內(nèi)不同時段的照片,從小明提褲子起床到脫褲子睡覺各個時間段都有(小明是照片控?。,F(xiàn)在的任務(wù)是對這些照片進行分類。比如有的照片是吃飯,那就給它打上吃飯的標(biāo)簽;有的照片是跑步時拍的,那就打上跑步的標(biāo)簽;有的照片是開會時拍的,那就打上開會的標(biāo)簽。問題來了,你準(zhǔn)備怎么干?
一個簡單直觀的辦法就是,不管這些照片之間的時間順序,想辦法訓(xùn)練出一個多元分類器。就是用一些打好標(biāo)簽的照片作為訓(xùn)練數(shù)據(jù),訓(xùn)練出一個模型,直接根據(jù)照片的特征來分類。例如,如果照片是早上6:00拍的,且畫面是黑暗的,那就給它打上睡覺的標(biāo)簽;如果照片上有車,那就給它打上開車的標(biāo)簽。
這樣可行嗎?
乍一看可以!但實際上,由于我們忽略了這些照片之間的時間順序這一重要信息,我們的分類器會有缺陷的。舉個例子,假如有一張小明閉著嘴的照片,怎么分類?顯然難以直接判斷,需要參考閉嘴之前的照片,如果之前的照片顯示小明在吃飯,那這個閉嘴的照片很可能是小明在咀嚼食物準(zhǔn)備下咽,可以給它打上吃飯的標(biāo)簽;如果之前的照片顯示小明在唱歌,那這個閉嘴的照片很可能是小明唱歌瞬間的抓拍,可以給它打上唱歌的標(biāo)簽。
所以,為了讓我們的分類器能夠有更好的表現(xiàn),在為一張照片分類時,我們必須將與它相鄰的照片的標(biāo)簽信息考慮進來。這——就是條件隨機場(CRF)大顯身手的地方!
CRF與詞性標(biāo)注
啥是詞性標(biāo)注問題?
非常簡單的,就是給一個句子中的每個單詞注明詞性。比如這句話:“Bob drank coffee at Starbucks”,注明每個單詞的詞性后是這樣的:“Bob (名詞) drank(動詞) coffee(名詞) at(介詞) Starbucks(名詞)”。
下面,就用條件隨機場來解決這個問題。
以上面的話為例,有5個單詞,我們將:(名詞,動詞,名詞,介詞,名詞)作為一個標(biāo)注序列,稱為l,可選的標(biāo)注序列有很多種,比如l還可以是這樣:(名詞,動詞,動詞,介詞,名詞),我們要在這么多的可選標(biāo)注序列中,挑選出一個最靠譜的作為我們對這句話的標(biāo)注。
怎么判斷一個標(biāo)注序列靠譜不靠譜呢?
就我們上面展示的兩個標(biāo)注序列來說,第二個顯然不如第一個靠譜,因為它把第二、第三個單詞都標(biāo)注成了動詞,動詞后面接動詞,這在一個句子中通常是說不通的。
假如我們給每一個標(biāo)注序列打分,打分越高代表這個標(biāo)注序列越靠譜,我們至少可以說,凡是標(biāo)注中出現(xiàn)了動詞后面還是動詞的標(biāo)注序列,要給它負(fù)分!!
上面所說的動詞后面還是動詞就是一個特征函數(shù),我們可以定義一個特征函數(shù)集合,用這個特征函數(shù)集合來為一個標(biāo)注序列打分,并據(jù)此選出最靠譜的標(biāo)注序列。也就是說,每一個特征函數(shù)都可以用來為一個標(biāo)注序列評分,把集合中所有特征函數(shù)對同一個標(biāo)注序列的評分綜合起來,就是這個標(biāo)注序列最終的評分值。
CRF中的特征函數(shù)
現(xiàn)在,我們正式地定義一下什么是CRF中的特征函數(shù),所謂特征函數(shù),就是這樣的函數(shù),它接受四個參數(shù):
句子s(就是我們要標(biāo)注詞性的句子)
i,用來表示句子s中第i個單詞
l_i,表示要評分的標(biāo)注序列給第i個單詞標(biāo)注的詞性
l_i-1,表示要評分的標(biāo)注序列給第i-1個單詞標(biāo)注的詞性
它的輸出值是0或者1,0表示要評分的標(biāo)注序列不符合這個特征,1表示要評分的標(biāo)注序列符合這個特征。
定義好一組特征函數(shù)后,我們要給每個特征函數(shù)f_j賦予一個權(quán)重λ_j?,F(xiàn)在,只要有一個句子s,有一個標(biāo)注序列l(wèi),我們就可以利用前面定義的特征函數(shù)集來對l評分。

上式中有兩個求和,外面的求和用來求每一個特征函數(shù)f_j評分值的和,里面的求和用來求句子中每個位置的單詞的的特征值的和。
對這個分?jǐn)?shù)進行指數(shù)化和標(biāo)準(zhǔn)化,我們就可以得到標(biāo)注序列l(wèi)的概率值p(l|s),如下所示:

幾個特征函數(shù)的例子
下面我們再看幾個具體的例子,幫助增強大家的感性認(rèn)識。

當(dāng)l_i是“副詞”并且第i個單詞以“l(fā)y”結(jié)尾時,我們就讓f1 = 1,其他情況f1為0。不難想到,f1特征函數(shù)的權(quán)重λ1應(yīng)當(dāng)是正的。而且λ1越大,表示我們越傾向于采用那些把以“l(fā)y”結(jié)尾的單詞標(biāo)注為“副詞”的標(biāo)注序列

如果i=1,l_i=動詞,并且句子s是以“?”結(jié)尾時,f2=1,其他情況f2=0。同樣,λ2應(yīng)當(dāng)是正的,并且λ2越大,表示我們越傾向于采用那些把問句的第一個單詞標(biāo)注為“動詞”的標(biāo)注序列。

當(dāng)l_i-1是介詞,l_i是名詞時,f3 = 1,其他情況f3=0。λ3也應(yīng)當(dāng)是正的,并且λ3越大,說明我們越認(rèn)為介詞后面應(yīng)當(dāng)跟一個名詞。

如果l_i和l_i-1都是介詞,那么f4等于1,其他情況f4=0。這里,我們應(yīng)當(dāng)可以想到λ4是負(fù)的,并且λ4的絕對值越大,表示我們越不認(rèn)可介詞后面還是介詞的標(biāo)注序列。
好了,一個條件隨機場就這樣建立起來了,讓我們總結(jié)一下:
為了建一個條件隨機場,我們首先要定義一個特征函數(shù)集,每個特征函數(shù)都以整個句子s,當(dāng)前位置i,位置i和i-1的標(biāo)簽為輸入。然后為每一個特征函數(shù)賦予一個權(quán)重,然后針對每一個標(biāo)注序列l(wèi),對所有的特征函數(shù)加權(quán)求和,必要的話,可以把求和的值轉(zhuǎn)化為一個概率值。