任務(wù):關(guān)系抽取
來(lái)源:EMNLP 2015
引言:
這一篇論文的工作是在Zeng 2014基礎(chǔ)上的擴(kuò)展(Zeng那篇論文的解析http://www.itdecent.cn/p/f4a9c2fd733c),從Fully Supervised 到Distant Supervised。
這一篇論文使用的模型框架還是一個(gè)簡(jiǎn)簡(jiǎn)單單的CNN模型,主要有2點(diǎn)改進(jìn):(1)在Zeng 2014的CNN模型基礎(chǔ)上,采用了Piece Wise CNN(PCNN),改進(jìn)了原來(lái)的全局max pooling,做了局部的max pooling;(2)使用多實(shí)例學(xué)習(xí)Multi Instance Learning(MIL)解決遠(yuǎn)程監(jiān)督標(biāo)注數(shù)據(jù)的大量噪聲數(shù)據(jù)的影響。
遠(yuǎn)程監(jiān)督:
全監(jiān)督方法都是在完全正確的標(biāo)注數(shù)據(jù)集上來(lái)做的,因此數(shù)據(jù)量很小。所以,為了能夠擴(kuò)充數(shù)據(jù)集,遠(yuǎn)程監(jiān)督標(biāo)注數(shù)據(jù)集的方法應(yīng)運(yùn)而生。Distant Supervision可以自動(dòng)標(biāo)注訓(xùn)練樣本的原理很簡(jiǎn)單,它利用知識(shí)圖譜中的兩個(gè)entity以及這兩個(gè)entity對(duì)應(yīng)的relation,在大量文本中進(jìn)行回標(biāo)。如果某個(gè)句子中同時(shí)包含了這兩個(gè)entity,那么就假定這個(gè)句子中的這兩個(gè)實(shí)體描述了上述的relation,這樣就可以獲得大量的標(biāo)注數(shù)據(jù)了。
論文整體架構(gòu):

模型整體架構(gòu)如上圖,和Zeng 2014模型一樣,輸入依然是兩個(gè)位置向量和word本身的詞向量拼接在一起作為輸入,后面接卷積操作。
PCNN:
原來(lái)的CNN是對(duì)整個(gè)句子做卷積,然后對(duì)卷積后的向量做max pooling,即全局max pooling;而本論文中,采取了局部max pooling,即把一個(gè)句子分為三部分,以兩個(gè)entity為邊界把句子分為三段,然后卷積之后對(duì)每一段取max pooling, 這樣便可以得到三個(gè)值,相比傳統(tǒng)的max-pooling 每個(gè)卷積核只能得到一個(gè)值,這樣可以更加充分有效的得到句子特征信息。
Multi Instance Learning:
上面引言中有提到遠(yuǎn)程監(jiān)督獲取大量標(biāo)注數(shù)據(jù)的方法,很明顯這種方法會(huì)產(chǎn)生大量的噪聲數(shù)據(jù),因?yàn)橛械木渥涌赡懿⒉皇敲枋鲈撝衦elation的。
所以,為了緩解這種錯(cuò)誤標(biāo)注數(shù)據(jù)的影響,Multi Instance Learning(MIL)多實(shí)例學(xué)習(xí)出現(xiàn)了!它把描述同樣的2個(gè)實(shí)體的句子組成一個(gè)bag,之前是給每個(gè)句子都硬性分配一個(gè)relation(即知識(shí)圖譜中的relation),而現(xiàn)在是給這個(gè)bag標(biāo)注一個(gè)對(duì)應(yīng)的relation。MIL有一個(gè)At-Least-One 的假設(shè):包含兩個(gè)entity的所有句子中即一個(gè)bag,至少有一個(gè)句子可以正確描述該bag的relation。
所以,模型在bag中選擇一個(gè)最大概率描述該bag標(biāo)注的relation的句子進(jìn)行模型的訓(xùn)練,bag中其他的數(shù)據(jù)都不參加訓(xùn)練,這樣,訓(xùn)練數(shù)據(jù)的標(biāo)注大部分便都是正確的了。通過(guò)參考代碼,這部分的做法主要是先把狀態(tài)調(diào)為model.eval(),然后把bag里的句子輸入模型中進(jìn)行預(yù)測(cè),得到每個(gè)句子對(duì)應(yīng)每個(gè)預(yù)測(cè)關(guān)系的概率向量,因?yàn)槲覀兪侵纀ag的標(biāo)簽relation的,所以,找到bag中每個(gè)句子對(duì)應(yīng)該relation位置上的概率,通過(guò)比較,該位置上概率得分最高的便是我們需要選擇的句子。
模型實(shí)驗(yàn)結(jié)果及總結(jié):

可以看到,模型的兩種改進(jìn)方法的確都有效果。
這篇文章在NYT + FreeBase 數(shù)據(jù)集上是比較好的效果了,它也是第一篇使用PCNN+Multi Instance Learning來(lái)處理Distant Supervision 的關(guān)系抽取。解決遠(yuǎn)程監(jiān)督噪聲數(shù)據(jù)的問(wèn)題也是后續(xù)很多論文中的主要改進(jìn)方向,例如對(duì)bag中的多實(shí)例做average、attention處理等,應(yīng)用強(qiáng)化學(xué)習(xí)的方法進(jìn)行遠(yuǎn)程監(jiān)督噪聲數(shù)據(jù)的濾除等等。