WWW 2017|知識(shí)庫(kù)支持下的歸類實(shí)體與關(guān)系聯(lián)合抽取

實(shí)體以及它們之間關(guān)系的抽取對(duì)于理解海量文本語(yǔ)料庫(kù)來(lái)說(shuō)是非常重要的。傳統(tǒng)的實(shí)體關(guān)系抽取系統(tǒng)都依賴于人工標(biāo)注的訓(xùn)練語(yǔ)料并采用了增量式的處理管道。這樣的系統(tǒng)在面對(duì)新的領(lǐng)域語(yǔ)料時(shí)需要額外的人類專家進(jìn)行標(biāo)注,而且在管道框架中上游模塊產(chǎn)生的錯(cuò)誤容易累積影響下游模塊的效果。因此,本文提出了一種利用知識(shí)庫(kù)啟發(fā)式獲取標(biāo)注數(shù)據(jù)的實(shí)體與關(guān)系聯(lián)合抽取框架。

論文地址:

https://arxiv.org/pdf/1610.08763.pdf

論文代碼:

https://github.com/INK-USC/DS-RelationExtraction

引言

識(shí)別出文本中的實(shí)體并對(duì)其進(jìn)行歸類,與此同時(shí)標(biāo)記實(shí)體間的關(guān)系是從文本語(yǔ)料中提取結(jié)構(gòu)化信息的關(guān)鍵。傳統(tǒng)的信息抽取系統(tǒng)傾向于把整個(gè)流程切分成數(shù)個(gè)子任務(wù),如從文中發(fā)現(xiàn)實(shí)體,標(biāo)注實(shí)體類型,然后抽取它們之間的關(guān)系。這樣的系統(tǒng)會(huì)獨(dú)立處理每個(gè)子任務(wù),所以上游任務(wù)有可能把產(chǎn)生的錯(cuò)誤傳導(dǎo)到下游任務(wù)中。此外,在聯(lián)合抽取任務(wù)中的一大挑戰(zhàn)就是如何設(shè)計(jì)一個(gè)與領(lǐng)域無(wú)關(guān)的系統(tǒng)以應(yīng)對(duì)不同領(lǐng)域內(nèi)缺乏人工標(biāo)注的數(shù)據(jù)集。當(dāng)前大量出現(xiàn)的各種特定領(lǐng)域的文本語(yǔ)料庫(kù)急需能在僅有少量或沒有人工標(biāo)注監(jiān)督的情況下進(jìn)行聯(lián)合抽取的方法。

圖 1:知識(shí)庫(kù)支持下的信息抽取

本論文中,作者為了解決上述問(wèn)題,提出了“知識(shí)庫(kù)支持下的歸類實(shí)體與關(guān)系聯(lián)合抽取”,即簡(jiǎn)稱為“COTYPE”,主要貢獻(xiàn)在于以下四個(gè)方面:

1.提出一種新型的遠(yuǎn)程監(jiān)督框架---COTYPE,用于在特定領(lǐng)域語(yǔ)料庫(kù)中最小化使用語(yǔ)言學(xué)假設(shè)的情況下抽取實(shí)體以及相關(guān)關(guān)系,具體如下圖2:

圖 2:COTYPE框架總覽

2.設(shè)計(jì)了一個(gè)與領(lǐng)域無(wú)關(guān)的文本分割算法用于識(shí)別實(shí)體條目(Entity Mention);

3.設(shè)計(jì)了一個(gè)抗噪聲的聯(lián)合嵌入目標(biāo)函數(shù)來(lái)對(duì)條目之間的關(guān)系,條目-文本特征之間的共現(xiàn),以及實(shí)體-關(guān)系間的交叉約束進(jìn)行建模;

4.在三個(gè)公共數(shù)據(jù)集上的實(shí)驗(yàn)表明COTYPE顯著地提升了SOTA在實(shí)體歸類以及關(guān)系抽取的表現(xiàn),展示了其領(lǐng)域無(wú)關(guān)性。

數(shù)據(jù)集

本論文采用NYT、Wiki-KBP和BioInfer作為數(shù)據(jù)集,數(shù)據(jù)集特性如下表1:

表 1: Dataset Statistics

表 1: Dataset Statistics

1.NYT:訓(xùn)練語(yǔ)料包括從1987至2007年見紐約時(shí)報(bào)(New York Times)大概294k篇新聞中抽取的1.18M個(gè)句子。此外有395個(gè)句子由人工標(biāo)注用作測(cè)試數(shù)據(jù)。

2.Wiki-KBP:從大約780k篇維基百科文章中抽取的1.5M個(gè)句子用作訓(xùn)練集,此外有14k條人工標(biāo)注的數(shù)據(jù)用作測(cè)試集。

3.BioInfer:包含1530段手工標(biāo)注的生物醫(yī)學(xué)論文摘要充當(dāng)?shù)臏y(cè)試數(shù)據(jù),以及100k段從PubMed論文中抽取的摘要充當(dāng)訓(xùn)練數(shù)據(jù)。

COTYPE框架

本文提出了一個(gè)結(jié)合遠(yuǎn)程監(jiān)督的基于嵌入的框架,概要介紹參考圖2:

1.利用知識(shí)庫(kù)中的正樣例,在帶有POS信息的語(yǔ)料庫(kù)D中運(yùn)行POS約束下的文本分割算法,識(shí)別出候選實(shí)體條目集M。我們把這一階段命名為實(shí)體條目識(shí)別(Entity Mention Detection)。傳統(tǒng)的實(shí)體識(shí)別系統(tǒng)依靠一系列語(yǔ)言學(xué)特征(如句子依存分析)來(lái)訓(xùn)練一個(gè)序列標(biāo)注模型。但是這種方法在遠(yuǎn)程監(jiān)督生成的自動(dòng)標(biāo)注數(shù)據(jù)庫(kù)中使用顯然是不合適的,因?yàn)檫h(yuǎn)程監(jiān)督生成的數(shù)據(jù)中僅有相當(dāng)小的一部分被標(biāo)注為正樣例,大量實(shí)體未得到標(biāo)注。因此一個(gè)與領(lǐng)域無(wú)關(guān)的文本分割算法用于定位實(shí)體是很有必要的。本文的思路是通過(guò)挖掘固定長(zhǎng)度的word sequence和POS tag sequence,結(jié)合語(yǔ)料庫(kù)級(jí)別的特征和句子級(jí)別的詞匯信息來(lái)訓(xùn)練兩個(gè)隨機(jī)森林分類器,分別評(píng)估候選word sequence以及候選POS tag sequence的質(zhì)量,再加權(quán)得到當(dāng)前分割狀態(tài)的得分。

然后通過(guò)最大化“聯(lián)合切分得分”(Joint Segmentation Quality)來(lái)找到整個(gè)輸入文本最合適的切分方法?!奥?lián)合切分得分”的表達(dá)式為:,其中代表著當(dāng)前切分(在文本中起始位置為結(jié)束位置為的word sequence)

2.從M中生成候選關(guān)系條目集Z,對(duì)其中每個(gè)關(guān)系條目以及對(duì)應(yīng)的實(shí)體條目參數(shù)抽取文本特征。然后利用遠(yuǎn)程監(jiān)督生成標(biāo)注數(shù)據(jù)集。本框架利用的文本特征如下表:

表 2: 本文所用文本特征,參考輸入句子“Honolulu native Barack Obama was elected President of the United States on March 20 in 2008.”

3.聯(lián)合對(duì)關(guān)系、實(shí)體、文本特征和類型標(biāo)簽進(jìn)行嵌入計(jì)算,將其嵌入到2個(gè)低維空間中(分別對(duì)應(yīng)實(shí)體與關(guān)系)。在這些低維空間中,相近的元素一般共享著同樣的類型。這一切都基于三個(gè)假設(shè)。假設(shè)1(Mention-Feature Co-occurrence):當(dāng)兩個(gè)實(shí)體條目擁有較多共同的文本特征時(shí),它們傾向于屬于同一個(gè)類型(在低維空間中相近),反之亦然。假設(shè)2(Partial-Label Association):一個(gè)關(guān)系條目的嵌入向量應(yīng)該與跟它最相關(guān)的候選類型,比其它不相關(guān)的候選類型更接近。假設(shè)3(Entity-Relation Interaction):對(duì)于一個(gè)關(guān)系條目,的嵌入向量應(yīng)該與的嵌入向量以及關(guān)系的嵌入向量和相近?;谶@三個(gè)假設(shè),本文提出了3個(gè)不同的建模目標(biāo)函數(shù)。第一個(gè)是關(guān)系類型建模:

其中是語(yǔ)料庫(kù)級(jí)別的損失,是句子級(jí)別的損失。第二個(gè)是實(shí)體類型建模,與關(guān)系類型建模類似:

第三個(gè)是聯(lián)合模型:

其中,是負(fù)采樣集合。最終的優(yōu)化目標(biāo)函數(shù)為:

整個(gè)訓(xùn)練算法如下:

4.通過(guò)最鄰查找在學(xué)習(xí)得來(lái)的嵌入向量中對(duì)每個(gè)關(guān)系條目測(cè)試樣例預(yù)測(cè)類型標(biāo)簽,以及對(duì)每個(gè)實(shí)體條目測(cè)試樣例預(yù)測(cè)類型路徑}Y?。

實(shí)驗(yàn)結(jié)果

作者在NYT,Wiki-KBP,BioInfer三個(gè)數(shù)據(jù)集上分別做了實(shí)體檢測(cè)、關(guān)系抽取、end-to-end關(guān)系抽取的對(duì)比實(shí)驗(yàn),都有比較大的提升。

表 3:實(shí)體識(shí)別與歸類對(duì)比實(shí)驗(yàn)

表 4:關(guān)系分類對(duì)比實(shí)驗(yàn)(Accuracy)

表 5:端到端關(guān)系抽取對(duì)比實(shí)驗(yàn)

結(jié)論

本文利用Distant Supervision和Weakly Supervision實(shí)現(xiàn)了一個(gè)對(duì)文本中的實(shí)體與關(guān)系聯(lián)合抽取的框架,整個(gè)過(guò)程中極大地減少了人工標(biāo)注成本,同時(shí)具備很強(qiáng)的領(lǐng)域遷移性。端到端的抽取降低了錯(cuò)誤隨管道流轉(zhuǎn)的可能性。唯一值得詬病的可能是其中的text feature是涉及到了人為設(shè)計(jì)的方面,后續(xù)的改進(jìn)應(yīng)該會(huì)使用深度神經(jīng)網(wǎng)絡(luò)代替這種人為的特征工程。

掃碼識(shí)別關(guān)注,獲取更多新鮮論文解讀

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容