五月婷婷精品影视,大胆久久视频

實(shí)體以及它們之間關(guān)系的抽取對(duì)于理解海量文本語(yǔ)料庫(kù)來(lái)說(shuō)是非常重要的。傳統(tǒng)的實(shí)體關(guān)系抽取系統(tǒng)都依賴于人工標(biāo)注的訓(xùn)練語(yǔ)料并采用了增量式的處理管道。這樣的系統(tǒng)在面對(duì)新的領(lǐng)域語(yǔ)料時(shí)需要額外的人類專家進(jìn)行標(biāo)注，而且在管道框架中上游模塊產(chǎn)生的錯(cuò)誤容易累積影響下游模塊的效果。因此，本文提出了一種利用知識(shí)庫(kù)啟發(fā)式獲取標(biāo)注數(shù)據(jù)的實(shí)體與關(guān)系聯(lián)合抽取框架。

論文地址:

https://arxiv.org/pdf/1610.08763.pdf

論文代碼:

https://github.com/INK-USC/DS-RelationExtraction

引言

識(shí)別出文本中的實(shí)體并對(duì)其進(jìn)行歸類，與此同時(shí)標(biāo)記實(shí)體間的關(guān)系是從文本語(yǔ)料中提取結(jié)構(gòu)化信息的關(guān)鍵。傳統(tǒng)的信息抽取系統(tǒng)傾向于把整個(gè)流程切分成數(shù)個(gè)子任務(wù)，如從文中發(fā)現(xiàn)實(shí)體，標(biāo)注實(shí)體類型，然后抽取它們之間的關(guān)系。這樣的系統(tǒng)會(huì)獨(dú)立處理每個(gè)子任務(wù)，所以上游任務(wù)有可能把產(chǎn)生的錯(cuò)誤傳導(dǎo)到下游任務(wù)中。此外，在聯(lián)合抽取任務(wù)中的一大挑戰(zhàn)就是如何設(shè)計(jì)一個(gè)與領(lǐng)域無(wú)關(guān)的系統(tǒng)以應(yīng)對(duì)不同領(lǐng)域內(nèi)缺乏人工標(biāo)注的數(shù)據(jù)集。當(dāng)前大量出現(xiàn)的各種特定領(lǐng)域的文本語(yǔ)料庫(kù)急需能在僅有少量或沒有人工標(biāo)注監(jiān)督的情況下進(jìn)行聯(lián)合抽取的方法。

圖 1：知識(shí)庫(kù)支持下的信息抽取

本論文中，作者為了解決上述問(wèn)題，提出了“知識(shí)庫(kù)支持下的歸類實(shí)體與關(guān)系聯(lián)合抽取”，即簡(jiǎn)稱為“COTYPE”，主要貢獻(xiàn)在于以下四個(gè)方面：

1.提出一種新型的遠(yuǎn)程監(jiān)督框架---COTYPE，用于在特定領(lǐng)域語(yǔ)料庫(kù)中最小化使用語(yǔ)言學(xué)假設(shè)的情況下抽取實(shí)體以及相關(guān)關(guān)系，具體如下圖2：

圖 2：COTYPE框架總覽

2.設(shè)計(jì)了一個(gè)與領(lǐng)域無(wú)關(guān)的文本分割算法用于識(shí)別實(shí)體條目（Entity Mention）；

3.設(shè)計(jì)了一個(gè)抗噪聲的聯(lián)合嵌入目標(biāo)函數(shù)來(lái)對(duì)條目之間的關(guān)系，條目-文本特征之間的共現(xiàn)，以及實(shí)體-關(guān)系間的交叉約束進(jìn)行建模；

4.在三個(gè)公共數(shù)據(jù)集上的實(shí)驗(yàn)表明COTYPE顯著地提升了SOTA在實(shí)體歸類以及關(guān)系抽取的表現(xiàn)，展示了其領(lǐng)域無(wú)關(guān)性。

數(shù)據(jù)集

本論文采用NYT、Wiki-KBP和BioInfer作為數(shù)據(jù)集，數(shù)據(jù)集特性如下表1：

表 1: Dataset Statistics

1.NYT：訓(xùn)練語(yǔ)料包括從1987至2007年見紐約時(shí)報(bào)（New York Times）大概294k篇新聞中抽取的1.18M個(gè)句子。此外有395個(gè)句子由人工標(biāo)注用作測(cè)試數(shù)據(jù)。

2.Wiki-KBP：從大約780k篇維基百科文章中抽取的1.5M個(gè)句子用作訓(xùn)練集，此外有14k條人工標(biāo)注的數(shù)據(jù)用作測(cè)試集。

3.BioInfer：包含1530段手工標(biāo)注的生物醫(yī)學(xué)論文摘要充當(dāng)?shù)臏y(cè)試數(shù)據(jù)，以及100k段從PubMed論文中抽取的摘要充當(dāng)訓(xùn)練數(shù)據(jù)。

COTYPE框架

本文提出了一個(gè)結(jié)合遠(yuǎn)程監(jiān)督的基于嵌入的框架，概要介紹參考圖2：

1.利用知識(shí)庫(kù)中的正樣例，在帶有POS信息的語(yǔ)料庫(kù)D中運(yùn)行POS約束下的文本分割算法，識(shí)別出候選實(shí)體條目集M。我們把這一階段命名為實(shí)體條目識(shí)別（Entity Mention Detection）。傳統(tǒng)的實(shí)體識(shí)別系統(tǒng)依靠一系列語(yǔ)言學(xué)特征（如句子依存分析）來(lái)訓(xùn)練一個(gè)序列標(biāo)注模型。但是這種方法在遠(yuǎn)程監(jiān)督生成的自動(dòng)標(biāo)注數(shù)據(jù)庫(kù)中使用顯然是不合適的，因?yàn)檫h(yuǎn)程監(jiān)督生成的數(shù)據(jù)中僅有相當(dāng)小的一部分被標(biāo)注為正樣例，大量實(shí)體未得到標(biāo)注。因此一個(gè)與領(lǐng)域無(wú)關(guān)的文本分割算法用于定位實(shí)體是很有必要的。本文的思路是通過(guò)挖掘固定長(zhǎng)度的word sequence和POS tag sequence，結(jié)合語(yǔ)料庫(kù)級(jí)別的特征和句子級(jí)別的詞匯信息來(lái)訓(xùn)練兩個(gè)隨機(jī)森林分類器，分別評(píng)估候選word sequence以及候選POS tag sequence的質(zhì)量，再加權(quán)得到當(dāng)前分割狀態(tài)的得分。

然后通過(guò)最大化“聯(lián)合切分得分”（Joint Segmentation Quality）來(lái)找到整個(gè)輸入文本最合適的切分方法?！奥?lián)合切分得分”的表達(dá)式為：，其中代表著當(dāng)前切分（在文本中起始位置為結(jié)束位置為的word sequence）

2.從M中生成候選關(guān)系條目集Z，對(duì)其中每個(gè)關(guān)系條目以及對(duì)應(yīng)的實(shí)體條目參數(shù)抽取文本特征。然后利用遠(yuǎn)程監(jiān)督生成標(biāo)注數(shù)據(jù)集。本框架利用的文本特征如下表：

表 2: 本文所用文本特征，參考輸入句子“Honolulu native Barack Obama was elected President of the United States on March 20 in 2008.”

3.聯(lián)合對(duì)關(guān)系、實(shí)體、文本特征和類型標(biāo)簽進(jìn)行嵌入計(jì)算，將其嵌入到2個(gè)低維空間中（分別對(duì)應(yīng)實(shí)體與關(guān)系）。在這些低維空間中，相近的元素一般共享著同樣的類型。這一切都基于三個(gè)假設(shè)。假設(shè)1（Mention-Feature Co-occurrence）：當(dāng)兩個(gè)實(shí)體條目擁有較多共同的文本特征時(shí)，它們傾向于屬于同一個(gè)類型（在低維空間中相近），反之亦然。假設(shè)2（Partial-Label Association）：一個(gè)關(guān)系條目的嵌入向量應(yīng)該與跟它最相關(guān)的候選類型，比其它不相關(guān)的候選類型更接近。假設(shè)3（Entity-Relation Interaction）：對(duì)于一個(gè)關(guān)系條目，的嵌入向量應(yīng)該與的嵌入向量以及關(guān)系的嵌入向量和相近?；谶@三個(gè)假設(shè)，本文提出了3個(gè)不同的建模目標(biāo)函數(shù)。第一個(gè)是關(guān)系類型建模：

其中是語(yǔ)料庫(kù)級(jí)別的損失，是句子級(jí)別的損失。第二個(gè)是實(shí)體類型建模，與關(guān)系類型建模類似：

第三個(gè)是聯(lián)合模型：

其中，是負(fù)采樣集合。最終的優(yōu)化目標(biāo)函數(shù)為：

整個(gè)訓(xùn)練算法如下：

4.通過(guò)最鄰查找在學(xué)習(xí)得來(lái)的嵌入向量中對(duì)每個(gè)關(guān)系條目測(cè)試樣例預(yù)測(cè)類型標(biāo)簽，以及對(duì)每個(gè)實(shí)體條目測(cè)試樣例預(yù)測(cè)類型路徑}Y?。

實(shí)驗(yàn)結(jié)果

作者在NYT，Wiki-KBP，BioInfer三個(gè)數(shù)據(jù)集上分別做了實(shí)體檢測(cè)、關(guān)系抽取、end-to-end關(guān)系抽取的對(duì)比實(shí)驗(yàn)，都有比較大的提升。

表 3：實(shí)體識(shí)別與歸類對(duì)比實(shí)驗(yàn)

表 4：關(guān)系分類對(duì)比實(shí)驗(yàn)（Accuracy）

表 5：端到端關(guān)系抽取對(duì)比實(shí)驗(yàn)

結(jié)論

本文利用Distant Supervision和Weakly Supervision實(shí)現(xiàn)了一個(gè)對(duì)文本中的實(shí)體與關(guān)系聯(lián)合抽取的框架，整個(gè)過(guò)程中極大地減少了人工標(biāo)注成本，同時(shí)具備很強(qiáng)的領(lǐng)域遷移性。端到端的抽取降低了錯(cuò)誤隨管道流轉(zhuǎn)的可能性。唯一值得詬病的可能是其中的text feature是涉及到了人為設(shè)計(jì)的方面，后續(xù)的改進(jìn)應(yīng)該會(huì)使用深度神經(jīng)網(wǎng)絡(luò)代替這種人為的特征工程。

掃碼識(shí)別關(guān)注，獲取更多新鮮論文解讀

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

WWW 2017|知識(shí)庫(kù)支持下的歸類實(shí)體與關(guān)系聯(lián)合抽取

WWW 2017|知識(shí)庫(kù)支持下的歸類實(shí)體與關(guān)系聯(lián)合抽取

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

WWW 2017|知識(shí)庫(kù)支持下的歸類實(shí)體與關(guān)系聯(lián)合抽取

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av