論文筆記——Fine-Grained Entity Recognition

文章標題

Fine-Grained Entity Recognition細粒度實體識別

Summary

概述文章的內(nèi)容,用自己的語言描述

本文提出了FIGER數(shù)據(jù)集,并且提出了一種自適應(yīng)感知器方法對實體進行多標簽分類,通過使用其他模型驗證了該數(shù)據(jù)集的可行性。

Research Objective

作者的研究目標

為了智能的理解文本并提取廣泛的信息,本文定義了一個由112個標簽組成的細粒度集合,將標簽問題描述為多級、多標簽分類,描述了一種無監(jiān)督的收集訓練數(shù)據(jù),并通過FIGER數(shù)據(jù)集展現(xiàn)。任務(wù):從自然語言句子中發(fā)現(xiàn)實體的類型信息,并對每個提及的實體匹配對應(yīng)的實體類型。

Problem Statement

問題陳述,需要解決的問題是什么

之前的大多ER研究只關(guān)注在有限的類型上:MUC-7(1997)包括:人、地點和組織;CONLL03 增加了Other類型;ACE 引入了地緣政治實體、武器、車輛和設(shè)施;Ontonotes(2006)將其分為18類;BBN 29(2005)中答案類型。提出了細粒度標簽的數(shù)據(jù)集FIGER

Method

作者解決問題的方法/算法

如下圖是整個系統(tǒng)的概覽圖,整個過程是流水線的方式:

給一個Plain Text(純文本)作為輸入

首先對句子進行分段,然后找到候選實體進行標記

其次,應(yīng)用Classifier for entiy tagging 分類器應(yīng)用于識別的片段,并輸出其標簽。

傳統(tǒng)的NER系統(tǒng)最整個任務(wù)使用序列模型,通常使用 linear-chain COnditional Random Field(CRF)。在序列模型中,每個標記都有一個相應(yīng)的隱藏變量,指示其類型標簽,隱藏變量的狀態(tài)空間與類型集的大小呈線性關(guān)系。如果允許一個片段有多個標簽,則狀態(tài)空間呈指數(shù)級增長。流水線模型則避免了這個問題。

作者首先提出了三個挑戰(zhàn),并分別提出了相應(yīng)的解決辦法

挑戰(zhàn):

selection of the tag set? 標簽集的選擇

creation of training data? 訓練數(shù)據(jù)的創(chuàng)建

development of a fast and accurate multi-class labeling algorithm 快速準確的多級標簽算法的開發(fā)

解決方案:

通過基于Freebase 類型管理一組112個獨特的標簽

Freebase的優(yōu)點:

1) 更廣泛覆蓋了世界上的實體

2) 允許一個實體承載多個重疊類型

使用遠程監(jiān)督(distant supervision)自動標注數(shù)據(jù),利用Wikipedia文本中的錨定鏈接,用適當?shù)臉撕炞詣訕擞泴嶓w段。通過啟發(fā)式的方法刪除了費句子,例如對句子中的逗號和分號進行閾值化

使用啟發(fā)式標記的訓練數(shù)據(jù)訓練一個CRF模型進行分割(識別提到實體的文本邊界),使用線性鏈式CRF模型來分割具有三個標準隱藏狀態(tài),即“B”、“i”和“O”。這些狀態(tài)分別表示提及的開始令牌、提及的非開始令牌和未提及的令牌。以“B”作為起始標記的連續(xù)標記的最大序列,如果有,后面的標記是“I”,則被視為實體提及/段。使用一種自適應(yīng)感知器算法來解決這個多標簽分類問題

應(yīng)用了一個經(jīng)典的線性分類器 感知器的形式是:

y ?? : 預(yù)測的標簽

f(x, y): 提及的x向量

w : 模型向量的權(quán)重?

Evaluation

作者如何評估自己的方法,實驗的setup是什么樣的,有沒有問題或者可以借鑒的地方。

作者為了評估FIGER,考慮了兩個問題

問題

how accurately can it assign tags 如何精確的分類標簽

do the fine-grained tags matter 細粒度的標記是否重要

解決方案

與Stanford’s coarse-grained NER system[1]? 和Illinois’ Named-Entity Linking system[2]進行了對比

使用了做好的關(guān)系抽取系統(tǒng)MultiR[3],接受每個FIGER預(yù)測的類型作為每個潛在關(guān)系的參數(shù)的特征

[1]?"Finkel,J.;Grenager,T.;andManning,C.2005.Incorporat-ingnon-localinformationintoinformationextractionsys-temsbygibbssampling.InProceedingsofACL,363–370.AssociationforComputationalLinguistics.Fleischman"?

[2]?"Ratinov,L.;Roth,D.;Downey,D.;andAnderson,M.2011.Localandglobalalgorithmsfordisambiguationtowikipedia.InProc.ofACL.Riedel"?

[3]: "Hoffmann, R.; Zhang, C.; Ling, X.; Zettlemoyer, L.; and Weld, D. S. 2011. Knowledge-based weak supervision for information extraction of overlapping relations. In ACL."

Conclusion

作者給了哪些結(jié)論,哪些是strong conclusions, 哪些又是weak的conclusions?

貢獻

介紹了一組從Freebase派生的實體類型集,這些實體類型對于人類理解和其他NLP任務(wù)有用

描述了FIGER,一個細粒度的實體識別數(shù)據(jù)集,他標識自然語言文本中實體的引用,并用適當?shù)臉擞泴ζ溥M行標記

將FIGER與兩個最先進的模型進行了比較,結(jié)果表明:(1)FIGER具有很好的整體準確度,在處理不常見實體時優(yōu)于其它方法(2)當作為特征使用時,細粒度標記可以顯著提高F1中關(guān)系提取性能

將FIGER的實現(xiàn)和它的數(shù)據(jù)作為開放源碼提供給研究人員使用和使用。

未來方向

對標簽相關(guān)性進行建模,以避免預(yù)測不太可能的組合。

減少來自遠程監(jiān)督的噪音

Notes

額外的筆記

1. 實體識別定義

Entity Recognition(ER)is a type of information extraction that seeks to identify regions of text(mentions)corresponding to entities and to categorize them into a predefined list of types.實體識別(ER)是一種信息抽取類型,目的是識別與實體相對應(yīng)的文本(提及)區(qū)域,并將其分類到預(yù)定義的類型列表中。

2.詞匯

adapted perceptron 自適應(yīng)感知器empirically 經(jīng)驗為主地

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容