亚洲日韩人妻在线,精品人妻一區,久99999久视频

文章標題

Fine-Grained Entity Recognition細粒度實體識別

Summary

概述文章的內(nèi)容，用自己的語言描述

本文提出了FIGER數(shù)據(jù)集，并且提出了一種自適應(yīng)感知器方法對實體進行多標簽分類，通過使用其他模型驗證了該數(shù)據(jù)集的可行性。

Research Objective

作者的研究目標

為了智能的理解文本并提取廣泛的信息，本文定義了一個由112個標簽組成的細粒度集合，將標簽問題描述為多級、多標簽分類，描述了一種無監(jiān)督的收集訓練數(shù)據(jù)，并通過FIGER數(shù)據(jù)集展現(xiàn)。任務(wù)：從自然語言句子中發(fā)現(xiàn)實體的類型信息，并對每個提及的實體匹配對應(yīng)的實體類型。

Problem Statement

問題陳述，需要解決的問題是什么

之前的大多ER研究只關(guān)注在有限的類型上：MUC-7（1997）包括：人、地點和組織；CONLL03 增加了Other類型；ACE 引入了地緣政治實體、武器、車輛和設(shè)施；Ontonotes（2006）將其分為18類；BBN 29（2005）中答案類型。提出了細粒度標簽的數(shù)據(jù)集FIGER

Method

作者解決問題的方法/算法

如下圖是整個系統(tǒng)的概覽圖，整個過程是流水線的方式：

給一個Plain Text（純文本）作為輸入

首先對句子進行分段，然后找到候選實體進行標記

其次，應(yīng)用Classifier for entiy tagging 分類器應(yīng)用于識別的片段，并輸出其標簽。

傳統(tǒng)的NER系統(tǒng)最整個任務(wù)使用序列模型，通常使用 linear-chain COnditional Random Field（CRF）。在序列模型中，每個標記都有一個相應(yīng)的隱藏變量，指示其類型標簽，隱藏變量的狀態(tài)空間與類型集的大小呈線性關(guān)系。如果允許一個片段有多個標簽，則狀態(tài)空間呈指數(shù)級增長。流水線模型則避免了這個問題。

作者首先提出了三個挑戰(zhàn)，并分別提出了相應(yīng)的解決辦法

挑戰(zhàn)：

selection of the tag set? 標簽集的選擇

creation of training data? 訓練數(shù)據(jù)的創(chuàng)建

development of a fast and accurate multi-class labeling algorithm 快速準確的多級標簽算法的開發(fā)

解決方案：

通過基于Freebase 類型管理一組112個獨特的標簽

Freebase的優(yōu)點：

1) 更廣泛覆蓋了世界上的實體

2) 允許一個實體承載多個重疊類型

使用遠程監(jiān)督（distant supervision）自動標注數(shù)據(jù)，利用Wikipedia文本中的錨定鏈接，用適當?shù)臉撕炞詣訕擞泴嶓w段。通過啟發(fā)式的方法刪除了費句子，例如對句子中的逗號和分號進行閾值化

使用啟發(fā)式標記的訓練數(shù)據(jù)訓練一個CRF模型進行分割（識別提到實體的文本邊界），使用線性鏈式CRF模型來分割具有三個標準隱藏狀態(tài)，即“B”、“i”和“O”。這些狀態(tài)分別表示提及的開始令牌、提及的非開始令牌和未提及的令牌。以“B”作為起始標記的連續(xù)標記的最大序列，如果有，后面的標記是“I”，則被視為實體提及/段。使用一種自適應(yīng)感知器算法來解決這個多標簽分類問題

應(yīng)用了一個經(jīng)典的線性分類器感知器的形式是：

y ?? ：預(yù)測的標簽

f（x, y）: 提及的x向量

w : 模型向量的權(quán)重?

Evaluation

作者如何評估自己的方法，實驗的setup是什么樣的，有沒有問題或者可以借鑒的地方。

作者為了評估FIGER，考慮了兩個問題

問題

how accurately can it assign tags 如何精確的分類標簽

do the fine-grained tags matter 細粒度的標記是否重要

解決方案

與Stanford’s coarse-grained NER system[1]? 和Illinois’ Named-Entity Linking system[2]進行了對比

使用了做好的關(guān)系抽取系統(tǒng)MultiR[3],接受每個FIGER預(yù)測的類型作為每個潛在關(guān)系的參數(shù)的特征

[1]?"Finkel,J.;Grenager,T.;andManning,C.2005.Incorporat-ingnon-localinformationintoinformationextractionsys-temsbygibbssampling.InProceedingsofACL,363–370.AssociationforComputationalLinguistics.Fleischman"?

[2]?"Ratinov,L.;Roth,D.;Downey,D.;andAnderson,M.2011.Localandglobalalgorithmsfordisambiguationtowikipedia.InProc.ofACL.Riedel"?

[3]: "Hoffmann, R.; Zhang, C.; Ling, X.; Zettlemoyer, L.; and Weld, D. S. 2011. Knowledge-based weak supervision for information extraction of overlapping relations. In ACL."

Conclusion

作者給了哪些結(jié)論，哪些是strong conclusions, 哪些又是weak的conclusions?

貢獻

介紹了一組從Freebase派生的實體類型集，這些實體類型對于人類理解和其他NLP任務(wù)有用

描述了FIGER，一個細粒度的實體識別數(shù)據(jù)集，他標識自然語言文本中實體的引用，并用適當?shù)臉擞泴ζ溥M行標記

將FIGER與兩個最先進的模型進行了比較，結(jié)果表明：（1）FIGER具有很好的整體準確度，在處理不常見實體時優(yōu)于其它方法（2）當作為特征使用時，細粒度標記可以顯著提高F1中關(guān)系提取性能

將FIGER的實現(xiàn)和它的數(shù)據(jù)作為開放源碼提供給研究人員使用和使用。

未來方向

對標簽相關(guān)性進行建模，以避免預(yù)測不太可能的組合。

減少來自遠程監(jiān)督的噪音

Notes

額外的筆記

1. 實體識別定義

Entity Recognition（ER）is a type of information extraction that seeks to identify regions of text（mentions）corresponding to entities and to categorize them into a predefined list of types.實體識別（ER）是一種信息抽取類型，目的是識別與實體相對應(yīng)的文本（提及）區(qū)域，并將其分類到預(yù)定義的類型列表中。

2.詞匯

adapted perceptron 自適應(yīng)感知器empirically 經(jīng)驗為主地

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

論文筆記——Fine-Grained Entity Recognition

論文筆記——Fine-Grained Entity Recognition

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

論文筆記——Fine-Grained Entity Recognition

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av