知識抽取-事件抽取

此文為轉(zhuǎn)載,原文鏈接:知識抽取-事件抽取 - 徐阿衡的文章 - 知乎
https://zhuanlan.zhihu.com/p/50903358

接上一篇知識抽取-實體及關(guān)系抽取。

事件是促使事情狀態(tài)和關(guān)系改變的條件[Dong et.al., 2010]。目前已存在的知識資源(如維基百科等) 所描述實體及實體間的關(guān)系大多是靜態(tài)的,而事件能描述粒度更大的、動態(tài)的、 結(jié)構(gòu)化的知識,是現(xiàn)有知識資源的重要補充。

與[關(guān)系抽取]相比,事件抽取同樣需要從文本中抽取 predicate 和對應(yīng)的 arguments,但不同的是,關(guān)系抽取的問題是 binary 的,且兩個 arguments 通常都會在同一個句子中出現(xiàn),而事件抽取的難點在于,有多個 arguments 和 modifiers*,可能會分布在多個句子中,且有些 arguments 不是必須的,這使得 bootstrapping/distant learning/coreference 都變得非常困難。

整體而言,事件抽取的任務(wù)可以分兩大類:

  • 事件識別和抽取
    從描述事件信息的文本中識別并抽取出事件信息并以結(jié)構(gòu)化的形式呈現(xiàn)出來,包括發(fā)生的時間、地點、參與角色以及與之相關(guān)的動作或者狀態(tài)的改變。

  • 事件檢測和追蹤
    事件檢測與追蹤旨在將文本新聞流按照其報道的事件進(jìn)行組織,為傳統(tǒng)媒體多種來源的新聞監(jiān)控提供核心技術(shù),以便讓用戶了解新聞及其發(fā)展。具體而言,事件發(fā)現(xiàn)與跟蹤包括三個主要任務(wù):
    分割、發(fā)現(xiàn)和追蹤,將新聞文本分解為事件,發(fā)現(xiàn)新的(不可預(yù)見的)事件,并跟蹤以前報道事件的發(fā)展。
    事件發(fā)現(xiàn)任務(wù)又可細(xì)分為歷史事件發(fā)現(xiàn)和在線事件發(fā)現(xiàn)兩種形式,前者目標(biāo)是從按時間排序的新聞文檔中發(fā)現(xiàn)以前沒有識別的事件,后者則是從實時新聞流中實時發(fā)現(xiàn)新的事件。

本文的重點在于事件識別與抽取。首先看一下相關(guān)的核心概念:

  • 事件描述(Event Mention)
    描述事件的詞組/句子/句群,包含一個 trigger 以及任意數(shù)量的 arguments
  • 事件觸發(fā)(Event Trigger)
    事件描述中最能代表事件發(fā)生的詞匯,決定事件類別的重要特征,一般是動詞或者名詞
  • 事件元素(Event Argument)
    事件的重要信息,或者說是實體描述(entity mention),主要由實體、屬性值等表達(dá)完整語義的細(xì)粒度單位組成
  • 元素角色(Argument Role)
    事件元素在事件中扮演的角色,事件元素與事件的語義關(guān)系,可以理解為 slot
  • 事件類型(Event Type)

事件識別和抽取

直觀上來看,可以把事件抽取的任務(wù)理解成從文本中找到特定類別的事件,然后進(jìn)行填表的過程。

嚴(yán)肅些看下事件識別和抽取的任務(wù)定義:

Given a text document, an event extraction system should predict event triggers with specific sub-types and their arguments for each sentence.

也就是說,事件抽取任務(wù)最基礎(chǔ)的部分包括:

  • 識別事件觸發(fā)詞及事件類型
  • 抽取事件元素(Event Argument)同時判斷其角色(Argument Role)
  • 抽出描述事件的詞組或句子

當(dāng)然還有一些其他的子任務(wù)包括事件屬性標(biāo)注、事件共指消解等。

事件抽取大多是分階段進(jìn)行,通常由 trigger classifier 開始,如果有 trigger,把 trigger 以及它的上下文作為特征進(jìn)行分類判斷事件類型,再進(jìn)行下一步的 argument classifier,對句子中的每個 entity mention 進(jìn)行分類,判斷是否是 argument,如果是,判定它的角色。

基于模式匹配的方法

MUCs 最開始,事件抽取的系統(tǒng)都是基于人工編寫的規(guī)則,基于語法樹或者正則表達(dá)式,如 CIRCUS (Lehnert 1991), RAPIER (Califf & Mooney 1997), SRV (Freitag 1998), AutoSlog (Riloff 1993), LIEP (Huffman 1995), PALKA (Kim & Moldovan 1995), CRYSTAL (Soderland et al. 1995), HASTEN (Krupka 1995) 等等,后來,慢慢的有了監(jiān)督學(xué)習(xí)的模型,在 ACE 的階段,大多數(shù)系統(tǒng)都是基于監(jiān)督學(xué)習(xí)了,但由于標(biāo)注一致性的問題,系統(tǒng)的效果普遍較差,ACE 事件抽取只舉行了一次,在 2005 年。

下面先來看一下基于模板的抽取方法,基本都是通過 句法(syntactic)語義約束(semantic constraints) 來進(jìn)行識別。

基于人工標(biāo)注語料

在早期,模板創(chuàng)建過程通常從一個大的標(biāo)注集開始,模板的產(chǎn)生完全基于人工標(biāo)注語料,學(xué)習(xí)效果高度依賴于人工標(biāo)注質(zhì)量。

  • AutoSlog(Riloff)
    基本假設(shè):
    a. 事件元素首次提及之處即可確定該元素與事件間的關(guān)系
    b. 事件元素周圍的語句中包含了事件元素在事件中的角色描述
    通過監(jiān)督學(xué)習(xí)和人工審查來建立抽取規(guī)則。通過訓(xùn)練數(shù)據(jù)中已經(jīng)填充好的槽(filled slot),AutoSlog 解析 slot 附近的句法結(jié)構(gòu),來自動形成抽取規(guī)則,由于這個過程產(chǎn)生的模板 too-general,所以需要人工來審核。本質(zhì)上形成的是一個字典。
    舉個例子
    Ricardo Castellar, the mayor, was kidnapped yesterday by the FMLN.
    假設(shè) Ricardo Castellar 被標(biāo)注成了 victim,AutoSlog 根據(jù)句法分析判斷出 Ricardo Castellar 是主語,然后觸發(fā)了主語的相關(guān)規(guī)則 (subj) passive-verb,將句子中相關(guān)的單詞填充進(jìn)去就得到了規(guī)則 (victim) was kidnapped,所以在之后的文本中,只要 kidnapped 在一個被動結(jié)構(gòu)中出現(xiàn),它對應(yīng)的主語就會被標(biāo)記為 victim。
  • PALKA
    基本假設(shè):特定領(lǐng)域中高頻出現(xiàn)的語言表達(dá)方式是可數(shù)的
    用語義框架和短語模式結(jié)構(gòu)來表示特定領(lǐng)域中的抽取模式,通過融入 WordNet 的語義信息,PALKA 在特定領(lǐng)域可取得接近純?nèi)斯こ槿〉男Ч?/li>

基于弱監(jiān)督

人工標(biāo)注耗時耗力,且存在一致性問題,而弱監(jiān)督方法不需要對語料進(jìn)行完全標(biāo)注,只需人工對語料進(jìn)行一定的預(yù)分類或者制定種子模板,由機(jī)器根據(jù)預(yù)分類語料或種子模板自動進(jìn)行模式學(xué)習(xí)。

  • AutoSlog-TS
    Riloff and Shoen, 1995
    AutoSlog-TS 不需要進(jìn)行文本的標(biāo)注,只需要一個預(yù)先分類好的訓(xùn)練語料,類別是與該領(lǐng)域相關(guān)還是不相關(guān)。過程是先過一遍語料庫,對每一個名詞短語(根據(jù)句法分析識別)都產(chǎn)生對應(yīng)的抽取規(guī)則,然后再整體過一遍語料庫,產(chǎn)生每個規(guī)則的一些相關(guān)統(tǒng)計數(shù)據(jù),基本的 idea 是與不相關(guān)文本相比,在相關(guān)文本中更常出現(xiàn)的抽取規(guī)則更有可能是好的抽取規(guī)則。假設(shè)訓(xùn)練語料中相關(guān)與不相關(guān)的文本比例是 1:1,對產(chǎn)生的每條抽取規(guī)則計算相關(guān)比率 relevance rate,相關(guān)文檔中出現(xiàn)規(guī)則的實例數(shù)/整個語料庫中出現(xiàn)規(guī)則的實例數(shù),那么 relevance rate < 50% 的抽取規(guī)則就被丟棄了,剩下的規(guī)則會按照 relevance_rate * log(frequency) 的形式從高到低進(jìn)行排序,然后由人工進(jìn)行審核。

  • TIMES
    Chai and Biermann, 1998
    引入了領(lǐng)域無關(guān)的概念知識庫 WordNet,提升模式學(xué)習(xí)的泛化能力,并通過人工或規(guī)則進(jìn)行詞義消歧,使最終的模式更加準(zhǔn)確

  • NEXUS
    Piskorski et.al., 2001; Tanev et.al., 2008
    用聚類對語料進(jìn)行預(yù)處理

  • GenPAM
    Jiang, 2005
    在由特例生成泛化模式的學(xué)習(xí)過程中,有效利用模式間的相似性實現(xiàn)詞義消歧,最大限度地減少了人工的工作量和對系統(tǒng)的干預(yù)

小結(jié)

基于模式匹配的方法在特定領(lǐng)域中性能較好,知識表示簡潔,便于理解和后續(xù)應(yīng)用,但對于語言、領(lǐng)域和文檔形式都有不同程度的依賴,覆蓋度和可移植性較差

模式匹配的方法中,模板準(zhǔn)確性是影響整個方法性能的重要因素。在實際應(yīng)用中,模式匹配方法應(yīng)用非常廣泛,主要特點是高準(zhǔn)確率低召回率,要提高召回率,一是要建立更完整的模板庫,二是可以用半監(jiān)督的方法來建 trigger 字典。

基于統(tǒng)計 - 傳統(tǒng)機(jī)器學(xué)習(xí)

建立在統(tǒng)計模型基礎(chǔ)上,事件抽取方法可以分為 pipelinejoint model 兩大類。

Pipeline

將事件抽取任務(wù)轉(zhuǎn)化為多階段的分類問題(管道抽?。枰樞驁?zhí)行下面的分類器:

  1. 事件觸發(fā)詞分類器(Trigger Classifier)
    判斷詞匯是否是事件觸發(fā)詞,以及事件類別
  2. 元素分類器(Argument Classifier)
    詞組是否是事件元素元素
  3. 角色分類器(Role Classifier)
    判定元素的角色類別
  4. 屬性分類器(Attribute Classifier)
    判定事件屬性
  5. 可報告性分類器(Reportable-Event Classifier)
    判定是否存在值得報告的事件實例

分類器可以用 MaxEnt, SVM。重點還是在于提取和集成有區(qū)分性的特征,包括 **句子級信息 **和 篇章級信息。

句子級信息:與候選詞相關(guān)的詞法特征、上下文特征、實體特征、句法特征、語言學(xué)特征等,如:

篇章級特征:
跨文檔利用全局信息。對于一個句子級的抽取結(jié)果不僅要考慮當(dāng)前的置信度,還要考慮與待抽取文本相關(guān)的文本對它的影響,以及全局信息如事件與話題的關(guān)系,事件與事件的共現(xiàn)信息等,主要工作有:

  • Ji and Grishman, 2008
  • Liao and Grishman, 2010
  • Hong et.al., 2011
  • Liu et.al., 2016a

早期大部分的研究都是基于 Pipeline 方法,然而它的問題也很明顯:

  • 誤差傳遞,導(dǎo)致性能衰減
  • 各環(huán)節(jié)預(yù)測任務(wù)獨立,缺少互動,如忽略了事件觸發(fā)詞和事件元素之間的相互影響
  • 無法處理全局的依賴關(guān)系

Joint Model

又分為 Joint Inference 和 Joint Modeling 兩種。


Joint Inference
使用集成學(xué)習(xí)的思路,將各模型通過整體優(yōu)化目標(biāo)整合起來,可以通過整數(shù)規(guī)劃等方法進(jìn)行優(yōu)化。
Joint Modeling (Structured)
又可以稱為基于結(jié)構(gòu)的方法,將事件結(jié)構(gòu)看作依存樹,抽取任務(wù)相應(yīng)轉(zhuǎn)化為依存樹結(jié)構(gòu)預(yù)測問題,觸發(fā)詞識別和元素抽取可以同時完成,共享隱層特征,使用搜索進(jìn)行求解,避免了誤差傳播導(dǎo)致的性能下降,另外,全局特征也可以從整體的結(jié)構(gòu)中學(xué)習(xí)得到,從而使用全局的信息來提升局部的預(yù)測。相關(guān)工作有:

  • Li et.al., 2013aLi
    提出基于結(jié)構(gòu)感知機(jī)的聯(lián)合模型同時完成事件觸發(fā)詞識別和事件元素識別兩個子任務(wù),并通過 beam search 縮小搜索解空間
  • Li et.al., 2014
    為了利用更多的句子級信息,Li 等提出利用結(jié)構(gòu)預(yù)測模型將實體、關(guān)系和事件進(jìn)行聯(lián)合抽取

盡管 Li 等人的聯(lián)合系統(tǒng)優(yōu)勢明顯,但在未見詞和特征上缺乏泛化,人工提取的特征集是離散表達(dá),能力有限。

幾種方法的 trigger 和 argument 抽取結(jié)果,可以看出,實體之間協(xié)同消歧對效果提升非常明顯

基于統(tǒng)計 - 深度學(xué)習(xí)

上面的方法在特征提取過程中還是會依賴依存分析、句法分析、詞性標(biāo)注等傳統(tǒng)的外部 NLP 工具,還是會造成誤差積累,另外有些語言和領(lǐng)域并沒有這類處理工具,加之特征也需要人工設(shè)定,2015 年起基于深度學(xué)習(xí)的事件抽取方法逐漸成為研究熱點,相比于傳統(tǒng)機(jī)器學(xué)習(xí),深度學(xué)習(xí)方法優(yōu)勢明顯:

  • 減少對外部 NLP 工具的依賴 , 甚至不依賴 NLP 工具 , 建立成端對端的系統(tǒng)
  • 使用詞向量作為輸入,蘊含更為豐富的語言特征
  • 自動提取句子特征, 避免了人工特征設(shè)計的繁瑣工作

Pipeline - DMCNN

Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks Yubo Chen et. al., ACL 2015

自然語言處理中,傳統(tǒng) CNN 使用的最大池化對一個 feature map 只能得到一個最大值,這對事件抽取并不適用,因為事件抽取中一個句子中可能會包含多個事件,一個 argument candidate 在不同的 trigger 下也會扮演不同的角色,傳統(tǒng)的最大池化只保留“最重要”的信息,而丟失的信息會導(dǎo)致 multiple-event sentence 下的事件漏分。DMCNN 使用動態(tài)多池化卷積能實現(xiàn)對一個句子中不同部分的最大值獲取,以保留更多有價值的信息,邏輯和 PCNN 相似。

DMCNN 作者把事件抽取看做兩個階段的多分類任務(wù),第一步是觸發(fā)詞分類(trigger classification),利用 DMCNN 對句子中每個詞進(jìn)行分類,判斷是否是觸發(fā)詞,如果句子中存在觸發(fā)詞,執(zhí)行第二步論元分類(argument classification),同樣使用 DMCNN,給 trigger 分配 arguments,同時匹配 arguments 到 role,以第二個任務(wù)為例介紹一下過程。

主要包括四個部分,以 argument classification 為例:

  1. 詞向量學(xué)習(xí);
  2. Lexical-level 詞匯級別特征提取
    候選論元/觸發(fā)詞及其前后單詞的詞向量
  3. Sentence-level 句子級別特征提取;
    輸入特征:
    a. Context-word feature(CWF)
    b. Position feature(PF)當(dāng)前詞語和候選論元/觸發(fā)詞之間的相對距離,距離值用向量表示,隨機(jī)初始化
    c. Event-type feature(EF)當(dāng)前 trigger 對應(yīng)的事件類型特征
    d. CWF, PF, EF 拼接作為卷積的輸入卷積后,根據(jù) candidate argument 和 predicted trigger 將 feature map 分成三部分,分別對各部分進(jìn)行最大池化
  4. Output 分類輸出
    拼接詞匯級別和句子級別的特征 F=[L, P]O = WF+b 算分,進(jìn)行 softmax,得到 argument role 的類別

Trigger classification 階段:

  • Lexical-level
    只使用候選觸發(fā)詞和其左右token
  • Sentence-level
    CWF + PF,PF 只使用候選觸發(fā)詞的位置作為嵌入位置特征
    句子由觸發(fā)詞分割成兩部分

DMCNN的表現(xiàn):


DMCNN 的效果是突破性的,但分兩個階段的預(yù)測仍有誤差傳遞的問題,也沒有利用好 trigger 和 argument 之間的依賴關(guān)系

Joint Model - JRNN

JRNN: Joint Event Extraction via Recurrent Neural Networks, ACL 2016

Nguyen et.al., 2016 通過 RNN 用聯(lián)合方法解決時間抽取的問題,繼承了 Li (2013) 和 Chen (2015) 的優(yōu)點,并克服了它們的一些缺陷。


  1. Encoding phase
    word embedding + entity type embedding + dependency tree relationdependency tree relation 是 binary 的,個人理解應(yīng)該是維度對應(yīng)依存樹中單詞間所有可能的關(guān)系(如 conj_and, advcl 等),只有在依存樹 W 中存在與 w_i 連接的一條對應(yīng)邊(如 conj_and 連接了 w_i 與 w_j)時,該維度(conj_and 對應(yīng)維度)的值才設(shè)為 1,這個向量在 Li et al., 2013 的研究中是有用的。沒有用到位置特征,因為同時預(yù)測 trigger 和 argument roles,沒有固定的錨點。雙向 GRU 進(jìn)行編碼

  2. Prediction phase





    當(dāng)輸入句子包含多個事件時(1/N),JRNN 明顯優(yōu)于其他方法。特別是,JRNN 在觸發(fā)詞識別上 DMCNN 好13.9%,而論元分類的相應(yīng)改進(jìn)為 6.5%,從而進(jìn)一步表明 JRNN 具有記憶功能的好處。在單事件句子(1/1)的表現(xiàn)上,JRNN 在觸發(fā)詞分類上仍然是最好的系統(tǒng),盡管在論元分類上比 DMCNN 要差一些。

弱監(jiān)督/語料擴(kuò)充

有監(jiān)督的方法需要大量的標(biāo)注樣本,人工標(biāo)注耗時耗力,還存在一致性的問題,因此弱監(jiān)督方法也是事件抽取的一個重要分支
Chen 等提出利用部分高質(zhì)量的標(biāo)注語料訓(xùn)練分類器,然后利用初步訓(xùn)練好的分類器判斷未標(biāo)注的數(shù)據(jù),選取高置信度的分類樣本作為訓(xùn)練樣本,通過迭代自動擴(kuò)充訓(xùn)練樣本[Chen and Ji, 2009]。Liao 等在相關(guān)文檔中使用自訓(xùn)練的(Self-Training)的半監(jiān)督學(xué)習(xí)方法擴(kuò)展標(biāo)注語料,并利用全局推理的方法考慮樣例的多樣性進(jìn)而完成事件抽取;進(jìn)一步提出同時針對詞匯和句子兩個粒度訓(xùn)練最大熵分類器,并用協(xié)同訓(xùn)練(Co-training)的方法擴(kuò)展標(biāo)注數(shù)據(jù),進(jìn)而對分類器進(jìn)行更充分的訓(xùn)練[Liao and Grishman, 2011a; 2011b]。

而目前,弱監(jiān)督/訓(xùn)練數(shù)據(jù)生成方面比較流行的方向有利用外部資源,通過遠(yuǎn)程監(jiān)督,以及跨語料遷移的方法。

外部資源
Leveraging FrameNet to Improve Automatic Event Detection, ACL2016
FrameNet 是語言學(xué)家定義及標(biāo)注的語義框架資源,采用層級的組織結(jié)構(gòu),有1000+框架、1000+詞法單元、150000+標(biāo)注例句。在結(jié)構(gòu)上,F(xiàn)rameNet 和事件抽取有著很高的相似性,一個框架由一個詞法單元和若干框架元素組成,一個事件有觸發(fā)詞和若干事件角色組成。另外,F(xiàn)rameNet 中很多 frame 其實也能夠表示某些事件,如

因此,Liu 等利用 ACE 語料訓(xùn)練的分類器去判定 FrameNet 中句子的事件類別,再利用全局推斷將 FrameNet 的語義框架和 ACE 中的事件類別進(jìn)行映射,進(jìn)而利用 FrameNet 中人工標(biāo)注的事件樣例擴(kuò)展訓(xùn)練數(shù)據(jù)以提升事件檢測性能 [Liu et.al., 2016b]。

遠(yuǎn)程監(jiān)督

Automatically Labeled Data Generation for Large Scale Event Extraction, ACL2017

Yubo Chen 提出運用結(jié)構(gòu)化的知識庫來以及遠(yuǎn)程監(jiān)督的方法來自動生成大規(guī)模事件語料。

當(dāng)把關(guān)系抽取中常用的遠(yuǎn)程監(jiān)督方法用到事件抽取中時,會發(fā)現(xiàn)有下面兩個問題,一是現(xiàn)有事件知識庫(如 Freebase)中缺乏觸發(fā)詞信息,如上圖,在關(guān)系抽取中,我們可以用兩個論元 Barack Obama, Michelle Obama 進(jìn)行回標(biāo),但是在事件抽取中,marriage 這一事件類型在 Freebase 中被表示為 m.02nqglv,所以我們不能直接用事件類型和論元來進(jìn)行回標(biāo),在用 DS 前,必須先檢測觸發(fā)詞

根據(jù) DS 在 RE 中的應(yīng)用,可以假設(shè)如果一個句子中出現(xiàn)了所有的論元,那么這個句子就可以被作為是一個事件,句子中的動詞就可以作為觸發(fā)詞。然而一個事件中的論元可能出現(xiàn)在多個句子中,如果用所有論元來進(jìn)行句子的回標(biāo),那么能抽出的訓(xùn)練數(shù)據(jù)就非常少了,所以應(yīng)該對論元進(jìn)行排序,選擇有代表性的論元進(jìn)行回標(biāo)

整個流程如下,首先對 Freebase 中的核心論元進(jìn)行檢測,根據(jù)角色顯著性(role saliency)、事件相關(guān)性( event relevance)核心率(key rate) 對論元進(jìn)行優(yōu)先級排序,接著利用所有的核心論元去 Wikipeida 中回標(biāo),根據(jù)觸發(fā)率(trigger rate)、觸發(fā)詞頻率( trigger candidate frequency)、觸發(fā)詞事件頻率(trigger event type frequency)來進(jìn)行觸發(fā)詞檢測,這一階段得到的觸發(fā)詞表中只有動詞,缺少名詞,也存在噪聲,于是再利用 FrameNet 過濾動詞性觸發(fā)詞中的噪聲,同時擴(kuò)展名詞性觸發(fā)詞,最后利用 Soft Distant Supervision 來自動生成標(biāo)注數(shù)據(jù)。

還有方法如 Karthik Narasimhan et al., EMNLP 2016,從網(wǎng)絡(luò)獲取同一事件的不同報道,再使用強(qiáng)化學(xué)習(xí)方法,做信息融合的決策(互補信息的融合、冗余信息的選擇)。

跨語料遷移
由于目前中文事件抽取缺少公認(rèn)語料,很多學(xué)者嘗試?yán)矛F(xiàn)有大量的高質(zhì)量英文標(biāo)注語料輔助中文事件抽取。Chen 等首次提出該想法并利用跨語言協(xié)同訓(xùn)練的 Bootstrap 方法進(jìn)行事件抽取[Chen and Ji, 2009]。Ji 提出基于中英文單語事件抽取系統(tǒng)和基于并行語料兩種構(gòu)建跨語言同義謂詞集合的方法輔助進(jìn)行中文事件抽取[Ji, 2009],Zhu 等利用機(jī)器翻譯同時擴(kuò)大中文和英文訓(xùn)練語料,聯(lián)合利用兩種語料進(jìn)行事件抽取[Zhu et.al., 2014]。Hsi 等聯(lián)合利用符號特征和分布式特征的方法,利用英文事件語料提升中文事件抽取的性能[Hsi et.al., 2016]。

Event Detection via Gated Multilingual Attention Mechanism, AAAI2018

Motivation:

  1. 多語言一致性,不同語言中表達(dá)了相同含義的句子往往包含相同的語義成分如 MeiGuo TanKe 和 American tank 表達(dá)了相同含義,都是武器
  2. 多語言互補,某個詞在一種語言中有歧義,但在另一種語言中缺沒有歧義如英文 fire,因為有開火和解雇兩種意思,所以對應(yīng)事件可能是 Attack 也可能是 End-Position,然而在中文中開火,Attach 類型,解雇就是 End-Position 類型,兩個詞沒有相同語義

所以文章提出了兩種 attention 機(jī)制,一是利用多語言一致性,分別對每種語言進(jìn)行單語語境的注意力計算,對每個候選觸發(fā)詞,對其上下文進(jìn)行注意力機(jī)制,注意力權(quán)重表示句子中不同單詞對預(yù)測事件類型的重要性,二是利用互補信息,用 gated cross-lingual attention 來模擬其他語言的可信度,gate 來控制目標(biāo)語言流向源語言的信息,集成多語言的信息。

中文事件抽取

目前事件抽取的相關(guān)研究大部分是面向英文文本,中文文本的工作才剛起步,一方面,中文的自身特點(需要分詞、缺少時態(tài)和形態(tài)的變換)有一定挑戰(zhàn),另一方面,數(shù)據(jù)集上也缺乏統(tǒng)一、公認(rèn)的語料資源和相關(guān)評測。盡管如此,近年來中文事件抽取在公開評測、領(lǐng)域擴(kuò)展及上述的跨語料遷移方面也都取得了一些進(jìn)展。

公開評測方面,除了在模型方面的創(chuàng)新[Chen and Ng, 2012;Li et.al., 2012a;2013b],在中文語言特性的利用方面,Li 等通過中文詞語的形態(tài)結(jié)構(gòu)、同義詞等信息捕獲更多的未知觸發(fā)詞,進(jìn)而解決中文事件抽取面臨的分詞錯誤和訓(xùn)練數(shù)據(jù)稀疏等問題; 進(jìn)一步細(xì)分中文事件觸發(fā)詞內(nèi)部的組合語義(復(fù)合、附加和轉(zhuǎn)化),進(jìn)而提高系統(tǒng)的性能[Li et.al., 2012b]。Ding 等利用聚類的方法自動生成新事件類型的語料, 在抽取過程中特別地考慮了待抽取文本的 HowNet 相似度[Ding et.al., 2013]。

特定領(lǐng)域方面,國內(nèi)很多機(jī)構(gòu)均面向?qū)嶋H應(yīng)用展開特定領(lǐng)域的事件抽取研究, 覆蓋突發(fā)災(zāi)難、金融、軍事、體育、音樂等多個領(lǐng)域。例如,Zhou 等針對金融領(lǐng)域事件中的收購、分紅和貸款三個典型事件,提出自動構(gòu)建抽取規(guī)則集的方法進(jìn)行中文金融領(lǐng)域事件抽取 [Zhou, 2003];Liang 等利用事件框架的歸納和繼承特性實現(xiàn)對災(zāi)難事件的抽取[Liang and Wu, 2006]。

其他方向的一些 Paper:
特征表示:
– Argument Attention: Exploiting Argument Information to Improve Event Detection via Supervised Attention Mechanisms (ACL2017)多事件抽?。?br> – HBTNGMA: Collective Event Detection via a Hierarchical and Bias Tagging Networks with GatedMulti-level Attention (EMNLP-2018)
篇章級事件抽?。?br> – DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically LabeledTraining Data (ACL 2018)
事件關(guān)系抽?。?br> – ATT-ERNN: Attention-based Event Relevance Model for Stock Price Movement Prediction (CCKS-2017 Best Paper Award)
– MLNN: Event Coreference Resolution via Multi-loss Neural Network without Arguments (CCKS-2018)

主流方法包括基于相似度聚類和基于概率統(tǒng)計兩類。在這不多做介紹。以后有時間再補充。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容