美女又黄又,不卡乱码无码,色亚洲在线网

此文為轉(zhuǎn)載，原文鏈接：知識抽取-事件抽取 - 徐阿衡的文章 - 知乎
https://zhuanlan.zhihu.com/p/50903358

接上一篇知識抽取-實體及關(guān)系抽取。

事件是促使事情狀態(tài)和關(guān)系改變的條件[Dong et.al., 2010]。目前已存在的知識資源（如維基百科等）所描述實體及實體間的關(guān)系大多是靜態(tài)的，而事件能描述粒度更大的、動態(tài)的、結(jié)構(gòu)化的知識，是現(xiàn)有知識資源的重要補充。

與[關(guān)系抽取]相比，事件抽取同樣需要從文本中抽取 predicate 和對應(yīng)的 arguments，但不同的是，關(guān)系抽取的問題是 binary 的，且兩個 arguments 通常都會在同一個句子中出現(xiàn)，而事件抽取的難點在于，有多個 arguments 和 modifiers*，可能會分布在多個句子中，且有些 arguments 不是必須的，這使得 bootstrapping/distant learning/coreference 都變得非常困難。

整體而言，事件抽取的任務(wù)可以分兩大類：

事件識別和抽取
從描述事件信息的文本中識別并抽取出事件信息并以結(jié)構(gòu)化的形式呈現(xiàn)出來，包括發(fā)生的時間、地點、參與角色以及與之相關(guān)的動作或者狀態(tài)的改變。
事件檢測和追蹤
事件檢測與追蹤旨在將文本新聞流按照其報道的事件進(jìn)行組織，為傳統(tǒng)媒體多種來源的新聞監(jiān)控提供核心技術(shù)，以便讓用戶了解新聞及其發(fā)展。具體而言，事件發(fā)現(xiàn)與跟蹤包括三個主要任務(wù)：
分割、發(fā)現(xiàn)和追蹤，將新聞文本分解為事件，發(fā)現(xiàn)新的（不可預(yù)見的）事件，并跟蹤以前報道事件的發(fā)展。
事件發(fā)現(xiàn)任務(wù)又可細(xì)分為歷史事件發(fā)現(xiàn)和在線事件發(fā)現(xiàn)兩種形式，前者目標(biāo)是從按時間排序的新聞文檔中發(fā)現(xiàn)以前沒有識別的事件，后者則是從實時新聞流中實時發(fā)現(xiàn)新的事件。

本文的重點在于事件識別與抽取。首先看一下相關(guān)的核心概念：

事件描述（Event Mention）
描述事件的詞組/句子/句群，包含一個 trigger 以及任意數(shù)量的 arguments
事件觸發(fā)（Event Trigger）
事件描述中最能代表事件發(fā)生的詞匯，決定事件類別的重要特征，一般是動詞或者名詞
事件元素（Event Argument）
事件的重要信息，或者說是實體描述（entity mention），主要由實體、屬性值等表達(dá)完整語義的細(xì)粒度單位組成
元素角色（Argument Role）
事件元素在事件中扮演的角色，事件元素與事件的語義關(guān)系，可以理解為 slot
事件類型（Event Type）

事件識別和抽取

直觀上來看，可以把事件抽取的任務(wù)理解成從文本中找到特定類別的事件，然后進(jìn)行填表的過程。

嚴(yán)肅些看下事件識別和抽取的任務(wù)定義：

Given a text document, an event extraction system should predict event triggers with specific sub-types and their arguments for each sentence.

也就是說，事件抽取任務(wù)最基礎(chǔ)的部分包括：

識別事件觸發(fā)詞及事件類型
抽取事件元素（Event Argument）同時判斷其角色（Argument Role）
抽出描述事件的詞組或句子

當(dāng)然還有一些其他的子任務(wù)包括事件屬性標(biāo)注、事件共指消解等。

事件抽取大多是分階段進(jìn)行，通常由 trigger classifier 開始，如果有 trigger，把 trigger 以及它的上下文作為特征進(jìn)行分類判斷事件類型，再進(jìn)行下一步的 argument classifier，對句子中的每個 entity mention 進(jìn)行分類，判斷是否是 argument，如果是，判定它的角色。

基于模式匹配的方法

MUCs 最開始，事件抽取的系統(tǒng)都是基于人工編寫的規(guī)則，基于語法樹或者正則表達(dá)式，如 CIRCUS (Lehnert 1991), RAPIER (Califf & Mooney 1997), SRV (Freitag 1998), AutoSlog (Riloff 1993), LIEP (Huffman 1995), PALKA (Kim & Moldovan 1995), CRYSTAL (Soderland et al. 1995), HASTEN (Krupka 1995) 等等，后來，慢慢的有了監(jiān)督學(xué)習(xí)的模型，在 ACE 的階段，大多數(shù)系統(tǒng)都是基于監(jiān)督學(xué)習(xí)了，但由于標(biāo)注一致性的問題，系統(tǒng)的效果普遍較差，ACE 事件抽取只舉行了一次，在 2005 年。

下面先來看一下基于模板的抽取方法，基本都是通過 句法（syntactic） 和 語義約束（semantic constraints） 來進(jìn)行識別。

基于人工標(biāo)注語料

在早期，模板創(chuàng)建過程通常從一個大的標(biāo)注集開始，模板的產(chǎn)生完全基于人工標(biāo)注語料，學(xué)習(xí)效果高度依賴于人工標(biāo)注質(zhì)量。

AutoSlog（Riloff）
基本假設(shè)：
a. 事件元素首次提及之處即可確定該元素與事件間的關(guān)系
b. 事件元素周圍的語句中包含了事件元素在事件中的角色描述
通過監(jiān)督學(xué)習(xí)和人工審查來建立抽取規(guī)則。通過訓(xùn)練數(shù)據(jù)中已經(jīng)填充好的槽（filled slot），AutoSlog 解析 slot 附近的句法結(jié)構(gòu)，來自動形成抽取規(guī)則，由于這個過程產(chǎn)生的模板 too-general，所以需要人工來審核。本質(zhì)上形成的是一個字典。
舉個例子
Ricardo Castellar, the mayor, was kidnapped yesterday by the FMLN.
假設(shè) Ricardo Castellar 被標(biāo)注成了 victim，AutoSlog 根據(jù)句法分析判斷出 Ricardo Castellar 是主語，然后觸發(fā)了主語的相關(guān)規(guī)則 (subj) passive-verb，將句子中相關(guān)的單詞填充進(jìn)去就得到了規(guī)則 (victim) was kidnapped，所以在之后的文本中，只要 kidnapped 在一個被動結(jié)構(gòu)中出現(xiàn)，它對應(yīng)的主語就會被標(biāo)記為 victim。
PALKA
基本假設(shè)：特定領(lǐng)域中高頻出現(xiàn)的語言表達(dá)方式是可數(shù)的
用語義框架和短語模式結(jié)構(gòu)來表示特定領(lǐng)域中的抽取模式，通過融入 WordNet 的語義信息，PALKA 在特定領(lǐng)域可取得接近純?nèi)斯こ槿〉男Ч?/li>

基于弱監(jiān)督

人工標(biāo)注耗時耗力，且存在一致性問題，而弱監(jiān)督方法不需要對語料進(jìn)行完全標(biāo)注，只需人工對語料進(jìn)行一定的預(yù)分類或者制定種子模板，由機(jī)器根據(jù)預(yù)分類語料或種子模板自動進(jìn)行模式學(xué)習(xí)。

AutoSlog-TS
Riloff and Shoen, 1995
AutoSlog-TS 不需要進(jìn)行文本的標(biāo)注，只需要一個預(yù)先分類好的訓(xùn)練語料，類別是與該領(lǐng)域相關(guān)還是不相關(guān)。過程是先過一遍語料庫，對每一個名詞短語（根據(jù)句法分析識別）都產(chǎn)生對應(yīng)的抽取規(guī)則，然后再整體過一遍語料庫，產(chǎn)生每個規(guī)則的一些相關(guān)統(tǒng)計數(shù)據(jù)，基本的 idea 是與不相關(guān)文本相比，在相關(guān)文本中更常出現(xiàn)的抽取規(guī)則更有可能是好的抽取規(guī)則。假設(shè)訓(xùn)練語料中相關(guān)與不相關(guān)的文本比例是 1:1，對產(chǎn)生的每條抽取規(guī)則計算相關(guān)比率 relevance rate，相關(guān)文檔中出現(xiàn)規(guī)則的實例數(shù)/整個語料庫中出現(xiàn)規(guī)則的實例數(shù)，那么 relevance rate < 50% 的抽取規(guī)則就被丟棄了，剩下的規(guī)則會按照 relevance_rate * log(frequency) 的形式從高到低進(jìn)行排序，然后由人工進(jìn)行審核。
TIMES
Chai and Biermann, 1998
引入了領(lǐng)域無關(guān)的概念知識庫 WordNet，提升模式學(xué)習(xí)的泛化能力，并通過人工或規(guī)則進(jìn)行詞義消歧，使最終的模式更加準(zhǔn)確
NEXUS
Piskorski et.al., 2001; Tanev et.al., 2008
用聚類對語料進(jìn)行預(yù)處理
GenPAM
Jiang, 2005
在由特例生成泛化模式的學(xué)習(xí)過程中，有效利用模式間的相似性實現(xiàn)詞義消歧，最大限度地減少了人工的工作量和對系統(tǒng)的干預(yù)

小結(jié)

基于模式匹配的方法在特定領(lǐng)域中性能較好，知識表示簡潔，便于理解和后續(xù)應(yīng)用，但對于語言、領(lǐng)域和文檔形式都有不同程度的依賴，覆蓋度和可移植性較差。

模式匹配的方法中，模板準(zhǔn)確性是影響整個方法性能的重要因素。在實際應(yīng)用中，模式匹配方法應(yīng)用非常廣泛，主要特點是高準(zhǔn)確率低召回率，要提高召回率，一是要建立更完整的模板庫，二是可以用半監(jiān)督的方法來建 trigger 字典。

基于統(tǒng)計 - 傳統(tǒng)機(jī)器學(xué)習(xí)

建立在統(tǒng)計模型基礎(chǔ)上，事件抽取方法可以分為 pipeline 和 joint model 兩大類。

Pipeline

將事件抽取任務(wù)轉(zhuǎn)化為多階段的分類問題（管道抽?。枰樞驁?zhí)行下面的分類器：

事件觸發(fā)詞分類器（Trigger Classifier）
判斷詞匯是否是事件觸發(fā)詞，以及事件類別
元素分類器（Argument Classifier）
詞組是否是事件元素元素
角色分類器（Role Classifier）
判定元素的角色類別
屬性分類器（Attribute Classifier）
判定事件屬性
可報告性分類器（Reportable-Event Classifier）
判定是否存在值得報告的事件實例

分類器可以用 MaxEnt, SVM。重點還是在于提取和集成有區(qū)分性的特征，包括 **句子級信息 **和 篇章級信息。

句子級信息：與候選詞相關(guān)的詞法特征、上下文特征、實體特征、句法特征、語言學(xué)特征等，如：

篇章級特征：
跨文檔利用全局信息。對于一個句子級的抽取結(jié)果不僅要考慮當(dāng)前的置信度，還要考慮與待抽取文本相關(guān)的文本對它的影響，以及全局信息如事件與話題的關(guān)系，事件與事件的共現(xiàn)信息等，主要工作有：

Ji and Grishman, 2008
Liao and Grishman, 2010
Hong et.al., 2011
Liu et.al., 2016a

早期大部分的研究都是基于 Pipeline 方法，然而它的問題也很明顯：

誤差傳遞，導(dǎo)致性能衰減
各環(huán)節(jié)預(yù)測任務(wù)獨立，缺少互動，如忽略了事件觸發(fā)詞和事件元素之間的相互影響
無法處理全局的依賴關(guān)系

Joint Model

又分為 Joint Inference 和 Joint Modeling 兩種。

Joint Inference
使用集成學(xué)習(xí)的思路，將各模型通過整體優(yōu)化目標(biāo)整合起來，可以通過整數(shù)規(guī)劃等方法進(jìn)行優(yōu)化。
Joint Modeling (Structured)
又可以稱為基于結(jié)構(gòu)的方法，將事件結(jié)構(gòu)看作依存樹，抽取任務(wù)相應(yīng)轉(zhuǎn)化為依存樹結(jié)構(gòu)預(yù)測問題，觸發(fā)詞識別和元素抽取可以同時完成，共享隱層特征，使用搜索進(jìn)行求解，避免了誤差傳播導(dǎo)致的性能下降，另外，全局特征也可以從整體的結(jié)構(gòu)中學(xué)習(xí)得到，從而使用全局的信息來提升局部的預(yù)測。相關(guān)工作有：

Li et.al., 2013aLi
提出基于結(jié)構(gòu)感知機(jī)的聯(lián)合模型同時完成事件觸發(fā)詞識別和事件元素識別兩個子任務(wù)，并通過 beam search 縮小搜索解空間
Li et.al., 2014
為了利用更多的句子級信息，Li 等提出利用結(jié)構(gòu)預(yù)測模型將實體、關(guān)系和事件進(jìn)行聯(lián)合抽取

盡管 Li 等人的聯(lián)合系統(tǒng)優(yōu)勢明顯，但在未見詞和特征上缺乏泛化，人工提取的特征集是離散表達(dá)，能力有限。

幾種方法的 trigger 和 argument 抽取結(jié)果，可以看出，實體之間協(xié)同消歧對效果提升非常明顯

基于統(tǒng)計 - 深度學(xué)習(xí)

上面的方法在特征提取過程中還是會依賴依存分析、句法分析、詞性標(biāo)注等傳統(tǒng)的外部 NLP 工具，還是會造成誤差積累，另外有些語言和領(lǐng)域并沒有這類處理工具，加之特征也需要人工設(shè)定，2015 年起基于深度學(xué)習(xí)的事件抽取方法逐漸成為研究熱點，相比于傳統(tǒng)機(jī)器學(xué)習(xí)，深度學(xué)習(xí)方法優(yōu)勢明顯：

減少對外部 NLP 工具的依賴，甚至不依賴 NLP 工具，建立成端對端的系統(tǒng)
使用詞向量作為輸入，蘊含更為豐富的語言特征
自動提取句子特征，避免了人工特征設(shè)計的繁瑣工作

Pipeline - DMCNN

Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks Yubo Chen et. al., ACL 2015

自然語言處理中，傳統(tǒng) CNN 使用的最大池化對一個 feature map 只能得到一個最大值，這對事件抽取并不適用，因為事件抽取中一個句子中可能會包含多個事件，一個 argument candidate 在不同的 trigger 下也會扮演不同的角色，傳統(tǒng)的最大池化只保留“最重要”的信息，而丟失的信息會導(dǎo)致 multiple-event sentence 下的事件漏分。DMCNN 使用動態(tài)多池化卷積能實現(xiàn)對一個句子中不同部分的最大值獲取，以保留更多有價值的信息，邏輯和 PCNN 相似。

DMCNN 作者把事件抽取看做兩個階段的多分類任務(wù)，第一步是觸發(fā)詞分類（trigger classification），利用 DMCNN 對句子中每個詞進(jìn)行分類，判斷是否是觸發(fā)詞，如果句子中存在觸發(fā)詞，執(zhí)行第二步論元分類（argument classification），同樣使用 DMCNN，給 trigger 分配 arguments，同時匹配 arguments 到 role，以第二個任務(wù)為例介紹一下過程。

主要包括四個部分，以 argument classification 為例：

詞向量學(xué)習(xí)；
Lexical-level 詞匯級別特征提取；
候選論元/觸發(fā)詞及其前后單詞的詞向量
Sentence-level 句子級別特征提取；
輸入特征：
a. Context-word feature(CWF)
b. Position feature(PF)當(dāng)前詞語和候選論元/觸發(fā)詞之間的相對距離，距離值用向量表示，隨機(jī)初始化
c. Event-type feature(EF)當(dāng)前 trigger 對應(yīng)的事件類型特征
d. CWF, PF, EF 拼接作為卷積的輸入卷積后，根據(jù) candidate argument 和 predicted trigger 將 feature map 分成三部分，分別對各部分進(jìn)行最大池化
Output 分類輸出
拼接詞匯級別和句子級別的特征 F=[L, P]O = WF+b 算分，進(jìn)行 softmax，得到 argument role 的類別

Trigger classification 階段：

Lexical-level
只使用候選觸發(fā)詞和其左右token
Sentence-level
CWF + PF，PF 只使用候選觸發(fā)詞的位置作為嵌入位置特征
句子由觸發(fā)詞分割成兩部分

DMCNN的表現(xiàn)：

DMCNN 的效果是突破性的，但分兩個階段的預(yù)測仍有誤差傳遞的問題，也沒有利用好 trigger 和 argument 之間的依賴關(guān)系。

Joint Model - JRNN

JRNN: Joint Event Extraction via Recurrent Neural Networks, ACL 2016

Nguyen et.al., 2016 通過 RNN 用聯(lián)合方法解決時間抽取的問題，繼承了 Li (2013) 和 Chen (2015) 的優(yōu)點，并克服了它們的一些缺陷。

Encoding phase
word embedding + entity type embedding + dependency tree relationdependency tree relation 是 binary 的，個人理解應(yīng)該是維度對應(yīng)依存樹中單詞間所有可能的關(guān)系（如 conj_and, advcl 等），只有在依存樹 W 中存在與 w_i 連接的一條對應(yīng)邊（如 conj_and 連接了 w_i 與 w_j）時，該維度（conj_and 對應(yīng)維度）的值才設(shè)為 1，這個向量在 Li et al., 2013 的研究中是有用的。沒有用到位置特征，因為同時預(yù)測 trigger 和 argument roles，沒有固定的錨點。雙向 GRU 進(jìn)行編碼
Prediction phase

當(dāng)輸入句子包含多個事件時（1/N），JRNN 明顯優(yōu)于其他方法。特別是，JRNN 在觸發(fā)詞識別上 DMCNN 好13.9％，而論元分類的相應(yīng)改進(jìn)為 6.5％，從而進(jìn)一步表明 JRNN 具有記憶功能的好處。在單事件句子（1/1）的表現(xiàn)上，JRNN 在觸發(fā)詞分類上仍然是最好的系統(tǒng)，盡管在論元分類上比 DMCNN 要差一些。

弱監(jiān)督/語料擴(kuò)充

有監(jiān)督的方法需要大量的標(biāo)注樣本，人工標(biāo)注耗時耗力，還存在一致性的問題，因此弱監(jiān)督方法也是事件抽取的一個重要分支。
Chen 等提出利用部分高質(zhì)量的標(biāo)注語料訓(xùn)練分類器，然后利用初步訓(xùn)練好的分類器判斷未標(biāo)注的數(shù)據(jù)，選取高置信度的分類樣本作為訓(xùn)練樣本，通過迭代自動擴(kuò)充訓(xùn)練樣本[Chen and Ji, 2009]。Liao 等在相關(guān)文檔中使用自訓(xùn)練的（Self-Training）的半監(jiān)督學(xué)習(xí)方法擴(kuò)展標(biāo)注語料，并利用全局推理的方法考慮樣例的多樣性進(jìn)而完成事件抽取；進(jìn)一步提出同時針對詞匯和句子兩個粒度訓(xùn)練最大熵分類器，并用協(xié)同訓(xùn)練（Co-training）的方法擴(kuò)展標(biāo)注數(shù)據(jù)，進(jìn)而對分類器進(jìn)行更充分的訓(xùn)練[Liao and Grishman, 2011a; 2011b]。

而目前，弱監(jiān)督/訓(xùn)練數(shù)據(jù)生成方面比較流行的方向有利用外部資源，通過遠(yuǎn)程監(jiān)督，以及跨語料遷移的方法。

外部資源
Leveraging FrameNet to Improve Automatic Event Detection, ACL2016
FrameNet 是語言學(xué)家定義及標(biāo)注的語義框架資源，采用層級的組織結(jié)構(gòu)，有1000+框架、1000+詞法單元、150000+標(biāo)注例句。在結(jié)構(gòu)上，F(xiàn)rameNet 和事件抽取有著很高的相似性，一個框架由一個詞法單元和若干框架元素組成，一個事件有觸發(fā)詞和若干事件角色組成。另外，F(xiàn)rameNet 中很多 frame 其實也能夠表示某些事件，如

因此，Liu 等利用 ACE 語料訓(xùn)練的分類器去判定 FrameNet 中句子的事件類別，再利用全局推斷將 FrameNet 的語義框架和 ACE 中的事件類別進(jìn)行映射，進(jìn)而利用 FrameNet 中人工標(biāo)注的事件樣例擴(kuò)展訓(xùn)練數(shù)據(jù)以提升事件檢測性能 [Liu et.al., 2016b]。

遠(yuǎn)程監(jiān)督

Automatically Labeled Data Generation for Large Scale Event Extraction, ACL2017

Yubo Chen 提出運用結(jié)構(gòu)化的知識庫來以及遠(yuǎn)程監(jiān)督的方法來自動生成大規(guī)模事件語料。

當(dāng)把關(guān)系抽取中常用的遠(yuǎn)程監(jiān)督方法用到事件抽取中時，會發(fā)現(xiàn)有下面兩個問題，一是現(xiàn)有事件知識庫（如 Freebase）中缺乏觸發(fā)詞信息，如上圖，在關(guān)系抽取中，我們可以用兩個論元 Barack Obama, Michelle Obama 進(jìn)行回標(biāo)，但是在事件抽取中，marriage 這一事件類型在 Freebase 中被表示為 m.02nqglv，所以我們不能直接用事件類型和論元來進(jìn)行回標(biāo)，在用 DS 前，必須先檢測觸發(fā)詞。

根據(jù) DS 在 RE 中的應(yīng)用，可以假設(shè)如果一個句子中出現(xiàn)了所有的論元，那么這個句子就可以被作為是一個事件，句子中的動詞就可以作為觸發(fā)詞。然而一個事件中的論元可能出現(xiàn)在多個句子中，如果用所有論元來進(jìn)行句子的回標(biāo)，那么能抽出的訓(xùn)練數(shù)據(jù)就非常少了，所以應(yīng)該對論元進(jìn)行排序，選擇有代表性的論元進(jìn)行回標(biāo)。

整個流程如下，首先對 Freebase 中的核心論元進(jìn)行檢測，根據(jù)角色顯著性（role saliency）、事件相關(guān)性（ event relevance）和核心率（key rate） 對論元進(jìn)行優(yōu)先級排序，接著利用所有的核心論元去 Wikipeida 中回標(biāo)，根據(jù)觸發(fā)率（trigger rate）、觸發(fā)詞頻率（ trigger candidate frequency）、觸發(fā)詞事件頻率（trigger event type frequency）來進(jìn)行觸發(fā)詞檢測，這一階段得到的觸發(fā)詞表中只有動詞，缺少名詞，也存在噪聲，于是再利用 FrameNet 過濾動詞性觸發(fā)詞中的噪聲，同時擴(kuò)展名詞性觸發(fā)詞，最后利用 Soft Distant Supervision 來自動生成標(biāo)注數(shù)據(jù)。

還有方法如 Karthik Narasimhan et al., EMNLP 2016，從網(wǎng)絡(luò)獲取同一事件的不同報道，再使用強(qiáng)化學(xué)習(xí)方法，做信息融合的決策（互補信息的融合、冗余信息的選擇）。

跨語料遷移
由于目前中文事件抽取缺少公認(rèn)語料，很多學(xué)者嘗試?yán)矛F(xiàn)有大量的高質(zhì)量英文標(biāo)注語料輔助中文事件抽取。Chen 等首次提出該想法并利用跨語言協(xié)同訓(xùn)練的 Bootstrap 方法進(jìn)行事件抽取[Chen and Ji, 2009]。Ji 提出基于中英文單語事件抽取系統(tǒng)和基于并行語料兩種構(gòu)建跨語言同義謂詞集合的方法輔助進(jìn)行中文事件抽取[Ji, 2009]，Zhu 等利用機(jī)器翻譯同時擴(kuò)大中文和英文訓(xùn)練語料，聯(lián)合利用兩種語料進(jìn)行事件抽取[Zhu et.al., 2014]。Hsi 等聯(lián)合利用符號特征和分布式特征的方法，利用英文事件語料提升中文事件抽取的性能[Hsi et.al., 2016]。

Event Detection via Gated Multilingual Attention Mechanism, AAAI2018

Motivation：

多語言一致性，不同語言中表達(dá)了相同含義的句子往往包含相同的語義成分如 MeiGuo TanKe 和 American tank 表達(dá)了相同含義，都是武器
多語言互補，某個詞在一種語言中有歧義，但在另一種語言中缺沒有歧義如英文 fire，因為有開火和解雇兩種意思，所以對應(yīng)事件可能是 Attack 也可能是 End-Position，然而在中文中開火，Attach 類型，解雇就是 End-Position 類型，兩個詞沒有相同語義

所以文章提出了兩種 attention 機(jī)制，一是利用多語言一致性，分別對每種語言進(jìn)行單語語境的注意力計算，對每個候選觸發(fā)詞，對其上下文進(jìn)行注意力機(jī)制，注意力權(quán)重表示句子中不同單詞對預(yù)測事件類型的重要性，二是利用互補信息，用 gated cross-lingual attention 來模擬其他語言的可信度，gate 來控制目標(biāo)語言流向源語言的信息，集成多語言的信息。

中文事件抽取

目前事件抽取的相關(guān)研究大部分是面向英文文本，中文文本的工作才剛起步，一方面，中文的自身特點（需要分詞、缺少時態(tài)和形態(tài)的變換）有一定挑戰(zhàn)，另一方面，數(shù)據(jù)集上也缺乏統(tǒng)一、公認(rèn)的語料資源和相關(guān)評測。盡管如此，近年來中文事件抽取在公開評測、領(lǐng)域擴(kuò)展及上述的跨語料遷移方面也都取得了一些進(jìn)展。

公開評測方面，除了在模型方面的創(chuàng)新[Chen and Ng, 2012;Li et.al., 2012a;2013b]，在中文語言特性的利用方面，Li 等通過中文詞語的形態(tài)結(jié)構(gòu)、同義詞等信息捕獲更多的未知觸發(fā)詞，進(jìn)而解決中文事件抽取面臨的分詞錯誤和訓(xùn)練數(shù)據(jù)稀疏等問題；進(jìn)一步細(xì)分中文事件觸發(fā)詞內(nèi)部的組合語義（復(fù)合、附加和轉(zhuǎn)化），進(jìn)而提高系統(tǒng)的性能[Li et.al., 2012b]。Ding 等利用聚類的方法自動生成新事件類型的語料，在抽取過程中特別地考慮了待抽取文本的 HowNet 相似度[Ding et.al., 2013]。

特定領(lǐng)域方面，國內(nèi)很多機(jī)構(gòu)均面向?qū)嶋H應(yīng)用展開特定領(lǐng)域的事件抽取研究，覆蓋突發(fā)災(zāi)難、金融、軍事、體育、音樂等多個領(lǐng)域。例如，Zhou 等針對金融領(lǐng)域事件中的收購、分紅和貸款三個典型事件，提出自動構(gòu)建抽取規(guī)則集的方法進(jìn)行中文金融領(lǐng)域事件抽取 [Zhou, 2003]；Liang 等利用事件框架的歸納和繼承特性實現(xiàn)對災(zāi)難事件的抽取[Liang and Wu, 2006]。

其他方向的一些 Paper:
特征表示：
– Argument Attention: Exploiting Argument Information to Improve Event Detection via Supervised Attention Mechanisms (ACL2017)多事件抽?。?br> – HBTNGMA: Collective Event Detection via a Hierarchical and Bias Tagging Networks with GatedMulti-level Attention (EMNLP-2018)
篇章級事件抽?。?br> – DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically LabeledTraining Data (ACL 2018)
事件關(guān)系抽?。?br> – ATT-ERNN: Attention-based Event Relevance Model for Stock Price Movement Prediction (CCKS-2017 Best Paper Award)
– MLNN: Event Coreference Resolution via Multi-loss Neural Network without Arguments （CCKS-2018）

主流方法包括基于相似度聚類和基于概率統(tǒng)計兩類。在這不多做介紹。以后有時間再補充。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

知識抽取-事件抽取

知識抽取-事件抽取

事件識別和抽取

基于模式匹配的方法

基于人工標(biāo)注語料

基于弱監(jiān)督

小結(jié)

基于統(tǒng)計 - 傳統(tǒng)機(jī)器學(xué)習(xí)

Pipeline

Joint Model

基于統(tǒng)計 - 深度學(xué)習(xí)

Pipeline - DMCNN

Joint Model - JRNN

弱監(jiān)督/語料擴(kuò)充

遠(yuǎn)程監(jiān)督

中文事件抽取

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

知識抽取-事件抽取

事件識別和抽取

基于模式匹配的方法

基于人工標(biāo)注語料

基于弱監(jiān)督

小結(jié)

基于統(tǒng)計 - 傳統(tǒng)機(jī)器學(xué)習(xí)

Pipeline

Joint Model

基于統(tǒng)計 - 深度學(xué)習(xí)

Pipeline - DMCNN

Joint Model - JRNN

弱監(jiān)督/語料擴(kuò)充

遠(yuǎn)程監(jiān)督

中文事件抽取

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av