論文閱讀:Automatically Labeled Data Generation for Large Scale Event Extraction

簡介

這篇文章關(guān)注對event extraction提供標(biāo)注數(shù)據(jù)的方法。傳統(tǒng)的hand-labeled的訓(xùn)練數(shù)據(jù)非常昂貴,并且event覆蓋的非常有限。這使得一些supervised的方法很難去抽取大規(guī)模的event來進(jìn)行KBP(knowledge base population)。

我們知道,關(guān)系抽取中可以用遠(yuǎn)程監(jiān)督的方法來自動(dòng)標(biāo)注數(shù)據(jù),一種想法就是可以不可以把這種方法擴(kuò)展到event extraction。然而這樣會(huì)有兩個(gè)問題:

  • 第一個(gè)問題
    事件抽取的目標(biāo)是檢測事件實(shí)例的類型并抽取其argument及role,即(event \, instance, event \, type; role_1, argument_1; role_2, argument_2; ...; role_n, argument_n)在Freebase等knowledge base中,事件的表示如圖所示:
    example-of-ee.png

    矩形表示事件實(shí)例的arguments,連接arguments和事件實(shí)例的每條邊都表示arguments的role,這樣看好像是可以使用遠(yuǎn)程監(jiān)督自動(dòng)標(biāo)注數(shù)據(jù),但是在通常的事件抽取中,一個(gè)事件實(shí)例通常是使用trigger word來表示的,但在現(xiàn)有的knowledge base 中并不存在事件的triggers。為了解決這個(gè)問題,所以需要在使用遠(yuǎn)程監(jiān)督前找到事件的trigger word。
  • 第二個(gè)問題
    一個(gè)句子實(shí)際上并不能夠包含某一事件的所有參數(shù),簡單地使用知識(shí)庫中的所有參數(shù)在句子中進(jìn)行標(biāo)記,將只有很少的句子滿足條件,因此作者選擇了幾個(gè)具有代表性的參數(shù)來代表事件。

方法

作者提出了一個(gè)利用world knowledge(Freebase)和linguistic knowledge(FrameNet)來自動(dòng)標(biāo)注event extraction所需要的數(shù)據(jù)的方法。這個(gè)方法能夠探測到每一個(gè)event type的key argument和trigger word,然后用它們來從文本中標(biāo)注event。


method.png

方法主要分為4步:

  1. Key Argument Detection
    使用Key Rate(KR) 來衡量某一事件類型中各個(gè)參數(shù)的重要性,然后在Freebase中計(jì)算每個(gè)事件類型中所有argument的KR,然后選擇前K大個(gè)作為key argument。
    計(jì)算KR公式如下:
    K R_{i j}=R S_{i j} * E R_{i}
    其中,RS為角色顯著性(Role Saliency)。區(qū)分同一類型中一個(gè)事件實(shí)例和另一個(gè)事件實(shí)例。
    R S_{i j}=\frac{\operatorname{Count}\left(A_{i}, E T_{j}\right)}{\operatorname{Count}\left(E T_{j}\right)}
    分子:eventType_j所有實(shí)例中出現(xiàn)Argument_i的數(shù)量,
    分母:eventType_j實(shí)例的總數(shù)。
    某一參數(shù)在某一特定類型中出現(xiàn)越多,說明RS越大,越能代表這個(gè)類型的特點(diǎn)。
    ER為事件相關(guān)性(Event Relevance)。區(qū)分不同事件類型。
    E R_{i}=\log \frac{\operatorname{Sum}(E T)}{1+\operatorname{Count}(E T C i)}
    分子:所有事件類型總數(shù),
    分母:出現(xiàn)過Argument_i的事件類型的數(shù)量。
    如果一個(gè)參數(shù)在所有事件類型中都出現(xiàn),那么則這個(gè)參數(shù)區(qū)分性不高,具有較低的ER。

  2. Trigger Word Detection
    包含所有key argument的句子更有可能表示Freebase中對應(yīng)的事件實(shí)例,首先使用key arguments在Wikipeida中篩選標(biāo)注句子,然后使用這些句子來進(jìn)行觸發(fā)詞檢測。
    這里有一個(gè)假設(shè):出現(xiàn)在這些句子中動(dòng)詞往往傾向于觸發(fā)這類事件。
    動(dòng)詞在同一種類型的事件中出現(xiàn)很多次,說明有可能為此事件的觸發(fā)詞,而如果動(dòng)詞在不同類型中均出現(xiàn),則為觸發(fā)詞的概率很小。作者使用Trigger Rate (TR)來衡量動(dòng)詞是trigger word的概率,最后選擇具有較高TR的動(dòng)詞作為對應(yīng)事件類型的trigger word。
    計(jì)算TR公式如下:
    T R_{i j}=T C F_{i j} * T E T F_{i}
    其中,Trigger Candidate Frequency (TCF)動(dòng)詞在同一類型事件中出現(xiàn)的頻率。
    T C F_{i j}=\frac{\operatorname{Count}\left(V_{i}, E T S_{j}\right)}{\operatorname{Count}\left(E T S_{j}\right)}
    分子:j類型中包含動(dòng)詞i的句子數(shù)量,
    分母:j類型中的句子數(shù)量。
    Trigger Event Type Frequency (TETF)衡量了動(dòng)詞在不同事件類型中的出現(xiàn)頻率。
    T E T F_{i}=\log \frac{\operatorname{Sum}(E T)}{1+\operatorname{Count}\left(E T I_{i}\right)}
    分子:所有事件類型總數(shù),
    分母:句子中出現(xiàn)過動(dòng)詞i的事件類型數(shù)量。

  3. Trigger Word Filtering and Expansion
    上面得到的初始觸發(fā)詞中只有動(dòng)詞,然而像marriage這種名詞也是可以作為觸發(fā)詞的,又因?yàn)榫渥又忻~數(shù)量遠(yuǎn)多于動(dòng)詞,所以使用像動(dòng)詞一樣的TR方法不現(xiàn)實(shí)。故采用FrameNet來過濾和擴(kuò)展trigger words。使用詞嵌入技術(shù),來衡量詞的相似性,將Freebase的事件映射到FrameNet的frame,然后過濾掉在FrameNet中沒有對應(yīng)映射的動(dòng)詞,在動(dòng)詞映射到的frame中使用具有高度置信度的名詞來擴(kuò)展觸發(fā)詞。

  4. Automatically labeled data generation
    包含某一事件類型所有key argument和任何trigger word的句子在某種意義上可表示一個(gè)事件,這里使用Soft Distant Supervision的方法在Wikipedia中重新篩選和標(biāo)注句子。從而得到了自動(dòng)標(biāo)注的數(shù)據(jù)。

實(shí)驗(yàn)

人工對自動(dòng)標(biāo)注的數(shù)據(jù)進(jìn)行檢查,標(biāo)注正確就標(biāo)個(gè)y,反之標(biāo)n。三個(gè)人進(jìn)行檢查,最終結(jié)果投票決定,結(jié)果顯示自動(dòng)標(biāo)注的數(shù)據(jù)質(zhì)量很高。
將自動(dòng)標(biāo)注的數(shù)據(jù)與ACE數(shù)據(jù)結(jié)合,進(jìn)行檢查,實(shí)驗(yàn)結(jié)果顯示大規(guī)模自動(dòng)標(biāo)注的數(shù)據(jù)與精心設(shè)計(jì)的人工標(biāo)注的數(shù)據(jù)效果相當(dāng)。所提出的自動(dòng)標(biāo)注的數(shù)據(jù)能夠與人工標(biāo)注的數(shù)據(jù)結(jié)合用來提高利用這些數(shù)據(jù)訓(xùn)練的模型的性能。
另外,為了緩解自動(dòng)標(biāo)注過程中遠(yuǎn)程監(jiān)督帶來的誤標(biāo)注問題,文中提到了一種多實(shí)例學(xué)習(xí)(Multi-instance Learning)的方法,將多個(gè)句子看作一個(gè)包,也帶來了事件抽取效果上的提升。

Reference

Automatically Labeled Data Generation for Large Scale Event Extraction

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容