論文筆記 | 事件分類中基于潛在全局信息開發(fā)方法的概率軟邏輯模型

本文主要復(fù)述論文["A Probabilistic Soft Logic Based Approach to Exploiting Latent and Global Informationin Event Classi?cation"] 的主要內(nèi)容,以便自我回顧,也希望可以給大噶帶來幫助~

摘要

不能由NLP工具直接獲得的潛在信息對于事件分類是至關(guān)重要的,比如事件之間的關(guān)聯(lián)信息、細(xì)粒度實體類型的潛在局部信息。這篇論文不同于以往著眼于復(fù)雜局部特征的方法,而是充分利用這些全局信息來實現(xiàn)事件分類。為此,作者提出了一種概率軟邏輯模型,以邏輯的形式編碼全局信息。

介紹

全局信息:對于例句(1)He left the company, and he planned to go home directly. 我們從第一個trigger"left"很難判斷出它是Transport事件還是End-Position事件,但是聯(lián)合后面子句中的"go"就可以很明確的判斷出標(biāo)記"left"是Transport事件的概率更大。論文中描述此類全局信息為事件-事件聯(lián)合型。
潛在局部信息:對于例句(2)Obama beat McCain.僅從Obama與McCain被標(biāo)記為person是無法判斷trigger"beat"是elect事件還是attack事件的,但進一步的,如果我們有Obama與McCain被標(biāo)記為政治人物的信息,也可以明確判定elect事件的可能性更大。論文中描述這類潛在信息為細(xì)粒度的實體類型。
** Probabilistic Soft Logic **:為了更合理的表示全局特征,作者提出了以邏輯形式來實現(xiàn)全局信息的編碼。該方法可描述為兩部分:1.對于局部部分學(xué)習(xí)一個分類器,使用局部特征為每個觸發(fā)候選者生成初始判斷;2.在全局部分,收集“事件-事件”關(guān)聯(lián)和“主題事件”關(guān)聯(lián)作為全局信息并構(gòu)建全局信息數(shù)據(jù)庫;3.將初始判斷和全局信息形成一節(jié)邏輯公式,并以概率軟邏輯訓(xùn)練模型從而生成結(jié)果。
該方法的流程圖展示如Figure1

The Local Part

作者將局部信息規(guī)劃為詞的分類任務(wù),將每個句子中的候選觸發(fā)詞分類成ACE語料庫中定義的34(33種事件類型+未定義類型)種類型。作者選擇Logistic回歸模型訓(xùn)練分類器,分類器產(chǎn)出基于這34種類型的概率分布。
細(xì)粒度的實體類型:為了給實體成分更多詳細(xì)的描述,作者選擇了WordNet,采用K-means聚類算法來生成實體成分的描述。table1展示了聚類后的實體信息描述。其中的標(biāo)簽是手動標(biāo)記的。


候選觸發(fā)器類型:同實體成分,作者針對候選觸發(fā)器(根據(jù)詞性標(biāo)簽先刪除非觸發(fā)詞)也做了聚類處理。table2展示了觸發(fā)器分類的結(jié)果。
c1指代Attack事件,c2指代無標(biāo)記事件

構(gòu)造潛在特征:為了提高全局信息和局部潛在信息的利用率,作者構(gòu)造了幾個特征來捕獲與整個句子相關(guān)的信息。1).RCF:Rich Context Features和base features的連接;2).FET:Fine-grainedEntity Types和base features的連接;3).TCT:Trigger Candidate Types和base features的連接。

The Global Part

事件-事件聯(lián)合:論文中以條件概率的形式表示兩個不同事件類型共現(xiàn)的概率,在句子級和文檔級的層面上該種聯(lián)合概率的分布表示等式(1)和(2),其中T表示所有的事件類型集合,t1和t2表示事件類型。

同時,定義兩個指標(biāo)函數(shù)Isen(C1,C2)和Idoc(C1,C2)。其中Ci表示候選觸發(fā)器,I(C1,C2)為真當(dāng)且僅當(dāng)C1和C2在同一個句子(文檔)中。
主題-事件聯(lián)合:一個文檔的主題可以指向幾個確定的事件類型。作者給每個文檔標(biāo)記主題標(biāo)簽,之后計算一個事件類型t在話題p下的條件分布情況(3)。
定義指標(biāo)函數(shù)It(c,p),It判定為真當(dāng)且僅當(dāng)包含觸發(fā)器c的文檔為p。有關(guān)全局信息的編碼方式總結(jié)為table3。
定義eventType(c,t)表示觸發(fā)詞c屬于事件類型t。根據(jù)table3中的描述,可以定義出table4中的公式來表示事件類型之間的關(guān)系,并應(yīng)用到PSL模型中,從而提高事件分類的準(zhǔn)確率。

實驗

不同于其他的事件抽取方面的工作,該篇論文著重于事件觸發(fā)詞的分類,將實體類型的描述具體化,觸發(fā)器類型采用聚類方法使得其特征更加明顯,減少候選觸發(fā)詞的二義性帶來的影響。

實驗選取ACE2005語料庫,訓(xùn)練集測試集的選擇參照之前已有的工作。同樣的,語料庫的處理也選擇Stanford CoreNLP。實驗結(jié)果展示為table5。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者。

相關(guān)閱讀更多精彩內(nèi)容

  • ??JavaScript 與 HTML 之間的交互是通過事件實現(xiàn)的。 ??事件,就是文檔或瀏覽器窗口中發(fā)生的一些特...
    霜天曉閱讀 3,679評論 1 11
  • 第三章 數(shù)據(jù)庫系統(tǒng) 3.1 數(shù)據(jù)庫管理系統(tǒng)的類型 通常有多個分類標(biāo)準(zhǔn)。如按數(shù)據(jù)模型分類、按用戶數(shù)分類、按數(shù)據(jù)庫分布...
    步積閱讀 3,114評論 0 7
  • 國家電網(wǎng)公司企業(yè)標(biāo)準(zhǔn)(Q/GDW)- 面向?qū)ο蟮挠秒娦畔?shù)據(jù)交換協(xié)議 - 報批稿:20170802 前言: 排版 ...
    庭說閱讀 12,306評論 6 13
  • Swift1> Swift和OC的區(qū)別1.1> Swift沒有地址/指針的概念1.2> 泛型1.3> 類型嚴(yán)謹(jǐn) 對...
    cosWriter閱讀 11,621評論 1 32
  • “人生就像一場舞會,教會你最初舞步的人卻未必能陪你走到散場?!痹S雅蜷縮在沙發(fā),端著紅酒,望著杯中狼狽的自己,淚水便...
    離小落閱讀 658評論 0 0

友情鏈接更多精彩內(nèi)容