本文主要復(fù)述論文["A Probabilistic Soft Logic Based Approach to Exploiting Latent and Global Informationin Event Classi?cation"] 的主要內(nèi)容,以便自我回顧,也希望可以給大噶帶來幫助~
摘要
不能由NLP工具直接獲得的潛在信息對于事件分類是至關(guān)重要的,比如事件之間的關(guān)聯(lián)信息、細(xì)粒度實體類型的潛在局部信息。這篇論文不同于以往著眼于復(fù)雜局部特征的方法,而是充分利用這些全局信息來實現(xiàn)事件分類。為此,作者提出了一種概率軟邏輯模型,以邏輯的形式編碼全局信息。
介紹
全局信息:對于例句(1)He left the company, and he planned to go home directly. 我們從第一個trigger"left"很難判斷出它是Transport事件還是End-Position事件,但是聯(lián)合后面子句中的"go"就可以很明確的判斷出標(biāo)記"left"是Transport事件的概率更大。論文中描述此類全局信息為事件-事件聯(lián)合型。
潛在局部信息:對于例句(2)Obama beat McCain.僅從Obama與McCain被標(biāo)記為person是無法判斷trigger"beat"是elect事件還是attack事件的,但進一步的,如果我們有Obama與McCain被標(biāo)記為政治人物的信息,也可以明確判定elect事件的可能性更大。論文中描述這類潛在信息為細(xì)粒度的實體類型。
** Probabilistic Soft Logic **:為了更合理的表示全局特征,作者提出了以邏輯形式來實現(xiàn)全局信息的編碼。該方法可描述為兩部分:1.對于局部部分學(xué)習(xí)一個分類器,使用局部特征為每個觸發(fā)候選者生成初始判斷;2.在全局部分,收集“事件-事件”關(guān)聯(lián)和“主題事件”關(guān)聯(lián)作為全局信息并構(gòu)建全局信息數(shù)據(jù)庫;3.將初始判斷和全局信息形成一節(jié)邏輯公式,并以概率軟邏輯訓(xùn)練模型從而生成結(jié)果。
該方法的流程圖展示如Figure1

The Local Part
作者將局部信息規(guī)劃為詞的分類任務(wù),將每個句子中的候選觸發(fā)詞分類成ACE語料庫中定義的34(33種事件類型+未定義類型)種類型。作者選擇Logistic回歸模型訓(xùn)練分類器,分類器產(chǎn)出基于這34種類型的概率分布。
細(xì)粒度的實體類型:為了給實體成分更多詳細(xì)的描述,作者選擇了WordNet,采用K-means聚類算法來生成實體成分的描述。table1展示了聚類后的實體信息描述。其中的標(biāo)簽是手動標(biāo)記的。

候選觸發(fā)器類型:同實體成分,作者針對候選觸發(fā)器(根據(jù)詞性標(biāo)簽先刪除非觸發(fā)詞)也做了聚類處理。table2展示了觸發(fā)器分類的結(jié)果。

構(gòu)造潛在特征:為了提高全局信息和局部潛在信息的利用率,作者構(gòu)造了幾個特征來捕獲與整個句子相關(guān)的信息。1).RCF:Rich Context Features和base features的連接;2).FET:Fine-grainedEntity Types和base features的連接;3).TCT:Trigger Candidate Types和base features的連接。
The Global Part
事件-事件聯(lián)合:論文中以條件概率的形式表示兩個不同事件類型共現(xiàn)的概率,在句子級和文檔級的層面上該種聯(lián)合概率的分布表示等式(1)和(2),其中T表示所有的事件類型集合,t1和t2表示事件類型。

主題-事件聯(lián)合:一個文檔的主題可以指向幾個確定的事件類型。作者給每個文檔標(biāo)記主題標(biāo)簽,之后計算一個事件類型t在話題p下的條件分布情況(3)。



實驗
不同于其他的事件抽取方面的工作,該篇論文著重于事件觸發(fā)詞的分類,將實體類型的描述具體化,觸發(fā)器類型采用聚類方法使得其特征更加明顯,減少候選觸發(fā)詞的二義性帶來的影響。
