關(guān)于實體鏈接(Entity-Linking)任務(wù)的調(diào)研。
1. 簡介:
實體鏈接是指將自然語言文本中出現(xiàn)的實體提及(entity mention)關(guān)聯(lián)到對應(yīng)知識圖譜實體上去的任務(wù),如標(biāo)準(zhǔn)數(shù)據(jù)庫,知識庫,地名詞典,維基百科頁面等中的對應(yīng)條目進(jìn)行鏈接。
2. 主要的方法,三個模塊:
- 候選實體生成(candidate entity generation)模塊,負(fù)責(zé)從輸入文本中檢測出實體提及集合M(包括輸入文本中提到的所有實體),并從給定知識圖譜中找到每個實體提及可能對應(yīng)的候選實體集合,常用的候選實體生成方法包括詞典匹配方法、表層形式擴(kuò)展法和統(tǒng)計模型法;
- 實體消歧模塊,負(fù)責(zé)對每個實體提及m對應(yīng)的候選實體集合中多個候選實體打分和排序,并輸出得分最高的候選實體作為m的實體鏈接結(jié)果。常用的候選實體排序方法包括基于監(jiān)督學(xué)習(xí)的方法和基于非監(jiān)督學(xué)習(xí)的方法
- 無鏈接指代預(yù)測(unlinkable mention prediction),負(fù)責(zé)預(yù)測輸入文本中哪些實體提及是無法被鏈接到知識圖譜中去的。這種情況通常是由知識圖譜本身的不完備性導(dǎo)致的,即輸入文本中提及的實體尚未被現(xiàn)有知識圖譜覆蓋(在知識圖譜中找不到對應(yīng)的實體)。
3. 實現(xiàn)流程:
- 命名實體識別
- 候選實體生成
- 實體消歧
- 未發(fā)現(xiàn)實體聚類
4. 候選實體生成
4.1. 詞典匹配方法:
- 匹配詞典抽取方法,首先需要構(gòu)建抽取<實體提及,知識圖譜實體>對詞典,最常見的匹配詞典抽取方法是利用維基百科網(wǎng)站中實體標(biāo)題、重定向頁、消歧頁、加粗短語以及超鏈接之間的內(nèi)在連接抽取<實體提及,知識圖譜實體>。
-
下表給出基于不同類型數(shù)據(jù)進(jìn)行詞典構(gòu)建的具體方法。由于維基百科和包括Freebase 在內(nèi)的很多其他知識圖譜都存在很好的對應(yīng)關(guān)系,因此通過上述方法獲取的詞典能夠很好地用于基于其他知識圖譜的實體鏈接任務(wù)。
- 構(gòu)建好匹配詞典后,基于匹配詞典對輸入文本進(jìn)行實體提及識別的方式主要有兩種:
1)第一種采用完全匹配(exact match)方法,即文本中每個實體提及一定要準(zhǔn)確出現(xiàn)在匹配詞典中。完全匹配方法易于實現(xiàn),但對詞典實體提及集合的覆蓋度要求較高。一旦某個實體提及發(fā)生變化,匹配過程就會失敗。
2)第二種采用模糊匹配(fuzzy match)方法,即允許文本中每個實體提及和詞典中對應(yīng)的實體提及在字面上存在一定的差異。常見的模糊匹配機(jī)制包括:
- 如果文本中某個實體提及被詞典中某個實體提及完全包含或它完全包含詞典中某個實體提及,那么這兩個實體提及模糊匹配成功;
- 如里文本中某個實體提及和詞典中某個實體提及存在一定程度的單詞重疊,那么這兩個實體提及模糊匹配成功;
- 如果文本中某個實體提及和詞典中某個實體提及基于字符串相似度算法(例如 character Dice score,skip bigram Dice score,Hamming distance,編輯距離等)具有很高的相似性,那么這兩個實體提及模糊匹配成功
4.2. 統(tǒng)計學(xué)習(xí)方法(即命名實體識別)
- 詞典匹配方法采用預(yù)先抽取好的實體提及集合對輸入文本進(jìn)行實體提及檢測。一旦某些實體提及并未出現(xiàn)在匹配詞典抽取的語料中,那么該類方法就無法處理。
- 通過從標(biāo)注數(shù)據(jù)上抽取特征學(xué)習(xí)統(tǒng)計模型,可以用來檢測之前并未見過的實體提及(具有較好的泛化性)——命名實體識別任務(wù)。
5. 實體消歧(候選實體排序)
5.1. 監(jiān)督學(xué)習(xí)方法:
監(jiān)督學(xué)習(xí)方法使用的特征分為上下文無關(guān)特征和上下文相關(guān)特征兩大類。
- 上下文無關(guān)特征(context-independent feature)僅基于實體提及和候選實體本身對不同候選實體進(jìn)行打分和排序。常用的上下文無關(guān)特征包括:
- 實體提及和候選實體的名稱是否完全匹配;
- 實體提及(或候選實體)是否以候選實體(或?qū)嶓w提及)作為前綴或后綴;
- 實體提及(或候選實體)是否完全包含候選實體(或?qū)嶓w提及);
- 實體提及所包含單詞的首字母序列是否和候選實體所包含首字母序列相同;
- 實體提及和候選實體共同包含的單詞數(shù)目;
- 候選實體流行度特征,表示實體提及m鏈接到候選實體 的先驗概率
- 實體提及和候選實體之間的類型匹配特征。該特征對比實體提及的NER 類型(例如 People,Location、Organization 等)與候選實體在知識圖譜中的類型是否一致。
- 上下文相關(guān)特征(context-dependent feature)基于實體提及和候選實體所在上下文之間的相關(guān)度對不同候選實體進(jìn)行打分和排序。常用的上下文相關(guān)特征包括:
- 詞袋特征,通過將實體提及和候選實體分別表示為向量形式,計算二者之間的相似性。實體提及向量等于該實體提及所在上下文對應(yīng)的詞袋向量表示。 候選實體向量根據(jù)實體的來源不同,生成的方式也不同:對于來自維基百科的候選實體,該向量等于該實體維基百科頁面對應(yīng)的詞袋向量表示;對于來自知識圖譜的候選實體,該向量等于與該實體直接相連的知識圖譜實體和謂詞對應(yīng)的詞袋向量表示。
- 概念向量特征,專門針對基于維基百科的實體鏈接任務(wù)。對于每個候選實體,基于該實體維基百科頁面中的重定向、錨文本、關(guān)鍵詞、InfoBox 等信息生成一個概念向量,并計算其與實體提及上下文對應(yīng)詞袋向量之間的相似度。
- 基于上述特征可以利用多種機(jī)器學(xué)習(xí)算法,訓(xùn)練候選實體排序模型?;跇闼刎惾~斯、最大熵或支持向量機(jī)可以訓(xùn)練二分類器,用來決定實體提及m和候選實體e間是否存在鏈接關(guān)系。
5.2 無監(jiān)督學(xué)習(xí)算法:
為了減少實體鏈接系統(tǒng)對標(biāo)注數(shù)據(jù)的需求,可以將無監(jiān)督學(xué)習(xí)方法用于候選實體排序任務(wù)。常用的方法包括基于向量空間模型的方法和基于信息檢索的方法。
- 基于向量空間模型的方法首先將實體提及m和m對應(yīng)的某個候選實體分別轉(zhuǎn)化為向量表示。然后,通過計算這兩個向量表示之間的距離對不同候選實體進(jìn)行排序。實體提及和候選實體的不同向量表示生成方法對應(yīng)了不同的工作。
- 基于信息檢索的方法將每個知識圖譜實體對應(yīng)的維基百科文檔作為該實體的表示,并基于該類文檔對全部知識圖譜實體建立索引。給定輸入文本中的一個實體提及m,該類方法首先從輸入文本中找到包含m的全部句子集合,并通過去停用詞等過濾操作生成一個查詢語句。然后,使用該查詢語句從知識圖譜實體對應(yīng)的索引中查找得到相關(guān)性最高的知識圖譜實體,作為m的實體鏈接結(jié)果。
- 無監(jiān)督學(xué)習(xí)方法通常適用于長文本實體鏈接任務(wù),這是由于短文本無法很好地生成實體提及對應(yīng)的向量表示或查詢語句。
6. 無鏈接提及預(yù)測:
由于知識圖譜的不完備性,并不是每個實體提及在知識圖譜中都能夠找到對應(yīng)的實體。對于這類實體提及,實體鏈接系統(tǒng)通常將其鏈接到一個特殊的“空實體(用符號 NIL 表示)”上去,該任務(wù)就是無鏈接提及預(yù)測(unlinkable mention prediction).
無鏈接提及預(yù)測任務(wù)常用的策略有三種:
- 如果一個實體提及對應(yīng)的候選實體生成結(jié)果是空集,那么該實體提及的鏈接結(jié)果是NIL;
- 如果一個實體提及對應(yīng)排名最高的候選實體得分低于一個預(yù)先設(shè)定的閾值,那么該實體提及的鏈接結(jié)果是 NIL.這里用到的閾值通常根據(jù)系統(tǒng)在標(biāo)注數(shù)據(jù)上的表現(xiàn)進(jìn)行預(yù)設(shè);
- 給定一個實體提及及其對應(yīng)排名最高的候選實體,使用二分類器對其進(jìn)行分類。如果分類結(jié)果是1,則返回候選實體作為實體鏈接結(jié)果。否則,該實體提及的鏈接結(jié)果是 NIL. 此外,也可以將NIL 作為一個特殊的實體直接加到每個實體提及對應(yīng)的候選實體集合中進(jìn)行打分和排序。
7. 總結(jié):
實體鏈接任務(wù)對智能問答系統(tǒng)而言非常重要。成功識別問題中提到的知識圖譜實體不僅有助于問答系統(tǒng)對問題的理解、輔助問答系統(tǒng)完成對問題和答案類型的判斷,還能將該實體作為橋梁從知識圖譜中找到更多的相關(guān)信息幫助答案排序或答案生成任務(wù)。
在智能問答場景中,由于真實問題的長度通常較短、知識圖譜內(nèi)容不完備、實體鏈接對應(yīng)標(biāo)注數(shù)據(jù)集有限等原因,實體鏈接任務(wù)目前依然存在許多問題和挑戰(zhàn)。未來的研究需要更大規(guī)模和更高覆蓋度的標(biāo)注數(shù)據(jù),用于訓(xùn)練更加魯棒(robust)的實體鏈接系統(tǒng)。此外,實體鏈接任務(wù)需要和智能問答系統(tǒng)進(jìn)行整合,進(jìn)行端到端的訓(xùn)練,這樣有助于避免子模塊可能產(chǎn)生的錯誤傳遞問題。
參考:
知識圖譜問答:實體鏈接概述
