Entity Linking 文章思路整理

Entity Linking,或者Entity Normalization,Concept Linking等,通常指將自然語言中,通常為科學文獻的各類概念,實體提及,對應到Ontology或是數(shù)據(jù)庫,例如wiki中的唯一ID。通過對Entity Linking近年來方法的閱讀,主要總結為一下幾步,1. 對Token進行表示,通常利用work2vec,glove等模型,也有利用Bert,ELMO等基于上下文調(diào)整token詞嵌入模型的。2. 利用Token嵌入加權求和,Attention,卷積等方法得到Entity及Mention的嵌入。3. 利用余弦相似度等嵌入相似度評價指標,或神經(jīng)網(wǎng)絡等方法,得到與每個Mention最相似的Entity嵌入排序。4. 部分文章包含,使用外部信息,例如知識圖譜提供的Entity嵌入,或者其他上下文嵌入,Entity的description等嵌入來進行Re-Rank,加強每個Mention最相似的Entity排序。這一問題同知識檢索系統(tǒng)系統(tǒng)所解決的Query對應Key的問題大相徑庭,下面將整理近期讀過的關于Entity Linking的文章思路進行總結匯總,僅供項目推進。

關鍵貢獻點及參考點用加粗注釋。

一. Efficient One-Pass End-to-End Entity Linking for Questions. EMNLP 2020.

  1. 提出了一個Mention detection 和 Entity Linking 結合的Bert based bi-encoder model(ELQ Model).

  2. Aims to:
    2.1 identify the mention boundaries of entities in a given question.
    2.2 and their Wikipedia entity。

  3. Methods step:
    3.1 entity encoder利用Wikipedia中每個實體的描述構建每個實體的嵌入,(考慮利用Concept的description或Ontology構建實體嵌入)。
    3.2 question encoder為輸入的問題構建 token-level的嵌入。
    3.3 利用question encoder 中每個token的嵌入決定Mention boundaries,并且每個Mention candidate的嵌入為包含的token嵌入的平均嵌入。
    3.4 利用entity和mention嵌入的內(nèi)積進行實體連接。

Biencoder
  1. ELQ Model.
    4.1 Question嵌入為[q1...qn]通過Bert后的嵌入。Entity嵌入通過Wikipedia中該實體對應網(wǎng)頁的Title和description初始化。

    ELQ Model

    4.2 分別用W_{start}^TW_{end}^T表示Mention起始及終止位置的狀態(tài)嵌入。W^T_{mention}表示Mention所包含單詞的權重。則p([i,j])表示該Mention出現(xiàn)的概率,其中i,j表示在Question中的第i個單詞和第j個單詞作為Mention的起始位置和終止位置。
    Mention Detection

    4.3 s(e,[i,j]))計算Question嵌入x_e和Mention嵌入y_{i,j}的相似度,p(e|[i,j])對分數(shù)進行softmax操作,利用神經(jīng)網(wǎng)絡最優(yōu)化Mention及Entity打分函數(shù)s(e,[i,j])。
    Entity Disambiguation

    4.4 構建兩個損失函數(shù),L_{MD}為衡量所有Mention出現(xiàn)的概率損失的binary cross entropy loss,L_{ED}衡量Entity Liking的損失,總損失為鏈各個損失之和。

  2. Trick
    5.1 實際計算中,因為Wikipedia中Entity數(shù)量太多,Softmax不好計算,所以設計參數(shù)\gammap([i,j])進行限制,再計算每個保留下來的Mention10個最近的Entity計算softmax。

  1. 參考:
    6.1 利用Wikipedia對每個Entity的title和description來初始化Entity嵌入。作為參考,我們同樣可以將Concept的描述,或者其他外部信息,例如定義等來強化Entity嵌入,或者將Ontology的樹狀結構加入嵌入信息?;蚶冒琈ention的句子來加強Mention嵌入,但是需要確保句子質(zhì)量,特別是利用Bert,ELMO這類模型時。
    6.2 設計打分函數(shù)利用神經(jīng)網(wǎng)絡學習Mention及Entity的Linking。
    6.3 最后Python package的輸出可以是Mention最相似的TopN的Entity。
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內(nèi)容