LLM系列論文閱讀(1)

論文信息

論文題目:Instructed Language Models with Retrievers Are Powerful Entity Linkers
論文原文:arxiv.org/pdf/2311.03250.pdf

摘要

LLM的生成能力已經(jīng)被證明了能夠解決復(fù)雜推理的任務(wù)中。然而,LLM存在幻覺現(xiàn)象,因此不適合以實(shí)體為中心的任務(wù),如實(shí)體鏈接(EL),比如需要在一個(gè)大型知識(shí)庫上進(jìn)行精確的實(shí)體預(yù)測(cè)這樣的任務(wù)。為此,我們提出了Instructed Language Models with Retrievers Are Powerful Entity Linkers(INSGENEL),這是一種可以使casual language models依托知識(shí)庫來執(zhí)行實(shí)體鏈接的模型。使休閑語言模型能夠通過知識(shí)庫執(zhí)行實(shí)體鏈接。本文提出的模型主要有以下改進(jìn)點(diǎn)。第一,借助指令微調(diào)對(duì)模型進(jìn)行SeqSeq訓(xùn)練,使其適應(yīng)EL目標(biāo)。第二,一種新的生成式EL框架,基于一個(gè)輕量級(jí)的潛在提及檢索器,將模型從重的和非并行的解碼中解放出來,實(shí)現(xiàn)4×推理加速。此外,我們發(fā)現(xiàn) EL任務(wù)仍然是LLM的一個(gè)性能瓶頸。

介紹

  • 實(shí)體鏈接(EL)是 NLP 和IR領(lǐng)域的一個(gè)基本的研究問題,它作為一個(gè)基本任務(wù)在各種NLP任務(wù)中出現(xiàn)。以前的EL方法通常分為兩個(gè)步驟:提及檢測(cè)(MD)和實(shí)體消歧(ED)。一旦進(jìn)入MD模型生成實(shí)體提及,那么ED模塊將實(shí)體提及上下文和候選實(shí)體編碼為表示。然后使用一個(gè)簡(jiǎn)單的最大內(nèi)積搜索(MIPS)來捕獲提及-實(shí)體的對(duì)應(yīng)關(guān)系,從而產(chǎn)生對(duì)整個(gè)知識(shí)庫(KB)的最終實(shí)體預(yù)測(cè)。EL研究最近的一個(gè)趨勢(shì)是建立一個(gè)端到端管道,將MD和ED連接起來,并將它們制定成不同的任務(wù),如問答、多任務(wù)學(xué)習(xí)和語言生成。
  • 雖然生成式大型語言模型(LLMs)在許多NLP任務(wù)中顯示出優(yōu)秀的能力,但在以實(shí)體為中心的NLP任務(wù)領(lǐng)域,尤其是EL。不同于許多可以很容易地統(tǒng)一到Text2Text框架的知識(shí)語言基礎(chǔ)任務(wù),EL任務(wù)的困難在于由于LLM的臭名昭著的幻覺問題,無約束的生成經(jīng)常無法產(chǎn)生精確的實(shí)體標(biāo)識(shí)符。在這項(xiàng)工作中,我們通過提出三種變體來重新審視生成性EL:INSGENEL,INSGENEL-R, INSGENEL-ICL。
  • INSGENEL通過利用一種約束下一個(gè)可能的token的方法來解決EL的問題,并在生成過程中消除了無效的選項(xiàng),從而確保生成的文本可以成功地解析為EL結(jié)果。我們通過指令微調(diào)方法優(yōu)化CLM。實(shí)驗(yàn)結(jié)論證明了指令微調(diào)可以在預(yù)先訓(xùn)練好的語言模型中解鎖特定的實(shí)體相關(guān)知識(shí)。此外,該方法在訓(xùn)練計(jì)算效率和數(shù)據(jù)效率方面都有顯著提高,表明基礎(chǔ)語言模型可以有效降低針對(duì)特定任務(wù)目標(biāo)的學(xué)習(xí)難度。
  • 然而,在推理過程中,直接生成序列會(huì)產(chǎn)生顯著的計(jì)算開銷,因?yàn)閮?nèi)存占用和計(jì)算都隨著序列長(zhǎng)度的增加而增加,更不用說自回歸解碼的非并行性了。為了解決這些挑戰(zhàn),我們將提及檢測(cè)(MD)的責(zé)任轉(zhuǎn)移給外部檢索器。對(duì)于每個(gè)文檔,外部檢索器會(huì)選擇可能存在于文檔中的前k個(gè)實(shí)體,并構(gòu)造一個(gè)可能的提及集。然后,匹配過程動(dòng)態(tài)地確定了在生成過程中需要進(jìn)行決策的范圍。最后,只有在需要選擇時(shí)才使用貪婪解碼。
  • 這種新穎的EL生成框架名為INSGENEL-R,具有幾個(gè)關(guān)鍵優(yōu)勢(shì): a)與約束波束搜索相比,它以簡(jiǎn)單的向量檢索為代價(jià),顯著減少了大量正向生成的數(shù)量。b)它不會(huì)出現(xiàn)生成不可能的提及的問題,從而減少了推理計(jì)算。c)它不太可能遺漏明顯的提及,而傳統(tǒng)的生成式EL在生成提及邊界時(shí)容易出錯(cuò)。此外,我們以上下文學(xué)習(xí)(ICL)的方式擴(kuò)展了同一只LM的使用,比較結(jié)果表明,雖然通用的LLM可以通過上下文學(xué)習(xí)正確地堅(jiān)持樣本的格式,但它們無法匹配INSGENEL-R所表現(xiàn)出的相同的準(zhǔn)確性。

方法

原始任務(wù)建模

  • 原始的EL生成式模型將實(shí)體鏈接作為自回歸序列生成任務(wù),也就是說,給定文檔,生成的序列應(yīng)該表示提到和它們相關(guān)的KB實(shí)體。訓(xùn)練設(shè)置通常遵循一個(gè)標(biāo)準(zhǔn)的SeqSeq的任務(wù)形式。
f INSGENEL-R with greedy decoding strategy概述,每個(gè)帶有灰色背景的方框表示一個(gè)生成代理決策,虛線箭頭表示一個(gè)廢棄的解碼路徑。

指令微調(diào)的INSGENEL的基線

  • 我們的基線集中于指令調(diào)優(yōu)一個(gè)decoder-only的CLM模型。提示部分包括一個(gè)可選的自然語言任務(wù)指令和要鏈接的文檔。目標(biāo)序列包括以其純文本形式存在的鏈接文檔,且?guī)в刑厥獾倪吔绶?hào),表示提及和相應(yīng)的實(shí)體標(biāo)簽。我們使用交叉熵?fù)p失,Loss定義為CLM的下一個(gè)token預(yù)測(cè)的損失:


檢索增強(qiáng)的生成EL:INSGENEL-R

  • 給定一個(gè)文檔塊x∈X,我們希望構(gòu)建一個(gè)雙編碼器,檢索前k候選實(shí)體{e1,e2,e3,…,ek}這可能在x中提到。檢索器計(jì)算文檔表示Xp和實(shí)體表示Ee,如下:
  • 其中,BERTP和BERTE是兩個(gè)不共享權(quán)重的BERT文本編碼器,[CLS]和[SEP]是BERT特殊令牌。?title(e)和?desc(e)分別是一個(gè)實(shí)體e的文本標(biāo)識(shí)符和文本描述.

  • 在模型訓(xùn)練中,我們準(zhǔn)備了一個(gè)文檔塊x和一組在x中提到的?實(shí)體E (x)∈E。我們訓(xùn)練模型要最大化以下目標(biāo):


  • 在推理過程中,實(shí)體表示Ee被緩存到Faiss索引中,以允許快速的頂部k檢索。對(duì)于檢索到的實(shí)體,我們通過查找一個(gè)entity2mention字典來構(gòu)造一組可能的提及。圖1的右上角說明了一組可能提到的示例。幾個(gè)不同的實(shí)體可以對(duì)應(yīng)于同一個(gè)提及字符串。

  • 然后,我們?cè)谝粋€(gè)可能的提及集和文檔文本之間運(yùn)行字符串匹配。文檔文本中任何匹配可能提到的部分都被標(biāo)記為決策要求。每個(gè)決策所需的跨度包括開始和結(jié)束索引,以及可能在跨度內(nèi)的提及。

  • 在引導(dǎo)實(shí)體鏈接生成階段,生成代理將根據(jù)其當(dāng)前狀態(tài)確定下一個(gè)操作:

  1. 基于決策需要的跨度:與3.1中的一般的生成EL模型不同,INSGENEL-R只需要在超出決策需要的跨度時(shí)直接復(fù)制下一個(gè)令牌。
  2. 在決策要求的跨度的開始時(shí): INSGENEL-R必須決定在決策要求的跨度內(nèi)何時(shí)開始提及。這是通過比較下一個(gè)文檔標(biāo)記和提到開始邊界標(biāo)記的日志概率來實(shí)現(xiàn)的。
  3. 在決策需要考慮的跨度的提到部分:一旦開始提到,如果這個(gè)跨度只有一個(gè)可能的提到,agent將直接復(fù)制這個(gè)提到(如圖中天藍(lán)色字體的“Steve”的情況)。如果沒有,就會(huì)決定在這個(gè)范圍內(nèi)選擇哪個(gè),也就是受到動(dòng)態(tài)生成的前綴樹的約束,該樹覆蓋了跨度中的所有提到選擇。
  4. 在決策要求跨度的實(shí)體部分中:一旦一個(gè)跨度完成了對(duì)提及的解碼,代理將繼續(xù)解碼實(shí)體標(biāo)識(shí)符部分。與提到部分的解碼類似,如果只有一個(gè)實(shí)體與解碼的提到相關(guān)聯(lián),代理將直接復(fù)制這個(gè)候選實(shí)體(例如圖1中使用斜體字體的“SteveJobs”)。否則,代理將動(dòng)態(tài)構(gòu)造一個(gè)包含關(guān)聯(lián)實(shí)體的前綴樹來約束實(shí)體標(biāo)識(shí)符的生成(如圖中斜體中的“Apple”和“AppleInc.”)。
  • 這個(gè)過程只包含一個(gè)向量檢索的成本,這使得INSGENEL-R對(duì)生成模型的調(diào)用減少了90%,不再依賴于一個(gè)龐大的、預(yù)定義的前綴樹。由于檢索過程考慮了實(shí)體描述,因此它減輕了生成式EL范式固有的挑戰(zhàn),即區(qū)分具有相似標(biāo)識(shí)符的實(shí)體。

INSGENEL-ICL: In-Context Learning Entity Linking Paradigm

  • 使用大型語言模型(LLMs)的上下文學(xué)習(xí)(ICL)在許多NLP任務(wù)中都表現(xiàn)出了很強(qiáng)的zero-shot和few-shot性能。然而,將ICL直接應(yīng)用于實(shí)體鏈接(EL)是困難的,這主要是由于上下文窗口大小的限制,使得生成模型無法直接訪問大量的候選實(shí)體標(biāo)識(shí)符。盡管如此,我們配備了一個(gè)訓(xùn)練好的檢索器,我們將EL任務(wù)壓縮為一個(gè)高級(jí)機(jī)器閱讀理解(MRC)問題:給定潛在的實(shí)體和文檔,LLM需要從文檔中選擇提及的跨度和各自的實(shí)體。
  • INSGENEL-ICL范式從一個(gè)固定的范例和任務(wù)指令開始,這兩者都作為上下文演示輸入給LLM。任務(wù)指令提示詞經(jīng)過迭代改進(jìn),集成了著名的提示工程技術(shù),如壞添加樣例樣本,并利用了自動(dòng)提示優(yōu)化技巧優(yōu)化prompt。
  • 值得注意的是,每個(gè)預(yù)測(cè)的最終結(jié)果都與一個(gè)正則表達(dá)式匹配;為了防止由于同一文檔中出現(xiàn)多個(gè)相同的字符串而解析失敗,我們要求模型不僅輸出范例中提到的文本,還輸出周圍的上下文以實(shí)現(xiàn)精確的跨度匹配。

實(shí)驗(yàn)結(jié)果

InKB Micro F1在八個(gè)流行的測(cè)試集上。對(duì)于每個(gè)數(shù)據(jù)集,粗體表示最佳模型,下劃線表示第二個(gè)最佳模型。使用?的度量表示該模型在AIDA-CoNLL訓(xùn)練集上訓(xùn)練,而我們的方法沒有使用任何域內(nèi)訓(xùn)練集。-表示,作者既沒有報(bào)告某些測(cè)試集上的度量,也沒有發(fā)布他們的代碼和檢查點(diǎn)。
InKB Micro F1報(bào)告了選定的四個(gè)測(cè)試集。在最后一行中列出了INSGENEL-R的指標(biāo),以便進(jìn)行直接比較。
INSGENEL-R的k對(duì)K50測(cè)試集的檢索覆蓋率和性能影響。
訓(xùn)練數(shù)據(jù)的相對(duì)大小、訓(xùn)練計(jì)算量和EL性能的比較。選定的作品都是用V100進(jìn)行訓(xùn)練的,因此他們的訓(xùn)練GPU小時(shí)數(shù)是具有可比性的。圖例中的字母“G”和“D”分別代表生成性和區(qū)別性
不同基座模型的性能比較。
在K50測(cè)試集上的運(yùn)行時(shí)性能基準(zhǔn)測(cè)試。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容