【RAG問答相關(guān)】復(fù)雜知識庫問答綜述(中)

前言

大模型落地應(yīng)用過程中,一般形式還是問答形式,無論是人機對話還是機機對話,都是靠問答來解決一系列問題。無論是要求大模型給出具體的專業(yè)化知識,還是要求大模型進行某項作業(yè)的開展,都是以問題(指令其實也是一種特殊的問題)的形式進行。所以在RAG中,如何將問題轉(zhuǎn)化為大模型能夠理解的問題,轉(zhuǎn)化為各種知識庫可以查詢的問題,這是應(yīng)用大模型能力的關(guān)鍵。本次帶來的東南大學(xué)發(fā)表的一篇關(guān)于KBQA相關(guān)的論文綜述。詳細介紹了復(fù)雜事實性問題的處理框架。我分為上中下三個部分詳解這篇論文中關(guān)于KBQA相關(guān)的內(nèi)容。洞悉用戶問題才是大模型落地應(yīng)用的第一步!本篇為中篇,主要講述了KBQA中基于語義解析的方法(SP_base)和基于信息檢索的方法(IR-base)。歡迎關(guān)注我們,大模型的藝術(shù),持續(xù)更新!

【RAG問答相關(guān)】復(fù)雜知識庫問答綜述(上)【RAG問答相關(guān)】復(fù)雜知識庫問答綜述(中)

基于語義解析的方法

在這一部分我們討論基于語義解析方法的挑戰(zhàn)和解決辦法。

挑戰(zhàn)和解決方案的分類可以用圖4來顯示。

概述

基于SP的方法采用一種解析-執(zhí)行過程,通過一系列模塊來實現(xiàn),包括問題理解、邏輯解析、知識庫連接和知識庫執(zhí)行。這些模塊在處理復(fù)雜的知識庫問答(KBQA)時面臨不同的挑戰(zhàn)。首先,當(dāng)問題在語義和句法方面都較為復(fù)雜時,問題理解變得更加困難。其次,邏輯解析必須涵蓋復(fù)雜問題的多種查詢類型。此外,涉及更多關(guān)系和主題的復(fù)雜問題將顯著增加解析的可能搜索空間。第三,邏輯形式的手動標(biāo)注成本高昂且勞動密集,使用弱監(jiān)督信號(即問題-答案對)來訓(xùn)練基于SP的方法具有挑戰(zhàn)性。在接下來的部分中,我們將介紹先前研究如何應(yīng)對這些挑戰(zhàn),并總結(jié)它們提出的高級技術(shù)。

理解復(fù)雜的語義和句法結(jié)構(gòu)

作為基于SP方法的第一步,問題理解模塊將非結(jié)構(gòu)化文本轉(zhuǎn)化為編碼的問題,這有助于下游的解析過程。與簡單問題相比,復(fù)雜問題具有組合語義和更復(fù)雜的查詢類型,這增加了語言分析的難度。

理解復(fù)雜問題的語義結(jié)構(gòu)

復(fù)雜問題的復(fù)雜語義表明了句子之間的復(fù)雜依賴模式,這表達了各成分之間的關(guān)系。了解句子結(jié)構(gòu)的核心部分有助于理解問題。將問題的結(jié)構(gòu)屬性結(jié)合是實現(xiàn)這一目標(biāo)的一種直觀策略。

將問題的結(jié)構(gòu)屬性納入到seq2seq生成中。許多現(xiàn)有方法依賴于句法分析,例如依賴關(guān)系和抽象含義表示(AMR),以提供問題成分與邏輯形式元素(如實體、關(guān)系、實體類型和屬性)之間更好的對齊。這一研究方向在圖5的左側(cè)有所示。為了表示答案與問題中主題實體之間的遠距離依賴關(guān)系,Luo等人提取了它們之間的依賴路徑。通過編碼方向性依賴路徑,他們將句法特征和本地語義特征結(jié)合起來,形成全局問題表示。類似地,Abujabal等人利用依賴關(guān)系解析來處理組合性表達,并在創(chuàng)建查詢模板時僅關(guān)注由解析的依賴路徑包含的重要token。Abujabal等人沒有直接在依賴路徑上創(chuàng)建邏輯形式,而是利用依賴關(guān)系解析來分析表達方式的組合,并將其與邏輯形式對齊。Kapanipathi等人引入了AMR來幫助理解問題。其好處有兩個方面:(1)AMR在消除自然語言表達中的歧義方面很有效。(2)AMR解析模塊高度抽象,有助于以與知識庫無關(guān)的方式理解問題。然而,在復(fù)雜問題上,尤其是在存在長距離依賴的情況下,產(chǎn)生句法分析仍然不夠滿意。

為了緩解復(fù)雜問題的不準(zhǔn)確句法分析,Sun等人利用基于骨架的分析來獲取復(fù)雜問題的主干,這是一個帶有幾個分支(即原始文本段的主要詞)的簡單問題,需要進一步擴展。例如,問題“What movie that Miley Cyrus acted in had a director named Tom Vaughan?”的主干是“What movie had a director?”,問題中的定語從句將被視為主干的分支。在這種骨架結(jié)構(gòu)下,只有簡單問題需要進一步解析,這更有可能獲得準(zhǔn)確的解析結(jié)果。

理解復(fù)雜查詢的復(fù)雜句法結(jié)構(gòu)

通過分析復(fù)雜語義來理解問題非常重要。同樣,分析查詢的句法結(jié)構(gòu)也至關(guān)重要,確保生成的邏輯形式能夠滿足復(fù)雜查詢的句法要求。雖然上述方法使用Seq2seq框架生成邏輯形式,但另一條研究路線(如圖5的右側(cè)所示)側(cè)重于利用結(jié)構(gòu)屬性(例如邏輯形式的樹結(jié)構(gòu)或圖結(jié)構(gòu))來對候選解析進行排名。

將邏輯形式的結(jié)構(gòu)屬性納入特征化排名中。Maheshwari等人提出了一種新穎的排名模型,利用查詢圖的結(jié)構(gòu)并使用注意權(quán)重來明確比較謂詞與自然語言問題。具體而言,他們提出了一種細粒度的槽匹配機制,用于在問題和核心推理鏈中的每個謂詞之間進行逐跳語義匹配。與捕捉問題和簡單關(guān)系鏈之間的語義相關(guān)性不同,Zhu等人關(guān)注了查詢的結(jié)構(gòu)屬性,并進行了查詢-問題匹配的KBQA。他們使用了一個結(jié)構(gòu)感知的編碼器來建模查詢中的實體或關(guān)系上下文,促進了查詢和問題之間的匹配。類似地,Zafar等人結(jié)合了兩個Tree-LSTM來建模問題的依賴解析樹和候選查詢的樹結(jié)構(gòu),并利用它們之間的結(jié)構(gòu)相似性進行全面排名。

傳統(tǒng)方法采用狀態(tài)轉(zhuǎn)移策略生成候選查詢圖。由于這種策略忽略了查詢的結(jié)構(gòu),將生成大量無效的候選查詢。為了過濾掉這些查詢,Chen等人提出了預(yù)測問題的查詢結(jié)構(gòu),并利用結(jié)構(gòu)限制候選查詢的生成。具體而言,他們設(shè)計了一系列操作,用于生成類型、數(shù)值操作符、謂詞和實體的占位符。然后,他們可以將這種未實例化的邏輯形式與知識庫進行關(guān)聯(lián),并生成可執(zhí)行的邏輯形式。

解析復(fù)雜查詢

為了生成可執(zhí)行的邏輯形式,傳統(tǒng)方法首先利用現(xiàn)有的解析器將問題轉(zhuǎn)化為CCG推導(dǎo),然后通過將謂詞和參數(shù)與知識庫中的關(guān)系和實體進行對齊,將其映射到SPARQL。由于本體不匹配問題,這種方法對于復(fù)雜問題來說是次優(yōu)的。因此,為了進行準(zhǔn)確的解析,需要利用知識庫的結(jié)構(gòu),在解析過程中進行與知識庫的連接。

通過預(yù)定義的查詢模版設(shè)計邏輯形式。為了滿足復(fù)雜問題的組合性,研究人員已經(jīng)開發(fā)了多種表達能力強的邏輯形式作為解析目標(biāo)?;仡櫾诔醪讲襟E中識別的主題實體,Bast等人從主題實體出發(fā),設(shè)計了三個查詢模板作為解析目標(biāo)。我們在圖6中列出了這三個查詢模板。前兩個模板返回距離主題實體“Titanic”1跳和2跳的實體。第三個模板返回距離主題實體兩跳,并受另一個實體的限制。后續(xù)研究集中于設(shè)計模板以回答時間性問題。雖然這種基于模板的方法可以成功解析幾種類型的復(fù)雜問題,但存在覆蓋范圍有限的問題。

采用靈活組合規(guī)則設(shè)計具有表達力的邏輯形式。為了設(shè)計更具表現(xiàn)力的邏輯形式,Yih等人提出了查詢圖作為具有表達力的解析目標(biāo)。查詢圖是一種圖結(jié)構(gòu)的邏輯形式,與知識庫模式密切匹配,是可執(zhí)行SPARQL的替代品。它由實體、變量和函數(shù)組成,分別對應(yīng)于問題中提到的基礎(chǔ)實體、查詢和聚合操作。如圖6所示,首先確定了一組從主題實體開始的核心推理鏈。然后,將約束實體和聚合運算符附加到路徑鏈上,使其適應(yīng)更復(fù)雜的問題。與預(yù)定義的模板不同,查詢圖不受跳數(shù)和約束數(shù)的限制。它們已經(jīng)表現(xiàn)出強大的能力來表達復(fù)雜問題,盡管它們?nèi)匀粺o法處理長尾復(fù)雜問題類型?;趯﹂L尾數(shù)據(jù)樣本的更多觀察,后續(xù)工作試圖通過引入句法標(biāo)注來增強查詢圖的結(jié)構(gòu)復(fù)雜性,應(yīng)用更多的聚合操作符,如合并、共指消解以適應(yīng)復(fù)雜問題。與查詢模板相比,具有靈活組合規(guī)則的邏輯形式可以適用于各種復(fù)雜查詢。更具表現(xiàn)力的邏輯形式表示更強大的知識庫問答系統(tǒng),可以處理更多樣化的問題。

在龐大的搜索空間下進行知識庫連接

為了獲得可執(zhí)行的邏輯形式,知識庫連接模塊會將可能的邏輯形式與知識庫進行實例化。由于知識庫中的一個實體可能與數(shù)百甚至數(shù)千個關(guān)系相連,考慮到計算資源和時間復(fù)雜性,枚舉和連接復(fù)雜問題的所有可能邏輯形式是不可行的。

將復(fù)雜問題分解為子問題。研究人員嘗試提出方法,通過多個步驟生成復(fù)雜查詢,而不是通過單一遍歷來枚舉邏輯形式。鄭等人提出首先將復(fù)雜問題分解為多個簡單問題,其中每個簡單問題都被解析為一個簡單的邏輯形式。最終答案可以通過部分邏輯形式的連接或合成來獲得。這種分解-執(zhí)行-連接策略可以有效縮小搜索空間。不過,布塔尼等人研究了一種類似的方法。由于將問題分解需要人工工作,他們通過增強的指針網(wǎng)絡(luò)減少了人工注釋,并通過識別組合計劃來獲得。最終答案是通過合并或組合分解問題的答案獲得。

通過迭代擴展邏輯形式。與將復(fù)雜問題分解為子問題不同,許多研究采用了擴展和排名策略,通過迭代方式擴展邏輯形式以減少搜索空間。具體而言,它們首次收集了與主題實體的1跳鄰域相關(guān)的所有查詢圖作為第一次迭代的候選邏輯形式。這些候選根據(jù)它們與問題的語義相似性進行排名。排名靠前的候選保留下來進行進一步擴展,而排名靠后的候選則被過濾掉。在隨后的迭代中,每個排名靠前的查詢圖都會進行擴展,從而產(chǎn)生了一組更復(fù)雜的候選查詢圖。此過程將一直重復(fù),直到獲得最佳查詢圖。陳等人首次利用跳躍貪婪搜索來擴展最有可能的查詢圖。蘭等人提出了一個增量序列匹配模塊,以迭代方式解析問題,而不需要在每個搜索步驟中重新生成查詢圖。上述擴展是以線性方式進行的,只對生成多跳關(guān)系有效。蘭等人為每次迭代定義了三種擴展操作,分別對應(yīng)多跳推理、約束關(guān)系和數(shù)值操作,分別是擴展、連接和聚合。圖7中的示例展示了這兩種策略的不同原理。

在弱監(jiān)督信號下進行訓(xùn)練

為了應(yīng)對未標(biāo)記的推理路徑問題,已經(jīng)使用基于強化學(xué)習(xí)(RL)的優(yōu)化方法來最大化預(yù)期獎勵。然而,訓(xùn)練數(shù)據(jù)不足使得在弱監(jiān)督下進行訓(xùn)練成為一項挑戰(zhàn)。

使用稀疏獎勵進行訓(xùn)練

通過RL進行訓(xùn)練表明,基于SP的方法只能在完整解析邏輯形式之后才能獲得反饋。這導(dǎo)致了一個具有極度稀疏正獎勵的長時間探索階段。為了解決這個問題,提出了一些方法來增強最終獎勵或中間獎勵。

通過豐富的特征增強最終獎勵。一些研究工作采用獎勵塑造策略來進行解析評估。具體而言,研究人員通過將更多答案信息納入最終預(yù)測的豐富特征中來增加邏輯形式的獎勵。Saha等人在模型預(yù)測的答案具有與連接真相相同的類型時,獎勵模型附加的反饋。通過這種方式,即使模型預(yù)測的答案不完全等于連接真相,它們也可以鼓勵模型尋找正確的答案類型。這有助于避免探索階段出現(xiàn)稀疏正獎勵。

通過豐富的評論者增強中間獎勵。除了來自最終預(yù)測的獎勵之外,語義解析過程中的中間獎勵也可以幫助應(yīng)對這一挑戰(zhàn)。最近,Qiu等人將查詢圖生成形式化為分層決策問題,并提出了一個基于選項的分層框架,為低級代理提供中間獎勵。通過在決策過程中設(shè)置選項,高級代理在中間步驟為低級代理設(shè)定目標(biāo)。為了評估低級代理的中間狀態(tài)是否符合高級代理的目標(biāo),他們測量了給定問題和生成的三元組之間的語義相似性。為了為策略提供有效的中間反饋,Qiu等人使用手工制定的規(guī)則增強了查詢圖的評論者。

處理虛假推理

在訓(xùn)練的早期階段,很難找到具有正獎勵的邏輯形式。此外,在早期階段的隨機探索很容易導(dǎo)致虛假推理,其中邏輯形式導(dǎo)致正確答案但在語義上不正確。因此,可以進行高質(zhì)量邏輯形式的早期監(jiān)督,以加速訓(xùn)練并防止模型誤導(dǎo)虛假推理。

通過高獎勵邏輯形式穩(wěn)定訓(xùn)練過程。為了加速和穩(wěn)定訓(xùn)練過程,Liang等人提出了通過迭代最大似然訓(xùn)練過程找到的偽黃金程序來引導(dǎo)訓(xùn)練的方法。訓(xùn)練過程包括兩個步驟:(1) 利用波束搜索機制找到偽黃金程序,以及(2) 在歷史上找到的最佳程序的監(jiān)督下優(yōu)化模型。Hua等人采用了類似的思路,通過將生成的邏輯形式與存儲在內(nèi)存緩沖區(qū)中的高獎勵邏輯形式進行比較來評估邏輯形式。為了在開發(fā)和探索之間取得平衡,他們提出了接近獎勵和新奇獎勵,以鼓勵記住過去的高獎勵邏輯形式并生成新的邏輯形式以減輕虛假推理。將這種獎勵與終端獎勵結(jié)合起來,模型可以在學(xué)習(xí)過程中獲得密集的反饋。

基于信息檢索的方法

在本節(jié)中,我們總結(jié)了復(fù)雜問題對IR-based方法的不同模塊帶來的主要挑戰(zhàn)。這些挑戰(zhàn)和解決方案的分類可以通過下圖進行可視化。

概述

整個流程通常包括檢索源構(gòu)建、問題表示、基于圖的推理和答案生成等模塊。這些模塊在處理復(fù)雜KBQA時會遇到不同的挑戰(zhàn)。首先,檢索源模塊從知識庫中提取一個與問題相關(guān)的圖,其中包括相關(guān)事實和大量的噪聲事實。由于源知識庫的不可忽視的不完整性,正確的推理路徑可能在提取的圖中不存在。在復(fù)雜問題的情況下,這兩個問題更容易出現(xiàn)。其次,問題表示模塊理解問題并生成指導(dǎo)推理過程的指令。當(dāng)問題變得復(fù)雜時,這一步變得具有挑戰(zhàn)性。然后,通過語義匹配在圖上進行推理。在處理復(fù)雜問題時,這些方法通過語義相似性來對答案進行排名,而不在圖中進行可追蹤的推理,這阻礙了推理分析和故障診斷。

接下來的部分將闡述先前的工作是如何應(yīng)對這些挑戰(zhàn)以及使用的先進技術(shù)。

在不完美的知識庫下進行推理

一般而言,基于信息檢索的方法通過在圖結(jié)構(gòu)上進行推理來找到答案。這個圖結(jié)構(gòu)通常是從知識庫中提取的一個與問題相關(guān)的圖。然而,由于知識庫的不完整性和啟發(fā)式圖生成策略帶來的噪聲圖上下文,這些問題特定的圖永遠不會是完美的。

在不完整的知識庫上進行推理

對于問題特定圖來說,獲得正確推理路徑的高召回率是至關(guān)重要的。由于簡單問題只需要在知識庫中的主題實體附近進行1跳推理,所以在解決簡單問題時,基于信息檢索的方法不太可能受到知識庫固有不完整性的影響。相比之下,復(fù)雜問題的正確推理路徑很可能不會出現(xiàn)在問題特定圖中,這將成為一個嚴重問題。為了解決這個挑戰(zhàn),研究人員利用輔助信息來補充知識源。我們將不同的補充方法分為三類,并在圖9中展示它們的核心區(qū)別。

圖9. 說明了三種補充不完整知識庫的方法類別。所有子圖都是以自下而上的方式繪制的,輸入位于底部,補充的圖位于頂部。主題實體和答案實體分別以粗體和陰影框顯示。

用句子作為節(jié)點來補充不完整的知識庫。直觀地說,從維基百科中檢索到的大量與問題相關(guān)的文本語料庫可以提供廣泛的非結(jié)構(gòu)化知識作為補充證據(jù)。基于這一觀察,Sun等人提出了使用額外的問題相關(guān)句子作為節(jié)點來補充圖,并在增強的異構(gòu)圖上進行推理(即圖9左側(cè))。根據(jù)句子中提到的實體,他們將它們與圖上的相應(yīng)實體進行關(guān)聯(lián)并將它們視為節(jié)點。

通過文本信息增強實體表示。與直接將句子作為節(jié)點補充到問題特定圖中不同,熊等人和韓等人提出將額外的文本信息融合到實體表示中作為第二種方式(如圖9中間所示)。熊等人設(shè)計了一種新穎的條件門控機制,在子圖閱讀器提取的與文本鏈接的實體表示的指導(dǎo)下,獲得了句子的知識感知信息。這些句子的知識感知信息進一步被聚合以增強實體表示,以補充不完整的知識庫。類似地,韓等人將句子的文本信息融合到實體表示中。在他們的設(shè)置中,每個句子被視為連接所有涉及實體的超邊,一個文檔可以被視為一個超圖?;诔瑘D卷積網(wǎng)絡(luò)(HGCN)[95],他們對文檔中的句子進行編碼,并將句子表示融合到句子鏈接的實體表示中。

用預(yù)訓(xùn)練的知識庫嵌入來補充不完整的圖。在知識庫補全(knowledge base completion ,KBC)任務(wù)中,知識庫嵌入已經(jīng)被采用來通過執(zhí)行缺失鏈接預(yù)測來減輕知識庫的稀疏性。受此啟發(fā),Apoorv等人利用了預(yù)訓(xùn)練的知識庫嵌入來解決不完整的知識庫問題,如圖9右側(cè)所示。具體而言,他們使用ComplEX方法預(yù)訓(xùn)練了知識庫嵌入(即實體和關(guān)系嵌入),并通過一個三元組評分函數(shù)來預(yù)測答案,該函數(shù)將三元組(主題實體、問題、答案實體)作為輸入。為了使問題適應(yīng)原始的ComplEX評分函數(shù),他們將問題的Roberta嵌入映射到相同維度的復(fù)數(shù)空間中。通過利用全局知識庫的預(yù)訓(xùn)練知識,他們隱式地補充了不完整的問題特定圖。

處理嘈雜的圖上下文

由于問題特定圖通常是使用啟發(fā)式方法構(gòu)建的,它可能引入冗余甚至與問題無關(guān)的嘈雜圖上下文(包括實體和句子節(jié)點)。與只需要1跳推理的簡單問題相比,為復(fù)雜問題構(gòu)建的問題特定圖更有可能包含嘈雜的圖上下文。在這樣的嘈雜圖上進行推理對于復(fù)雜問題構(gòu)成了巨大的挑戰(zhàn),同時也降低了模型訓(xùn)練的效率。

構(gòu)建精確的問題特定圖。一個直觀的想法是構(gòu)建一個相對小而精確的圖以進行后續(xù)推理。為了實現(xiàn)這個目標(biāo),Sun等人提出了在主題實體和答案實體之間的最短路徑監(jiān)督下,通過迭代檢索和推理過程構(gòu)建異構(gòu)圖。在最近的研究中,Zhang等人提出了一個可訓(xùn)練的子圖檢索器(SR),用于檢索相關(guān)的關(guān)系路徑以進行后續(xù)推理。他們的實驗結(jié)果證明,這樣的精確圖可以為基于信息檢索的方法帶來顯著的性能提升。

在推理過程中過濾掉無關(guān)信息。除了為后續(xù)推理構(gòu)建小而精確的圖外,一些研究工作還提出在推理過程中過濾掉無關(guān)信息。注意力機制,對于消除無關(guān)特征非常有效,已被現(xiàn)有的基于信息檢索的方法采用,以在推理過程中保留相關(guān)信息。類似地,Yasunaga等人采用了每個節(jié)點的預(yù)訓(xùn)練語言模型評分,條件是問題回答上下文作為相關(guān)性分數(shù),以引導(dǎo)后續(xù)推理過程。

理解復(fù)雜語義

理解復(fù)雜問題是后續(xù)推理的前提。然而,復(fù)雜問題包含復(fù)合語義,并需要特定的知識(例如命名實體、序數(shù)推理)來回答。由于復(fù)雜問題具有這種固有屬性,專為簡單問題理解設(shè)計的方法可能不適用于復(fù)雜問題。

理解復(fù)合語義

基于信息檢索的方法通常通過神經(jīng)網(wǎng)絡(luò)(例如,LSTM和GRU)直接將問題編碼為低維向量來生成初始問題表示q。通過上述方法獲得的靜態(tài)推理指令(例如,q的最終隱藏狀態(tài))無法有效表示復(fù)雜問題的復(fù)合語義,這對于指導(dǎo)問題特定圖上的推理構(gòu)成了挑戰(zhàn)。為了全面理解問題,一些研究在推理過程中動態(tài)更新推理指令。

使用注意力在不同語義上逐步指導(dǎo)。為了使推理模型能夠了解推理步驟,Qiu等人提出通過使用單層感知器將初始問題表示q轉(zhuǎn)化為具有步驟感知性的表示。在獲得具有步驟感知性的問題表示之后,進一步引入了注意力機制,以選擇有用的信息生成指導(dǎo)向量。類似地,He等人提出使用動態(tài)注意力機制關(guān)注問題的不同部分?;诰哂胁襟E感知性的問題表示和先前的推理指令,他們生成了對問題的標(biāo)記的注意力分布,并更新了指導(dǎo)向量。

使用推理上下文信息更新指導(dǎo)信息。除了通過注意力明確記錄問題的分析部分之外,還有一些其他方法提出使用在推理過程中檢索到的信息更新指導(dǎo)信息。一個典型的例子是生成明確的推理路徑并使用生成的路徑更新指導(dǎo)。Zhou等人設(shè)計了一個模型,該模型以當(dāng)前的推理指導(dǎo)作為輸入,然后從知識庫中的所有關(guān)系中預(yù)測中間關(guān)系。在獲得預(yù)測的關(guān)系后,模型將指導(dǎo)向量更新為:,其中減法是指從問題中省略已分析信息。因此,在后續(xù)推理過程中,更新后的推理指導(dǎo)可以保存問題的未分析部分。

與生成明確的推理路徑不同,Xu等人和Miller等人采用了鍵-值記憶網(wǎng)絡(luò)來實現(xiàn)類似的動態(tài)指導(dǎo)更新。具體來說,他們首先將包含一個主題實體作為主語的所有知識庫事實包含到內(nèi)存中。然后,他們索引鍵-值內(nèi)存中的鍵和值,其中鍵是(主語,關(guān)系)對,值是相應(yīng)的客體實體。通過進行鍵尋址過程,以找到最適合的鍵和相應(yīng)值來指導(dǎo)。使用已尋址的鍵和值,他們將其表示與先前步驟的推理指導(dǎo)連接,并執(zhí)行線性轉(zhuǎn)換以獲得更新后的推理指導(dǎo),以指導(dǎo)下一跳推理。通過這種方式,推理指導(dǎo)將在內(nèi)存中得到更新。基于圖神經(jīng)網(wǎng)絡(luò)的聯(lián)合推理。除了指導(dǎo)更新,另一類研究通過基于圖神經(jīng)網(wǎng)絡(luò)(GNN)的推理來解決這種復(fù)合語義。Sun等人提出了一種基于GNN的模型GraftNet,用于在異構(gòu)信息源上推理復(fù)雜問題。通過迭代的GNN推理步驟,實體表示和推理指導(dǎo)依次得到更新。推理指導(dǎo)傳達了主題實體的知識,它在推理過程中動態(tài)更新。盡管推理指導(dǎo)和圖神經(jīng)網(wǎng)絡(luò)的迭代更新,Yasunaga等人提出了QAGNN模型,該模型通過單一圖神經(jīng)網(wǎng)絡(luò)進行復(fù)雜問題的推理。他們在問題特定圖中構(gòu)建了一個額外的問答上下文節(jié)點,該節(jié)點與圖中的所有其他節(jié)點相連。所有節(jié)點都使用預(yù)訓(xùn)練語言模型(PLM)統(tǒng)一編碼為初始表示,并隨著圖神經(jīng)網(wǎng)絡(luò)推理而得到更新。

知識表示

除了組合語義之外,復(fù)雜問題可能還包含知識密集型的標(biāo)記或短語(例如命名實體、序數(shù)約束),這會阻礙基于文本的語義理解。除了問題文本之外,外部知識被作為輸入來幫助理解這些復(fù)雜問題。

注入有知識的實體表示。在自然語言問題中,主題實體通常是命名實體,但這些實體通常不足以提供足夠的信息來理解問題。為了處理這些命名實體,一些現(xiàn)有的工作提出了從知識庫中獲取的更具信息性的表示形式。作為一個典型例子,熊等人提出了從主題實體的圖上下文中學(xué)到的知識表示,以在潛在空間中重新構(gòu)建查詢表示。通過一項消融研究,他們驗證了將這種有知識的表示注入到問題表示中的有效性。類似的想法也被采用在增強知識的語言模型預(yù)訓(xùn)練中。雖然可以使用流行的seq2seq文本生成框架生成自然答案,但直接從標(biāo)記詞匯表中生成命名實體仍然很困難。為了彌補這一差距,何等人首次提出了一種復(fù)制和檢索機制,用于從問題特定圖中的問題標(biāo)記和實體的額外詞匯生成自然答案。類似的想法也被引入了知識增強型語言模型預(yù)訓(xùn)練中,將關(guān)系事實輸入到結(jié)構(gòu)化記憶槽中,作為生成命名實體的額外詞匯,并使用基于注意力的信息融合生成有知識的表示。

注入有知識的數(shù)值推理表示。雖然已經(jīng)提出了多種解決多跳推理的方法,但很少關(guān)注解決具有數(shù)值運算的復(fù)雜問題。為了賦予基于信息檢索的方法數(shù)值推理能力,馮等人提出將數(shù)值屬性(即數(shù)字的大小和序數(shù)屬性)編碼到實體表示中。首先,他們手動定義了一系列序數(shù)限定詞(例如,第一個,最大的)來檢測序數(shù)約束問題。對于這些檢測到的問題,他們使用額外的數(shù)值屬性三元組來豐富其問題特定圖。通過使用預(yù)訓(xùn)練的數(shù)字編碼模塊對這些數(shù)值屬性三元組進行編碼,額外的數(shù)值嵌入可以用作模型無關(guān)的插件,用于基于信息檢索的方法進行數(shù)值推理。

無法解釋的推理

由于復(fù)雜問題通常按順序查詢多個事實,系統(tǒng)應(yīng)該能夠基于可追溯的推理過程在圖上準(zhǔn)確預(yù)測答案。盡管神經(jīng)網(wǎng)絡(luò)非常強大,但推理模塊的黑盒風(fēng)格使得推理過程難以解釋,也難以引入用戶交互以進一步改進。為了獲得更可解釋的推理過程,推理是通過多步中間預(yù)測來執(zhí)行的。在推理過程中,KBQA模型生成一系列推理狀態(tài),盡管最終狀態(tài)用于生成答案預(yù)測,但中間狀態(tài)可能有助于生成中間預(yù)測(即匹配的關(guān)系或?qū)嶓w),以提高可解釋性。更重要的是,中間預(yù)測使得通過用戶交互更容易檢測到虛假或錯誤的推理。

解釋復(fù)雜推理與關(guān)系路徑。現(xiàn)有研究采用不同的推理狀態(tài)和推理模塊設(shè)計來解釋推理過程。具體而言,Zhou等人將多跳推理過程形式化為關(guān)系序列生成,并使用向量表示推理狀態(tài)。對于每一步,指令向量和狀態(tài)向量與關(guān)系候選進行匹配,生成關(guān)于知識庫中所有關(guān)系的概率分布。然后,加權(quán)的關(guān)系表示被用來更新狀態(tài)。通過重復(fù)這個過程,模型可以實現(xiàn)可解釋的推理過程。受到上述工作的啟發(fā),Han等人提出了基于超圖卷積網(wǎng)絡(luò)(HGCN)的可解釋模型,用于預(yù)測解釋的關(guān)系路徑。他們通過確定一組通過相同關(guān)系連接的實體構(gòu)建了一個密集的超圖,模擬了人類的跳躍關(guān)系推理。為了訓(xùn)練這兩個模型,他們利用了黃金關(guān)系路徑。然而,在大多數(shù)情況下,黃金關(guān)系路徑的注釋是不可用的,這使得他們的方法不適用于一般數(shù)據(jù)集。解釋復(fù)雜推理與中間實體。除了關(guān)系路徑之外,一些研究工作在中間步驟預(yù)測與問題相關(guān)的實體,以解釋多跳推理過程。Xu等人精心采用了鍵值記憶網(wǎng)絡(luò)來實現(xiàn)可追溯的推理過程。在他們的工作中,狀態(tài)被定義為值表示的加權(quán)和,其權(quán)重來自鍵-指令匹配。為了預(yù)測中間實體,他們的模型采用傳統(tǒng)的基于信息檢索的方法來給定查詢對候選進行評分。由于虛假的長路徑可能連接主題實體與知識庫中的答案實體,在訓(xùn)練過程中,他們提出使用最終答案來監(jiān)督中間實體的預(yù)測。這樣的目標(biāo)鼓勵模型生成最短的推理路徑。除了明確生成中間實體,He等人提出生成中間實體分布來指示推理過程。他們的實驗結(jié)果還顯示,這種中間監(jiān)督信號可以有效減少虛假推理。

在弱監(jiān)督信號下訓(xùn)練

與基于SP(Semantic Parsing)方法類似,對于基于信息檢索(IR)的方法來說,在中間步驟沒有任何注釋的情況下推理出正確答案是困難的,因為模型無法在推理結(jié)束之前接收到任何反饋。研究發(fā)現(xiàn),這種情況可能導(dǎo)致虛假推理。由于缺乏中間狀態(tài)的監(jiān)督信號,來自虛假推理的獎勵可能會誤導(dǎo)模型。中間反饋的獎勵塑形策略。為了在弱監(jiān)督信號下訓(xùn)練模型,Qiu等人將基于知識庫的多跳推理過程形式化為在圖上擴展推理路徑的過程?;诰幋a的決策歷史,策略網(wǎng)絡(luò)利用了注意機制,以關(guān)注給定問題的不同部分對三元組選擇的獨特影響。為了緩解由弱監(jiān)督信號引起的延遲和稀疏獎勵問題,他們采用了獎勵塑形策略來評估推理路徑并提供中間獎勵。具體來說,他們利用問題和關(guān)系路徑之間的語義相似性來評估中間步驟的推理狀態(tài)。

學(xué)習(xí)偽中間監(jiān)督信號。除了在中間步驟評估推理狀態(tài)之外,一個更直觀的想法是推斷偽中間狀態(tài),并用這些推斷的信號增強模型的訓(xùn)練。受到圖上雙向搜索算法的啟發(fā),He等人提出了使用雙向推理過程學(xué)習(xí)和增強中間監(jiān)督信號的方法。將實體分布作為中間步驟的適當(dāng)監(jiān)督信號,他們提出在師生框架下學(xué)習(xí)和利用這些信號。

增強監(jiān)督信號的多任務(wù)學(xué)習(xí)。雖然大多數(shù)現(xiàn)有工作都集中在增強中間步驟的監(jiān)督信號上,但很少關(guān)注實體鏈接步驟。大多數(shù)現(xiàn)有工作使用現(xiàn)成的工具來定位問題中的主題實體,導(dǎo)致錯誤傳播。為了在沒有注釋的情況下準(zhǔn)確定位主題實體,Zhang等人提出了通過變分學(xué)習(xí)算法來訓(xùn)練實體鏈接模塊,該模塊共同建模主題實體識別和隨后的知識庫推理。他們還應(yīng)用了具有方差減少技術(shù)的REINFORCE算法,以使系統(tǒng)具備端到端的可訓(xùn)練性。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容