【RAG問答相關(guān)】復(fù)雜知識庫問答綜述(下)

前言

大模型落地應(yīng)用過程中,一般形式還是問答形式,無論是人機對話還是機機對話,都是靠問答來解決一系列問題。無論是要求大模型給出具體的專業(yè)化知識,還是要求大模型進(jìn)行某項作業(yè)的開展,都是以問題(指令其實也是一種特殊的問題)的形式進(jìn)行。所以在RAG中,如何將問題轉(zhuǎn)化為大模型能夠理解的問題,轉(zhuǎn)化為各種知識庫可以查詢的問題,這是應(yīng)用大模型能力的關(guān)鍵。本次帶來的東南大學(xué)發(fā)表的一篇關(guān)于KBQA相關(guān)的論文綜述。詳細(xì)介紹了復(fù)雜事實性問題的處理框架。我分為上中下三個部分詳解這篇論文中關(guān)于KBQA相關(guān)的內(nèi)容。洞悉用戶問題才是大模型落地應(yīng)用的第一步!本篇為下篇,PLM在復(fù)雜知識庫問答中的應(yīng)用以及排行榜以及未來趨勢。歡迎關(guān)注我們,大模型的藝術(shù),持續(xù)更新!

【RAG問答相關(guān)】復(fù)雜知識庫問答綜述(上)

【RAG問答相關(guān)】復(fù)雜知識庫問答綜述(中)

PLM在復(fù)雜知識庫問答中的應(yīng)用

在大型文本語料庫上進(jìn)行無監(jiān)督的預(yù)訓(xùn)練語言模型,然后在下游任務(wù)上對預(yù)訓(xùn)練語言模型(PLMs)進(jìn)行微調(diào),已經(jīng)成為自然語言處理的一種流行范式[100]。此外,由于從大規(guī)模數(shù)據(jù)中獲得的強大性能以及在廣泛下游任務(wù)中提供服務(wù)的能力,PLMs被認(rèn)為是許多任務(wù)的“基礎(chǔ)模型”[101],包括復(fù)雜的知識庫問答(KBQA)任務(wù)。因此,一些最近的基于SP和基于IR的方法已經(jīng)廣泛地將PLMs納入到它們的流程中。

對于基于SP的方法,PLMs通常用于同時優(yōu)化可訓(xùn)練模塊(即問題理解、邏輯解析、知識庫連接),從而有助于在seq2seq框架中生成可執(zhí)行程序(例如SPARQL)。通過這種統(tǒng)一的范式,可以利用跨任務(wù)的可轉(zhuǎn)移知識來緩解低資源情境中的數(shù)據(jù)稀缺問題。對于基于IR(信息檢索)的方法,PLMs有助于精確構(gòu)建數(shù)據(jù)源,并進(jìn)一步增強了統(tǒng)一的推理能力。一方面,PLMs提供了強大的表示能力,可以從知識庫中檢索語義相關(guān)信息。另一方面,PLMs可以幫助統(tǒng)一問題和知識庫的表示,從而有助于推理能力。

PLM應(yīng)用于基于sp的方法

搭載強大的PLMs,邏輯形式生成模塊受益于通過無監(jiān)督預(yù)訓(xùn)練獲得的強大生成和理解能力。在統(tǒng)一的seq2seq生成框架下,PLMs提供了可轉(zhuǎn)移的知識,有助于在有限數(shù)據(jù)情況下進(jìn)行有效的模型訓(xùn)練。用于增強邏輯形式生成的PLM。為了獲得可執(zhí)行程序(例如SPARQL),傳統(tǒng)的基于SP的方法將問題解析成邏輯形式,然后通過知識庫連接來實例化它。這個過程可以很好地在知識增強文本生成框架下形式化(即從用戶請求到可執(zhí)行程序)。因此,一些研究利用了通常是神經(jīng)編碼器-解碼器模型的PLMs,直接根據(jù)問題和其他相關(guān)的知識庫信息生成可執(zhí)行程序。為了獲取相關(guān)的知識庫信息輸入,Das等人從案例內(nèi)存中檢索了類似的案例,其中每個案例都是問題和其金標(biāo)準(zhǔn)可執(zhí)行程序的一對。Ye等人根據(jù)預(yù)定義的規(guī)則,直接從基于知識庫的搜索中枚舉的候選邏輯形式中檢索了前k個相關(guān)的邏輯形式。這種PLMs的使用方式已經(jīng)證明了在模型性能方面取得了顯著的改進(jìn)。

用于低資源訓(xùn)練的PLM。從PLMs獲得的強大和可轉(zhuǎn)移的自然語言理解能力使得KBQA方法能夠在低資源情境中克服對訓(xùn)練數(shù)據(jù)的無法承受之需求。在最近的一項研究中,Shi等人在KQA Pro數(shù)據(jù)集上對預(yù)訓(xùn)練的序列到序列模型進(jìn)行了微調(diào),以生成SPARQL和程序。雖然沒有引入外部知識來增強生成,但基于BART的生成器達(dá)到了接近人類性能,并且對稀疏訓(xùn)練數(shù)據(jù)表現(xiàn)出了魯棒性。

此外,與復(fù)雜的知識庫問答類似,一系列結(jié)構(gòu)解析任務(wù)(例如Text2SQL、表格問答、數(shù)據(jù)庫語義解析)可以構(gòu)成知識增強文本生成框架。在這個基礎(chǔ)上,受此啟發(fā),Xie等人提出了結(jié)構(gòu)知識映射(SKG),以統(tǒng)一一系列結(jié)構(gòu)解析任務(wù),并使用PLM模型T5在21個基準(zhǔn)任務(wù)上達(dá)到了(接近)最先進(jìn)的性能水平。通過這種基于PLM的通用方法,可以通過知識共享和跨任務(wù)泛化來解決低資源任務(wù)中精確語義解析的挑戰(zhàn)。

PLM應(yīng)用于基于IR的方法

憑借PLMs強大的表示能力,我們可以增強特定問題的圖檢索,并在檢索源構(gòu)建過程中緩解知識庫的不完整性。此外,PLMs提供了一種統(tǒng)一的方式來建模非結(jié)構(gòu)化文本和結(jié)構(gòu)化知識庫信息在統(tǒng)一的語義空間中,從而改善了特定問題的圖推理。

用于增強源構(gòu)建的PLM。為了盡可能完整地覆蓋答案,傳統(tǒng)的基于啟發(fā)式的方法,如個性化PageRank,會檢索一個大而嘈雜的特定問題圖,這會妨礙后續(xù)的推理。因此,Zhang等人訓(xùn)練了一個基于PLMs的路徑檢索器,以檢索逐跳問題相關(guān)的關(guān)系。在每一步,檢索器根據(jù)問題和上一步選擇的關(guān)系排名前k個關(guān)系。這種方法成功地過濾了嘈雜的圖上下文,并保持了對答案的預(yù)期推理路徑的高召回率。

除了建立精確的源構(gòu)建模塊外,PLMs還具有減輕知識庫不完整性的潛力。PLMs已經(jīng)展示了它們回答“填空”式陳述的能力,這表明它們可以從無監(jiān)督的預(yù)訓(xùn)練中學(xué)習(xí)關(guān)系知識。這些關(guān)鍵發(fā)現(xiàn)表明,PLMs在作為問題回答的知識源方面具有巨大潛力,可以在知識庫不完整的情況下起到補充的作用。

用于精確和統(tǒng)一推理的PLM。受到強大的預(yù)訓(xùn)練語言模型的吸引,一些研究人員對圖結(jié)構(gòu)上的復(fù)雜推理進(jìn)行了適應(yīng),以進(jìn)一步利用PLM。傳統(tǒng)的基于知識庫的推理依賴于對實體和關(guān)系學(xué)習(xí)的嵌入,這些嵌入可能無法識別與問題回答上下文相關(guān)的部分。為了在檢索到的子圖中過濾掉嘈雜的圖上下文,Yasunaga等人采用了PLM相似性分?jǐn)?shù),以確定給定問題的相關(guān)知識。為了進(jìn)一步聯(lián)合推理問題回答上下文(即問題-答案序列)和知識圖,檢索到的子圖中的節(jié)點表示是使用問題、答案和節(jié)點表面名稱的連接序列的PLM編碼進(jìn)行初始化的。通過PLMs的增強,GNN模型獲得了顯著的性能提升。

評估和資源

在這一部分,我們首先介紹知識庫問答(KBQA)系統(tǒng)的評估協(xié)議。然后,我們總結(jié)一些流行的KBQA基準(zhǔn)測試。最后,為了方便跟蹤研究進(jìn)展,我們?yōu)檫@些基準(zhǔn)測試數(shù)據(jù)集創(chuàng)建了一個排行榜,其中包含了相應(yīng)出版物的評估結(jié)果和資源鏈接。我們還附帶了一個伴隨頁面,用于綜合收集與KBQA相關(guān)的出版物、開源代碼、資源和工具。

為了全面評估知識庫問答(KBQA)系統(tǒng),應(yīng)考慮從多個方面進(jìn)行有效的度量??紤]到要實現(xiàn)的目標(biāo),我們將度量分為三個方面:可靠性、魯棒性和系統(tǒng)與用戶的交互。

評估方式

可靠性:對于每個問題,都有一個答案集(一個或多個元素)作為連接真實值。通常,KBQA系統(tǒng)會預(yù)測具有最高置信度得分的實體,以形成答案集。如果KBQA系統(tǒng)預(yù)測的答案存在于答案集中,則為正確的預(yù)測。在以前的研究中 [35],[49],[53],存在一些經(jīng)典的評估指標(biāo),如精確度(Precision),召回率(Recall),F(xiàn)1和Hits@1。對于一個問題q,其精確度表示正確預(yù)測占所有預(yù)測答案的比例。其形式定義如下:

其中是預(yù)測的答案,是連接的真實答案。

召回率是正確預(yù)測占所有連接真實值的比例。它的計算方式如下:

理想情況下,我們期望KBQA系統(tǒng)同時具有更高的精確度(Precision)和召回率(Recall)。因此,F(xiàn)1分?jǐn)?shù)通常被用來進(jìn)行綜合評估:

其他一些方法使用 Hits@1 來評估正確預(yù)測排名高于其他實體的比例。它的計算方式如下:

其中是在預(yù)測集中第一位的。

魯棒性:實際的KBQA模型應(yīng)該能夠在測試時推廣到分布之外的問題。然而,當(dāng)前的KBQA數(shù)據(jù)集大多基于模板生成,缺乏多樣性。而且,由于昂貴的標(biāo)注成本,KBQA系統(tǒng)的訓(xùn)練數(shù)據(jù)規(guī)模受到限制。此外,由于查詢的廣泛覆蓋和組合爆炸,KBQA系統(tǒng)的訓(xùn)練數(shù)據(jù)可能很難涵蓋所有可能的用戶查詢。為了提高KBQA模型的魯棒性,Gu等人提出了三個泛化級別(即i.i.d.、組合和零樣本),并發(fā)布了一個大規(guī)模的KBQA數(shù)據(jù)集GrailQA來支持進(jìn)一步的研究。在基本級別上,KBQA模型被假定是通過從相同分布中抽取的問題進(jìn)行訓(xùn)練和測試的,這是大多數(shù)現(xiàn)有研究關(guān)注的內(nèi)容。除此之外,魯棒的KBQA模型可以泛化到已見模式項目(例如關(guān)系和實體類型)的新組合。為了實現(xiàn)更好的泛化并為用戶提供服務(wù),魯棒的KBQA模型應(yīng)該能夠處理在訓(xùn)練階段未涵蓋的模式項目或領(lǐng)域的問題。

系統(tǒng)-用戶交互:盡管大多數(shù)現(xiàn)有研究都非常關(guān)注離線評估,但用戶與KBQA系統(tǒng)之間的交互被忽視了。一方面,在搜索場景中,應(yīng)考慮用戶友好的界面和可接受的響應(yīng)時間。為了評估這一點,應(yīng)收集用戶的反饋,并評估系統(tǒng)的效率。另一方面,如果只提供單一輪的服務(wù),系統(tǒng)可能會誤解用戶的搜索意圖。因此,評估KBQA系統(tǒng)的交互能力非常重要。例如,檢查它們是否能夠提出澄清問題以消除用戶的查詢歧義,并查看它們是否能夠回應(yīng)用戶報告的錯誤。到目前為止,缺乏對系統(tǒng)-用戶交互能力的量化測量,但可以將人工評估視為一種有效和綜合的方式。

數(shù)據(jù)集和排行榜

數(shù)據(jù)集。多年來,已經(jīng)付出了大量努力來構(gòu)建復(fù)雜的知識庫問答(KBQA)數(shù)據(jù)集。我們在表格1中列出了多個流行知識庫(例如Freebase、DBpedia、Wikidata和WikiMovies)的復(fù)雜KBQA數(shù)據(jù)集的代表性示例。為了服務(wù)于現(xiàn)實應(yīng)用,這些數(shù)據(jù)集通常包含需要多個知識庫事實進(jìn)行推理的問題。此外,它們可能包括數(shù)值操作(例如比較和最高問題的計數(shù)和排名操作)以及約束條件(例如實體和時間關(guān)鍵詞),這進(jìn)一步增加了從知識庫中推理答案的難度。

總的來說,這些數(shù)據(jù)集的構(gòu)建包括以下步驟:首先,以知識庫中的主題實體作為問題的主題,使用不同的模板創(chuàng)建簡單的問題?;诤唵蔚膯栴}和知識庫中主題實體的鄰近性,進(jìn)一步使用預(yù)定義的組合模板生成復(fù)雜問題,另一項工作也使用模板生成可執(zhí)行的邏輯形式。同時,使用相應(yīng)的規(guī)則提取答案。在某些情況下,雇傭眾包工作者來重新表述規(guī)范問題,并完善生成的邏輯形式,使問題表達(dá)更多樣化和流利。

排行榜。為了展示這些KBQA基準(zhǔn)數(shù)據(jù)集中的最新研究進(jìn)展,我們提供了一個排行榜,包括基于信息檢索(IR-based)方法和基于句法分析(SP-based)方法的前三名KBQA系統(tǒng)。為了進(jìn)行公平比較,結(jié)果選擇遵循以下三個原則:1)如果一個數(shù)據(jù)集有官方排行榜,我們只參考排行榜上列出的公共結(jié)果。2)否則,我們從在2022年3月之前正式被會議或期刊接受的已發(fā)表論文中選擇前三名結(jié)果。3)此外,我們保持每個數(shù)據(jù)集的實驗設(shè)置與其他數(shù)據(jù)集一致。特殊情況下,我們不報告QALD系列的結(jié)果以便更簡潔顯示,因為它們有多個不同版本,而且我們只報告MetaQA Vanilla的3-hop拆分,因為這比1-hop和2-hop拆分更具挑戰(zhàn)性。對于LC-QuAD 2.0,我們選擇了Zou等人報告的結(jié)果。如果根據(jù)上述原則沒有足夠的結(jié)果,我們將留空。對于所有基準(zhǔn)數(shù)據(jù)集上KBQA方法的更全面評估,請參考我們的附帶頁面。

在上文提到的文中,"LF" 表示數(shù)據(jù)集是否提供類似SPARQL的邏輯形式(Logic Forms),"CO" 表示數(shù)據(jù)集是否包含帶有約束的問題(COnstraints),"NL" 代表數(shù)據(jù)集是否將眾包工作者用于重寫自然語言問題(Natural Language),"NU" 表示數(shù)據(jù)集是否包含需要數(shù)值操作的問題(NUmerical operations)。通常,基于SP的方法采用F1分?jǐn)?shù)作為評估指標(biāo),而基于IR的方法采用Hits@1(準(zhǔn)確性)作為評估指標(biāo)。符號 三角形 和 心形 分別表示Hits@1(準(zhǔn)確性)和F1分?jǐn)?shù)的評估指標(biāo)。

分析與討論。根據(jù)表1,我們有以下觀察:(1)基于句法分析(SP-based)和基于信息檢索(IR-based)的方法都被開發(fā)來處理復(fù)雜的KBQA挑戰(zhàn),對于哪一類更好并沒有絕對一致的看法。 (2)盡管SP-based方法涵蓋了大多數(shù)基準(zhǔn)數(shù)據(jù)集,但I(xiàn)R-based方法側(cè)重于主要由多跳問題組成的基準(zhǔn)數(shù)據(jù)集。 SP-based方法更常用于回答復(fù)雜問題的原因可能是它們生成靈活且富有表現(xiàn)力的邏輯形式,能夠涵蓋所有類型的問題(例如布爾型、比較型等)。 (3)我們還觀察到,在每個類別中,表現(xiàn)出色的方法通常都配備了先進(jìn)的技術(shù)。排行榜上的SP-based方法利用強大的問題編碼器(例如PLMs)來幫助理解問題,使用富有表現(xiàn)力的邏輯形式來解析復(fù)雜查詢。對于IR-based方法,大多數(shù)最新方法在問題表示模塊中采用逐步動態(tài)指令,并使用關(guān)系路徑建模或基于圖神經(jīng)網(wǎng)絡(luò)(GNN)的推理進(jìn)行多步推理。

最近趨勢

在這一部分,我們討論了復(fù)雜的知識庫問答(KBQA)任務(wù)的幾個有前景的未來方向:

進(jìn)化型KBQA系統(tǒng):現(xiàn)有的KBQA系統(tǒng)通常在離線情況下使用特定數(shù)據(jù)集進(jìn)行訓(xùn)練,然后在線部署以處理用戶查詢。然而,大多數(shù)現(xiàn)有的KBQA系統(tǒng)忽視了從部署后接收的失敗案例或未見問題模板中學(xué)習(xí)的機會。與此同時,大多數(shù)現(xiàn)有的KBQA系統(tǒng)無法跟上世界知識的快速增長,無法回答新的問題。因此,在線用戶交互可能為已部署的KBQA系統(tǒng)提供進(jìn)一步改進(jìn)的機會。一些工作利用用戶反饋來更正KBQA系統(tǒng)生成的答案,并進(jìn)一步改進(jìn)系統(tǒng)。通過用戶反饋,Abujabal等人提出了一個連續(xù)學(xué)習(xí)框架,以學(xué)習(xí)捕捉以前未見的句法結(jié)構(gòu)的新模板。除了增加模型的模板庫,用戶反饋還可以用于澄清模糊問題(例如,模糊短語或模糊實體)。這些方法為構(gòu)建具有用戶反饋的進(jìn)化型KBQA系統(tǒng)提供了一個初始探索。這種方法是有效和實用的(即可接受的用戶認(rèn)知負(fù)擔(dān)和運行成本),可以滿足工業(yè)需求。由于KBQA系統(tǒng)的廣泛應(yīng)用,更多與KBQA系統(tǒng)的用戶交互的工作和設(shè)計亟需研究。

魯棒的KBQA系統(tǒng):現(xiàn)有的KBQA研究通常在理想假設(shè)下進(jìn)行,即訓(xùn)練數(shù)據(jù)足夠且其分布與測試集相同。然而,由于數(shù)據(jù)不足和潛在的數(shù)據(jù)分布偏差,這在實踐中可能并不理想。為了在資源有限的情況下訓(xùn)練魯棒的KBQA系統(tǒng),研究人員已經(jīng)探索了元學(xué)習(xí)技術(shù)和從高資源場景中的知識傳遞等方法。我們還強調(diào)了PLMs在資源有限培訓(xùn)和跨任務(wù)泛化方面的潛在影響。由于手動注釋KBQA系統(tǒng)的成本高昂,需要更多關(guān)于在資源有限情況下訓(xùn)練魯棒KBQA系統(tǒng)的研究。同時,盡管現(xiàn)有方法通常持有i.i.d.假設(shè),但它們可能很容易無法處理KBQA的分布之外(OOD)問題。通過對GrailQA數(shù)據(jù)集的系統(tǒng)評估,Gu等人指出,現(xiàn)有的基線方法容易受到組合挑戰(zhàn)的影響。為了提高更高級別的魯棒性,研究人員可以通過解決Gu等人提出的三個泛化級別(即i.i.d.、組合和零-shot)來獲得更多見解。在復(fù)雜KBQA任務(wù)上,魯棒性的研究工作很少。構(gòu)建具有更強泛化能力的魯棒KBQA系統(tǒng)仍然是一個開放性問題。

對話式KBQA系統(tǒng):近幾十年來,AI驅(qū)動的應(yīng)用程序(例如搜索引擎和個人助手)的快速發(fā)展,被用來回答事實性問題。由于用戶通常會提出跟進(jìn)問題來探索一個主題,因此部署的模型應(yīng)該以對話方式處理KBQA任務(wù)。在對話式KBQA的初步探索中,一些工作集中關(guān)注了由指代和省略現(xiàn)象引起的模糊性和困難。為了跟蹤對話式KBQA的焦點,Lan等人提出通過實體轉(zhuǎn)換圖來建模焦點的流動。為了全面理解對話上下文,Plepi等人利用了Transformer架構(gòu),將上一輪對話歷史作為輸入。盡管這些研究解決了一些對話式KBQA的挑戰(zhàn),但距離實現(xiàn)人類水平的性能還有很遠(yuǎn)。在未來的研究中,需要識別和解決更多關(guān)鍵挑戰(zhàn)。迄今為止,對話式KBQA是一個相對新的和具有挑戰(zhàn)性的任務(wù),在未來的搜索引擎和智能個人助手中可能發(fā)揮重要作用。

神經(jīng)符號KBQA系統(tǒng):盡管一些最近的工作提出了將KBQA系統(tǒng)配備神經(jīng)符號推理(NSR)技術(shù)的想法,但這種強大范式的潛力尚未得到徹底探索。例如,盡管已經(jīng)證明神經(jīng)網(wǎng)絡(luò)在KB上進(jìn)行多跳推理方面是有效的,但這種神經(jīng)模塊無法明確考慮邏輯操作(例如數(shù)值操作和布爾操作)。為了在保持神經(jīng)網(wǎng)絡(luò)在推理中的強大功能的同時彌補這些缺點,可以引入一個與現(xiàn)有神經(jīng)推理模塊相結(jié)合的符號模塊。神經(jīng)編程的一些實踐已經(jīng)證明了這可以有效地賦予黑盒神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)和邏輯推理能力??偟膩碚f,研究人員欣賞基于句法分析方法的可解釋性(即根據(jù)語法規(guī)則生成邏輯形式)和基于信息檢索方法的強大性(即使用神經(jīng)網(wǎng)絡(luò)進(jìn)行子圖的精確推理)?;诰浞ǚ治龊突谛畔z索方法都可以統(tǒng)一為神經(jīng)符號推理范式。因此,NSR提供了統(tǒng)一這兩類方法并匯集它們優(yōu)勢的潛在途徑,值得進(jìn)一步研究。

更廣泛的知識庫:由于知識庫的不完整性,研究人員將額外的信息(如文本、圖像和人際交互)合并到知識庫中,以補充知識庫的信息,進(jìn)一步解決復(fù)雜KBQA任務(wù)的信息需求。由于文本語料庫在語義上豐富且易于收集,研究人員被從文本語料庫中提取知識并使用提取的知識來回答問題的想法所吸引。研究人員已經(jīng)探索了從文本語料庫中獲得的各種形式的知識,例如傳統(tǒng)的關(guān)系三元組、以鍵值內(nèi)存存儲的虛擬知識庫(VKB)以及PLMs作為隱式知識庫。通過這些精心設(shè)計,可以獲得更靈活和補充性的知識,以解決復(fù)雜的KBQA任務(wù)。最近的一個趨勢是使用通用架構(gòu)統(tǒng)一類似任務(wù),并實現(xiàn)跨任務(wù)知識轉(zhuǎn)移。在未來,可能會探索更多與通用知識庫相關(guān)的任務(wù),如合成、多語言和多模式知識庫。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容