主要看了20篇近三年的頂會QA相關文章
大致分為幾類:
- 特定領域的問答系統(tǒng),如法律、醫(yī)療等
- 基于文本閱讀理解的QA研究
- 基于知識圖譜、知識庫的QA研究
- 整合文本和KB的QA研究
- 提出新的QA數(shù)據(jù)集
- 中文相關
特定領域問答系統(tǒng)
WestSearch Plus: A Non-factoid Question-Answering System for the Legal Domain
本文是一個Demo Paper
本文作者提出了一個非事實問題的問答系統(tǒng),該系統(tǒng)可為法律領域中用戶輸入的問題提供法律上準確、與司法管轄區(qū)相關并可以通過對話進行答復的答案。 這種商用系統(tǒng)完全基于NLP和IR,并且不依賴于結構化的知識庫。 WestSearch Plus旨在為有關法律的基本問題提供簡潔的一句話答案。 它的范圍不限于特定主題或管轄范圍。 潛在答案的語料庫包含大約2200萬份文檔,這些文檔分類為超過12萬個法律主題。
其主要流程就是對問題進行關鍵詞提取,然后通過現(xiàn)有的法律搜索引擎進行搜索,之后再對搜索到的結果進行關鍵信息的提取,用的都是現(xiàn)成的模型
A Hierarchical Attention Retrieval Model for Healthcare Question Answering
在醫(yī)療信息在線平臺中導航以回答醫(yī)療保健消費者的特定查詢是一項艱巨的任務。大多數(shù)此類查詢本質(zhì)上可能不是事實類問題,因此,傳統(tǒng)的基于關鍵字的檢索模型不適用于此類情況。此外,在許多情況下,可能希望獲得一個簡短的答案以充分回答該查詢,而不是一個僅包含少量有用信息的冗長文檔。在本文中,作者提出了一種神經(jīng)網(wǎng)絡模型,用于對醫(yī)療保健領域中的問題回答文檔進行排名。所提出的模型在單詞,句子和文檔級別使用了一種深層關注機制,以便在各種長度的文檔上有效檢索事實和非事實查詢。具體來說,單詞級別的交叉注意使模型可以識別與查詢最相關的單詞,而句子和文檔級別的層次注意則允許它對長文檔和短文檔進行有效檢索。作者還構建了一個新的大規(guī)模醫(yī)療保健問答數(shù)據(jù)集,用于評估模型。
本文提出的模型名叫Hierarchical Attention Retrieval (HAR)模型,使用的是深度注意力機制

如圖所示,本模型的主要特點是使用了交叉注意力機制來結合問題和文檔的聯(lián)系

從結果來看,HAR模型比目前許多baseline模型額效果都要好得多,提升非常明顯
基于文本閱讀理解的QA研究
Efficient and Robust Question Answering from Minimal Context over Documents
用于文檔的問題解答(QA)的神經(jīng)模型已經(jīng)實現(xiàn)了顯著的性能改進。 盡管有效,但由于這些模型在文檔和問題之間的相互作用很復雜,因此無法擴展到大型語料庫。 并且這種模型對對抗性輸入很敏感。 在本文中,作者研究了回答問題所需的最小上下文,并發(fā)現(xiàn)現(xiàn)有數(shù)據(jù)集中的大多數(shù)問題都可以用少量的句子來回答。 受此觀察的啟發(fā),提出了一個簡單的句子選擇器,以選擇最少的句子集輸入到QA模型中。

本文主要的貢獻在于,對于document很龐大的數(shù)據(jù)集,使用了sentences selector來選擇其中最為關鍵的幾個用來回答問題的句子,來改進正確率和效率。實驗表明這種方法非常有效
Document Gated Reader for Open-Domain Question Answering
基于深度學習的QA方法存在以下缺陷:
- 遠程監(jiān)管數(shù)據(jù)的質(zhì)量較差,并且答案得分在多個文檔中未標準化。
-
與以前的開放域問答系統(tǒng)不同,它們獨立處理每個文檔,這可能會忽略上下文中的寶貴信息。
這篇文章解決的問題就在于將不同的document的關系也加入到了尋找答案的要素之中。
提出了一個document gate 的操作,用來獲取document之間的關聯(lián),具體見論文中的模型。
并且作者使用了IR模型來進行問題相關document的檢索、本文做了比較大量的實驗
DGR在大多測試中都有著最好的表現(xiàn)
Multi-Hop Paragraph Retrieval for Open-Domain Question Answering
本文涉及多跳開放域問答(QA)的任務。 這項任務特別具有挑戰(zhàn)性,因為它需要同時執(zhí)行文本推理和有效搜索。 作者提出了一種方法,用于檢索嵌套在大型知識庫中的多個支持段落,其中包含必要的證據(jù)來回答給定的問題。 作者的方法通過形成問題和段落的聯(lián)合向量表示來迭代地檢索支持圖。 檢索是通過考慮知識源中段落的用語篇表達的句子表達來執(zhí)行的。 作者的方法在兩個著名的數(shù)據(jù)集SQuAD-Open和HotpotQA上達到了最先進的性能,它們分別作為我們的單跳和多跳開放域QA基準

本文主要研究多文本的多跳查詢問題,亮點就在于本文提出模型的Reformulation層,使得多跳的每一次查詢的查詢向量獨特,如下圖所示

Reading Wikipedia to Answer Open-Domain Questions
本文建議使用Wikipedia作為唯一知識源來解決開放域問題的回答:任何事實類問題的答案都是Wikipedia文章中的文本范圍。 大規(guī)模的機器閱讀任務將文檔檢索(查找相關文章)與機器理解文本(識別這些文章的答案范圍)的挑戰(zhàn)結合在一起。 我們的方法將基于bigram哈希和TF-IDF匹配的搜索組件與經(jīng)過訓練以檢測Wikipedia段落中的答案的多層遞歸神經(jīng)網(wǎng)絡模型相結合。 我們在多個現(xiàn)有質(zhì)量檢查數(shù)據(jù)集上的實驗表明,(1)兩個模塊相對于現(xiàn)有模塊都具有很高的競爭力,(2)使用遠程監(jiān)督對其組合進行多任務學習是完成這一艱巨任務的有效完整系統(tǒng)
模型分為兩個部分,第一部分是document檢索部分,用于檢索與問題相關的文章,之后在通過document閱讀器來進行文章信息的提煉

retriever主要是TF-IDF的運用,閱讀器運用了比較火的注意力機制的文本閱讀理解模型。這篇文章開辟了一個QA的新領域,即開放域QA的研究
本文解決的問題是Machine Reading at Scale,使用維基百科作為唯一知識源,提出了一種解決開放式問題的方法,使得機器能以更加靈活的方式回答問題。這個大規(guī)模機器閱讀 (machine reading at scale MRS) 的任務結合了文件檢索(找相關文章)和機器文本理解(識別答案所對應文本)。相比較于單任務學習,使用多任務學習 (multitask learning) 和distant supervision可以在多個任務上實現(xiàn)性能提升
Question Answering through Transfer Learning from Large Fine-grained Supervision Data
這篇主要運用的方法就是遷移學習,把span-level的數(shù)據(jù)集上的預訓練模型運用于sentence-level可以有很不錯的效果。
作者的研究表明,問題解答(QA)的任務可以大大受益于在不同的大型,細粒度QA數(shù)據(jù)集上訓練的模型的轉(zhuǎn)移學習。 通過SQuAD的基本遷移學習技術,作者在兩個經(jīng)過充分研究的QA數(shù)據(jù)集WikiQA和SemEval-2016(任務3A)中達到了最先進的水平。 對于WikiQA,該模型比以前的最佳模型高出8%以上。這篇文章證明了,通過定量結果和視覺分析,比起粗略的監(jiān)督,更好的監(jiān)督為學習詞匯和句法信息提供了更好的指導。 我們還表明,類似的轉(zhuǎn)移學習程序可以在一項附帶任務上達到最新水平
BERT with History Answer Embedding for Conversational Question Answering
會話搜索是信息檢索社區(qū)中一個新興的話題。多回合會話搜索的主要挑戰(zhàn)之一是對會話歷史進行建模以回答當前問題。現(xiàn)有的方法或者將歷史記錄放在當前問題之前,或者使用復雜的注意力機制來對歷史記錄進行建模。提出了一種概念上簡單但高效的方法,稱為歷史答案嵌入。它可以將對話歷史記錄無縫集成到基于BERT(來自變壓器的雙向編碼器表示)構建的對話問題回答(ConvQA)模型中。

本文主要是BERT在QA、多輪對話領域中的運用,強調(diào)了對話歷史信息對于QA的作用。結果表明這樣的模型有一定的提升,但是提升不是特別顯著
基于知識圖譜、知識庫的QA研究
An End-to-End Model for Question Answering over Knowledge Base with Cross-Attention Combining Global Knowledge
隨著網(wǎng)絡上知識庫(KB)的快速增長,如何充分利用它們變得越來越重要。基于知識庫的問題解答(KB-QA)是訪問大量知識的有前途的方法之一。同時,隨著基于神經(jīng)網(wǎng)絡(基于NN)的方法的發(fā)展,基于神經(jīng)網(wǎng)絡的KB-QA已經(jīng)取得了令人印象深刻的結果。但是,以前的工作并沒有更多地關注問題表示,并且無論其候選答案如何,問題都會轉(zhuǎn)換為固定向量。這種簡單的表示策略很難表達問題中的正確信息。因此,作者提出了一種端到端的神經(jīng)網(wǎng)絡模型,通過交叉注意機制,動態(tài)地根據(jù)各種候選答案方面來表示問題及其相應的分數(shù)。

本文的創(chuàng)新之處在于針對問題的表示做了比較多的關注,并且將問題和候選答案聯(lián)系起來,動態(tài)的表示問題,這樣能夠使得問題的表示更加具有意義,使得問題的回答更加準確
Querying NoSQL with Deep Learning to Answer Natural Language Questions
如今,幾乎所有知識都存儲在數(shù)據(jù)庫中,因此只能在領域特定的查詢語言的幫助下進行訪問,從而極大地限制了可以訪問數(shù)據(jù)的人員的數(shù)量。 在本文的工作中,作者演示了一個端到端的可訓練問題解答(QA)系統(tǒng),該系統(tǒng)允許用戶使用自然語言來查詢外部NoSQL數(shù)據(jù)庫。 這種系統(tǒng)的主要挑戰(zhàn)是數(shù)據(jù)庫操作的不可區(qū)分性,我們通過應用基于策略的強化學習克服了這一難題。 我們在Facebook的bAbI電影對話數(shù)據(jù)集上評估了我們的方法,與幾種基準模型相比,我們獲得了84.2%的競爭得分。 我們得出結論,我們的方法在知識駐留在外部數(shù)據(jù)庫中且中間標簽的成本太高而無法收集非端到端可培訓QA系統(tǒng)的現(xiàn)實世界場景中表現(xiàn)出色

本文的特點主要在于使用了強化學習來進行模型的學習。這項工作將AI技術(即基于注意力的指針網(wǎng)絡)與完善的NoSQL數(shù)據(jù)庫Elasticsearch集成在一起。 我們的端到端可訓練的硬KB查找SeqPolicyNet模型優(yōu)于“電影對話”數(shù)據(jù)集上的幾個基線模型。 如果為每個問題類別提供足夠的樣本,SeqPolicyNet甚至可以對訓練期間看不見的問題模式進行泛化
整合文本和KB的QA研究
Answering Complex Questions by Joining Multi-Document Evidence with Quasi Knowledge Graphs
直接回答涉及多個實體和關系的問題對于基于文本的質(zhì)量檢查是一個挑戰(zhàn)。當只能通過結合多個文檔中的證據(jù)才能找到答案時,這個問題最為突出。策展的知識圖(KGs)可能會產(chǎn)生很好的答案,但受到其固有的不完整性和潛在的陳舊性的限制。本文介紹了QUEST,這種方法可以通過計算來自不同文檔的部分結果的相似性連接,直接從文本源中直接回答復雜問題。我們的方法完全不受監(jiān)督,避免了訓練數(shù)據(jù)瓶頸,并且能夠應對用戶問題中快速發(fā)展的臨時主題和公式化樣式。 QUEST使用節(jié)點和邊緣權重構建一個嘈雜的準KG,由動態(tài)檢索的實體名稱和關系短語組成。它通過類型和語義對齊來擴充該圖,并通過Group Steiner樹算法計算最佳答案。作者根據(jù)復雜問題的基準對QUEST進行評估,并證明它大大優(yōu)于最新的基準
在文章中作者還指出了基于KB和文本的問答系統(tǒng)的優(yōu)缺點進行了一個總結。
本文主要是將文本和KB進行結合來回答復雜的問題,通過OPENIE來構建一個知識圖譜進行結合
Improving Question Answering over Incomplete KBs with Knowledge-Aware Reader
作者提出了一種新的端到端問題回答模型,該模型學習從不完整的知識庫(KB)和一組檢索到的文本摘要中匯總回答證據(jù)。 在假設結構化知識庫更易于查詢并且獲得的知識可以幫助理解非結構化文本的假設下,我們的模型首先從與問題相關的知識庫子圖中積累實體的知識; 然后在潛在空間中重新編寫問題,并閱讀具有積累的實體知識的文本。 最終將KB和文本的證據(jù)匯總起來以預測答案。 在廣泛使用的KBQA基準WebQSP上,我們的模型在不同程度的KB不完整程度之間實現(xiàn)了持續(xù)改進

本文的特色在于把KB和Document結合,這邊是分別兩個reader來處理KB和document,最后用兩者得到的信息來預測最后的答案
提出新的QA數(shù)據(jù)集
ELI5: Long Form Question Answering
作者引入了第一個用于長篇問答的大型語料庫,這是一項需要對開放式問題進行詳盡而深入的回答的任務。 該數(shù)據(jù)集包含來自Reddit論壇“像我一樣五歲的孩子”(ELI5)的270K線程,其中一個在線社區(qū)提供了對五歲孩子可以理解的問題的答案。 與現(xiàn)有數(shù)據(jù)集相比,ELI5包含需要多語句答案的各種問題。 作者提供了大量的網(wǎng)絡文檔來幫助回答問題。 自動和人工評估表明,經(jīng)過多任務目標訓練的抽象模型優(yōu)于傳統(tǒng)的Seq2Seq,語言建模以及強大的抽取基線。 但是,作者的最佳模型仍然離人類表現(xiàn)還差得遠,因為評估者在超過86%的情況下更喜歡黃金反應,從而為未來的改進留有充足的機會。

DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications
見數(shù)據(jù)集整理
中文相關
Lattice CNNs for Matching Based Chinese Question Answering
短文本匹配經(jīng)常面臨兩個文本之間存在巨大的詞不匹配和表達多樣性的挑戰(zhàn),在像中文這樣的語言中,由于沒有自然的空間來明確地分割詞,這種情況會進一步加劇。 在本文中,作者提出了一種新穎的基于格網(wǎng)的CNN模型(LCN),該模型利用了單詞格網(wǎng)中固有的多粒度信息,同時保持了強大的能力來處理引入的基于匹配的中文雜音信息。 作者對基于文檔的問答和基于知識的問答任務都進行了廣泛的實驗,實驗結果表明,LCN模型可以通過更好地利用以下優(yōu)勢而大大勝過最新的匹配模型和強大的基準 從單詞點陣輸入中提取豐富但有區(qū)別的信息的能力。

這篇文章主要解決了中文問答系統(tǒng)中對于單詞不能很好匹配的問題,使用了詞網(wǎng)格這一技術,對中文單詞匹配做了優(yōu)化,根據(jù)詳細的實驗可以得出,論文所提出的詞網(wǎng)絡的粉刺方法有著更好的效果。
