來源: AINLPer 微信公眾號(每日更新...)
編輯: ShuYini
校稿: ShuYini
時間: 2020-03-24
引言: 本次整理的論文還是主要偏向于Open-Domain QA,其中主要涉及到增強(qiáng)Ranker-Reader、SearchQA的大型數(shù)據(jù)集、PullNet集成框架、改進(jìn)的加權(quán)抽樣訓(xùn)練策略、開放QA中的Bert模型優(yōu)化等。
本次論文獲取方式:
1、百度云鏈接,提取碼: y9xq
2、關(guān)注AINLPer 微信公眾號(每日更新...)回復(fù):QA005
1、TILE: Evidence Aggregation for Answer Re-Ranking in Open-Domain Question Answering
Author: Shuohang Wang , Mo Yu , Jing Jiang , Wei Zhang
Paper: https://arxiv.org/pdf/1711.05116v2.pdf
Code: https://github.com/shuohangwang/mprc
論文簡述: 在這篇論文中,提出了兩個利用多篇文章來產(chǎn)生答案的模型。兩者都使用了一種答案重新排序的方法,該方法重新排序由現(xiàn)有的最先進(jìn)的QA模型生成候選答案。本文提出了兩種方法,即基于強(qiáng)度的重新排序和基于覆蓋的重新排序,以利用來自不同文章的匯總證據(jù)來更好地確定答案。本文模型在三個公開的開放域QA數(shù)據(jù)集:Quasar-T、SearchQA和TriviaQA的開放域版本上取得了最先進(jìn)的結(jié)果



2、TILE: : Reinforced Reader-Ranker for Open-Domain Question Answering
Author: Shuohang Wang , Mo Yu , Xiaoxiao Guo , Zhiguo Wang , Tim Klinger
Paper: https://arxiv.org/pdf/1709.00023v2.pdf
Code: https://github.com/shuohangwang/mprc
論文簡述: 本文提出了一種基于兩種算法創(chuàng)新的新型開放域質(zhì)量保證系統(tǒng)——增強(qiáng)Ranker-Reader。文中首先提出了一個帶有排名組件的開放域QA新管道,該組件根據(jù)生成給定問題的基本真實答案的可能性對檢索到的文章進(jìn)行排名。其次,提出了一種基于強(qiáng)化學(xué)習(xí)的排序器與答案生成閱讀者模型聯(lián)合訓(xùn)練的新方法。實驗結(jié)果,本文方法顯著地改善了多個開放域QA數(shù)據(jù)集的現(xiàn)狀。



3、TILE: SearchQA: A New Q&A Dataset Augmented with Context from a Search Engine
Author: Matthew Dunn , Levent Sagun , Mike Higgins , V. Ugur Guney , Volkan Cirik , Kyunghyun Cho
Paper: https://arxiv.org/pdf/1704.05179v3.pdf
Code: https://github.com/nyu-dl/SearchQA
論文簡述: 本文公開發(fā)布了一個名為SearchQA的大型數(shù)據(jù)集,用于機(jī)器理解或問答。它由超過140k個問題-答案對組成,每個對平均有49.6個片段。SearchQA的每個問答上下文元組都帶有額外的元數(shù)據(jù)。我們在SearchQA上進(jìn)行人工評估,并測試了兩種基本方法,一種是簡單的單詞選擇,另一種是基于深度學(xué)習(xí)的。
4、TILE: Reading Wikipedia to Answer Open-Domain Questions
Author: Danqi Chen , Adam Fisch , Jason Weston , Antoine Bordes
Paper: https://arxiv.org/pdf/1704.00051v2.pdf
Code: https://github.com/facebookresearch/ParlAI
論文簡述: 本文提出利用維基百科作為唯一的知識來源來解決開放領(lǐng)域的問題:任何事實性問題的答案都是維基百科文章的一個文本范圍。大規(guī)模機(jī)器閱讀的任務(wù)結(jié)合了文檔檢索(查找相關(guān)文章)和機(jī)器理解文本(從這些文章中識別答案)的挑戰(zhàn)。我們的方法結(jié)合了一個基于二元哈希和TF-IDF匹配的搜索組件和一個多層遞歸神經(jīng)網(wǎng)絡(luò)模型,該模型訓(xùn)練用來檢測維基百科段落中的答案。


5、TILE: PullNet: Open Domain Question Answering with Iterative Retrieval on Knowledge Bases and Text
Author: Haitian Sun , Tania Bedrax-Weiss , William Cohen
Paper: https://www.aclweb.org/anthology/D19-1242.pdf
Code: None
論文簡述: 本文PullNet是一個集成的框架,用于(1)學(xué)習(xí)檢索以及(2)利用異構(gòu)信息進(jìn)行推理以找到最佳答案。PullNet使用一個{迭代}過程來構(gòu)造一個包含與問題相關(guān)信息的特定于問題的子圖。在每個迭代中,使用一個graph convolutional network (graph CNN)來識別子圖節(jié)點,這些子圖節(jié)點通過對語料庫和/或知識庫進(jìn)行檢索操作來展開。子圖完成后,使用另一個圖CNN從子圖中提取答案。這個檢索和推理過程允許我們使用大型KBs和語料庫回答多跳問題。



6、TILE: Ranking and Sampling in Open-Domain Question Answering
Author: Yanfu Xu , Zheng Lin , Yuanxin Liu , Rui Liu , Weiping Wang , Dan Meng
Paper: https://www.aclweb.org/anthology/D19-1245.pdf
Code: None
論文簡述: 在本文首先介紹了一個利用分段-問題和分段-段落相關(guān)性來計算每個段落的置信度的排序模型。在此基礎(chǔ)上,我們設(shè)計了一種改進(jìn)的加權(quán)抽樣訓(xùn)練策略,以減少噪聲和干擾段落的影響。在三個公共數(shù)據(jù)集(Quasar-T、SearchQA和TriviaQA)上進(jìn)行的實驗表明了本文模型的優(yōu)勢。




7、TILE: Language Models as Knowledge Bases?
Author: Fabio Petroni , Tim Rocktschel , Sebastian Riedel , Patrick Lewis , Anton Bakhtin
Paper: https://www.aclweb.org/anthology/D19-1250.pdf
Code: https://github.com/facebookresearch/LAMA
論文簡述: 本文深入分析了在一系列最先進(jìn)的預(yù)訓(xùn)練語言模型中已經(jīng)存在(沒有微調(diào))的關(guān)系知識。我們發(fā)現(xiàn):(1)在沒有微調(diào)的情況下,BERT相比于傳統(tǒng)的NLP方法包含了相關(guān)知識,但是傳統(tǒng)NLP方法可以訪問知識庫;(2)BERT在基于監(jiān)督基線的開放域問題回答方面也做得非常好,(iii)通過標(biāo)準(zhǔn)語言模型的預(yù)訓(xùn)練方法,某些類型的事實知識比其他類型的知識更容易學(xué)習(xí)。這些模型在不進(jìn)行任何微調(diào)的情況下調(diào)用事實知識的能力表現(xiàn)出驚人地優(yōu)勢,這表明它們作為無監(jiān)督的開放域QA系統(tǒng)的潛力。


8、TILE: Multi-passage BERT: A Globally Normalized BERT Model for Open-domain Question Answering
Author: Zhiguo Wang , Patrick Ng , Xiaofei Ma , Ramesh Nallapati , Bing Xiang
Paper: https://www.aclweb.org/anthology/D19-1599.pdf
Code: None
論文簡述: BERT模型已成功地應(yīng)用于開放域QA任務(wù)。然而,以往的工作是通過觀察與獨立訓(xùn)練實例相同的問題對應(yīng)的段落來訓(xùn)練BERT,這可能會導(dǎo)致不同段落的答案得分存在不可比性。為了解決這個問題,本文提出了一個多通道的BERT模型來對同一問題的所有段落的答案得分進(jìn)行全局標(biāo)準(zhǔn)化,這種變化使得我們的QA模型能夠通過使用更多的段落找到更好的答案。此外,我們還發(fā)現(xiàn),通過滑動窗口將文章拆分成100字的段落,可以將性能提高4%。通過利用一個通道ranker來選擇高質(zhì)量的通道,多通道BERT獲得額外的2%提高。


Attention
更多自然語言處理相關(guān)知識,還請關(guān)注AINLPer公眾號,極品干貨即刻送達(dá)。