論文筆記

Unsupervised Question Decomposition for Question Answering

本文的作者旨在通過將困難的問題分解為現(xiàn)有的QA系統(tǒng)可以回答的更簡單的子問題來改善問題的回答(QA)。 由于收集標(biāo)記的分解很麻煩,因此我們提出了一種無監(jiān)督的方法來產(chǎn)生子問題。 具體而言,通過利用Common Crawl中的> 1000萬個(gè)問題,我們學(xué)會(huì)了從多跳問題的分布映射到單跳子問題的分布。 我們使用現(xiàn)成的QA模型回答子問題,并將結(jié)果匯總到下游的多跳QA系統(tǒng)中。 在流行的多跳質(zhì)量檢查數(shù)據(jù)集HOTPOTQA上,我們顯示了在強(qiáng)大的基線上的巨大改進(jìn),尤其是在對抗性和域外問題上。 我們的方法通常適用,并且可以自動(dòng)學(xué)習(xí)分解不同類別的問題,同時(shí)匹配很大程度上依賴于手工設(shè)計(jì)和注釋的分解方法的性能。
方法的流程如下:


流程

先將復(fù)雜問題通過一個(gè)非監(jiān)督的分解模型分解為兩個(gè)簡單的問題,兩個(gè)簡單地問題通過單跳的問道行來完成回答,最后將答案和兩個(gè)問題一塊輸入到多跳QA模型中完成最后答案的整合。
作者認(rèn)為先前的分解問題的研究都是通過啟發(fā)式方法來做的,很難擴(kuò)展到其他領(lǐng)域。
作者的方法是先通過Common Crawl收集到類似分解后子問題的偽子問題和復(fù)雜問題組成訓(xùn)練數(shù)據(jù),進(jìn)行非監(jiān)督的訓(xùn)練來訓(xùn)練分解模型。
總結(jié)來說,作者提出了一種在沒有監(jiān)督的情況下分解問題的算法,該算法分為三個(gè)階段:(1)在沒有監(jiān)督的情況下使用偽分解學(xué)習(xí)分解;(2)使用現(xiàn)成的QA系統(tǒng)解決子問題;以及( 3)使用子問題及其答案作為附加輸入,可以更準(zhǔn)確地回答難題。在多跳QA的標(biāo)準(zhǔn)基準(zhǔn)HOTPOTQA上進(jìn)行評估時(shí),作者的方法比不使用分解的等效模型顯著提高了準(zhǔn)確性。作者的方法僅依賴于最終答案作為監(jiān)督,但與依靠強(qiáng)大監(jiān)督的最新方法(例如支持事實(shí)標(biāo)簽或示例分解)一樣有效。定性地,發(fā)現(xiàn)無監(jiān)督分解導(dǎo)致流利的子問題,其子問題的答案通常與HOTPOTQA中帶注釋的支持事實(shí)相匹配。總體而言,這項(xiàng)工作為在無監(jiān)督學(xué)習(xí)和自然語言生成中利用方法以改善機(jī)器學(xué)習(xí)系統(tǒng)的可解釋性和泛化性開辟了令人興奮的途徑。

Compositional Questions Do Not Necessitate Multi-hop Reasoning

多跳閱讀理解(RC)問題具有挑戰(zhàn)性,因?yàn)樗鼈冃枰獙Χ鄠€(gè)段落進(jìn)行閱讀和推理。作者認(rèn)為,構(gòu)建大型多跳RC數(shù)據(jù)集可能很困難。例如,如果針對特定實(shí)體類型的問題,即使是高度組成的問題也可以通過單跳回答,或者回答這些問題所需的事實(shí)是多余的。作者的分析集中在HOTPOTQA上,在這里表明單跳推理可以解決比以前想象的更多的數(shù)據(jù)集。本文介紹了一種基于BERT的單跳RC模型,該模型可實(shí)現(xiàn)67 F1,這與最新的多跳模型相當(dāng)。作者還設(shè)計(jì)了一個(gè)評估環(huán)境,在該環(huán)境中,沒有向人類顯示預(yù)期的多跳推理的所有必要段落,但仍然可以回答80%以上的問題。結(jié)合詳細(xì)的錯(cuò)誤分析,這些結(jié)果表明,應(yīng)該越來越關(guān)注證據(jù)在多跳推理中的作用,甚至可能轉(zhuǎn)向具有大量多樣證據(jù)集的信息檢索風(fēng)格評估。
總而言之,作者證明了問題組成性并不是多跳推理的充分條件。 相反,未來的數(shù)據(jù)集必須仔細(xì)考慮它們提供的證據(jù),以確保需要多跳推理。 至少有兩種不同的方法可以實(shí)現(xiàn)此目的。

Adversarial TableQA: Attention Supervision for Question Answering on Tables

由于社區(qū)在構(gòu)建有用的數(shù)據(jù)集方面的努力,給定文字段落回答問題的任務(wù)在模型性能方面顯示出了巨大的發(fā)展。最近,人們懷疑這種迅速的進(jìn)步是否建立在真正理解語言的基礎(chǔ)上。在表格問題解答(TableQA)任務(wù)中未曾問過相同的問題,在該任務(wù)中,我們負(fù)責(zé)回答給定表格的查詢。我們表明,使用“答案”進(jìn)行TableQA評估和監(jiān)督的現(xiàn)有努力顯示出在不影響答案的擾動(dòng)對抗設(shè)置中性能下降。這種見解自然會(huì)激發(fā)人們開發(fā)出更精確地理解問題和表格的新模型。為此,我們提出了NEURAL OPERATOR(NEOP),這是一種具有注意監(jiān)督的多層順序網(wǎng)絡(luò),用于回答給定表的查詢。 NEOP使用多個(gè)選擇性遞歸單位(SelRUs)來進(jìn)一步幫助模型答案的可解釋性。實(shí)驗(yàn)表明,使用操作數(shù)信息來訓(xùn)練模型可以顯著提高TableQA模型的性能和可解釋性。 NEOP大大優(yōu)于以前的所有模型。


各個(gè)table數(shù)據(jù)集比較

如上圖所示,作者比較了目前tableQA研究的所有數(shù)據(jù)集,發(fā)現(xiàn)有些不是現(xiàn)實(shí)問題,有些則數(shù)據(jù)規(guī)模太小,有些則是使用SQL語句作為注意力的監(jiān)督方法。本文修改了WIKISQL數(shù)據(jù)集,提供了一個(gè)新的數(shù)據(jù)集,使用操作數(shù)作為監(jiān)督方法。


整體架構(gòu)

在本文中,作者提出使用操作數(shù)信息來提高TableQA模型的性能。 為此,創(chuàng)建了兩個(gè)名為MLB數(shù)據(jù)集和WIKIOPS數(shù)據(jù)集的新數(shù)據(jù)集,這兩個(gè)數(shù)據(jù)集在注意力監(jiān)控方面都比以前的數(shù)據(jù)集有所改進(jìn)。 此外,嗨開發(fā)了NEURAL OPERATOR,這是一種基于神經(jīng)的TableQA模型,該模型由于其分層結(jié)構(gòu)和對操作數(shù)信息的使用而提高了可解釋性。

Seq2sql: Generating structured queries from natural language using reinforcement learning

關(guān)系數(shù)據(jù)庫存儲(chǔ)了大量的世界數(shù)據(jù)。但是,當(dāng)前訪問此數(shù)據(jù)需要用戶理解查詢語言,例如SQL。作者提出了Seq2SQL,這是一個(gè)用于將自然語言問題轉(zhuǎn)換為相應(yīng)的SQL查詢的深度神經(jīng)網(wǎng)絡(luò)。本文的模型使用數(shù)據(jù)庫中循環(huán)查詢執(zhí)行的獎(jiǎng)勵(lì)來學(xué)習(xí)生成查詢的策略,該策略包含不適合通過交叉熵?fù)p失進(jìn)行優(yōu)化的無序部分。此外,Seq2SQL利用SQL的結(jié)構(gòu)來修剪生成的查詢的空間,并顯著簡化了生成問題。除了該模型之外,作者還發(fā)布了WikiSQL,該數(shù)據(jù)庫是Wikipedia上分布在24241個(gè)表中的80654個(gè)帶有問題的手動(dòng)注釋示例的問題和SQL查詢的示例,比可比較的數(shù)據(jù)集大一個(gè)數(shù)量級。通過將具有查詢執(zhí)行環(huán)境的基于策略的強(qiáng)化學(xué)習(xí)應(yīng)用于WikiSQL,Seq2SQL的性能優(yōu)于最先進(jìn)的語義解析器,將執(zhí)行精度從35.9%提高到59.4%,邏輯形式精度從23.4%提高到48.3%。


模型結(jié)構(gòu)

Seq2SQL將問題和表的列作為輸入。 它生成相應(yīng)的SQL查詢,在訓(xùn)練過程中,該查詢針對數(shù)據(jù)庫執(zhí)行。 執(zhí)行的結(jié)果被用作訓(xùn)練強(qiáng)化學(xué)習(xí)算法的獎(jiǎng)勵(lì)。

BREAK It Down: A Question Understanding Benchmark

理解自然語言的問題需要具有將問題分解為計(jì)算答案的必要步驟的能力。 在這項(xiàng)工作中,作者為問題引入了問題分解含義表示(QDMR)。 QDMR構(gòu)成了通過自然語言表達(dá)的,回答問題所必需的步驟的有序列表。 作者開發(fā)了一個(gè)眾包管道,顯示可以對大規(guī)模QDMR進(jìn)行批注,并發(fā)布BREAK數(shù)據(jù)集,其中包含超過83K對問題及其QDMR。 通過展示(a)可以將其用于改善HOTPOTQA數(shù)據(jù)集上的開放域問題回答,(b)可以確定地將其轉(zhuǎn)換為偽SQL形式語言,從而減輕語義解析應(yīng)用程序中的注釋,從而展示了QDMR的實(shí)用性。 最后,使用BREAK來訓(xùn)練序列到序列模型,該模型具有將問題解析為QDMR結(jié)構(gòu)的復(fù)制功能,并證明其性能遠(yuǎn)勝于幾個(gè)自然基準(zhǔn)。
本文的貢獻(xiàn)是并非把問題分解為子問題,而是將它分解為可識別的小的單元,如圖所示


問題分解結(jié)構(gòu)

在本文中,作者提出了一種用于理解問題的形式主義。 已經(jīng)表明可以培訓(xùn)群眾工作者以大規(guī)模高質(zhì)量地生成此類表示形式,并創(chuàng)建了BREAK(BREAK是分解問題的基準(zhǔn)),其中包含來自10個(gè)數(shù)據(jù)集和3種模式(數(shù)據(jù)庫,圖像,文本)的超過83K分解問題。 作者還介紹了QDMR實(shí)用程序在開放域問題解答和語義解析中的作用,并構(gòu)造了性能合理的QDMR解析器。 QDMR為建模問題理解提出了一個(gè)有前途的方向,本文認(rèn)為這對通過問題探究推理的多項(xiàng)任務(wù)很有用。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容