「自然語言處理(NLP)論文解讀」BAMnet QA【IBM】&& Multi-View Attention QA【北大】

來源:AINLPer微信公眾號(hào)
編輯: ShuYini
校稿: ShuYini
時(shí)間: 2019-8-22

引言

????本次兩篇文章都是關(guān)于問答(QA)的。其中第一篇主要是提出了一種基于知識(shí)庫(kù)的雙向注意力記憶網(wǎng)絡(luò)(BAMnet),建立問題和知識(shí)庫(kù)之間的關(guān)系,從而提高了問答性能。第二篇主要提出多視角注意力機(jī)制(Multi-View Attention),并以此鏈接不同的任務(wù),將任務(wù)特定層的重要信息集成到共享層中,使模型能夠交互式地學(xué)習(xí)單詞級(jí)和知識(shí)級(jí)表示,從而提高問答性能。

First Blood

TILE: Bidirectional Attentive Memory Networks for Question Answering over Knowledge Bases.
Contributor : 倫斯勒理工學(xué)院 && IBM研究院
Paper: https://arxiv.org/pdf/1903.02188v3.pdf
Code: https://github.com/hugochan/BAMnet

文章摘要

????大多數(shù)現(xiàn)有的基于嵌入式的知識(shí)庫(kù)問答方法忽略了問題和知識(shí)庫(kù)之間微妙關(guān)系(例如,實(shí)體類型、關(guān)系路徑和上下文),為此本文提出通過一個(gè)新的雙向注意力記憶網(wǎng)絡(luò)(BAMnet)來直接模擬問題和知識(shí)庫(kù)之間的雙向交互。該方法不需要外部資源,只需要很少的手工特性,在Web問題基準(zhǔn)測(cè)試中,我們的方法顯著優(yōu)于現(xiàn)有的基于信息檢索的方法,并且與(手工的)基于語義解析的方法相比具有一定的競(jìng)爭(zhēng)力。

本文三大看點(diǎn)

????1、提出了一種基于知識(shí)庫(kù)的雙向注意力記憶網(wǎng)絡(luò),旨在直接模擬問題與知識(shí)庫(kù)之間的雙向交互。
????2、該方法由于采用了注意力機(jī)制,提供了良好的解釋性;
????3、在WebQuestions基準(zhǔn)測(cè)試中,該方法顯著優(yōu)于以前的基于信息檢索的方法,同時(shí)與(手工)基于語義解析的方法相比具有競(jìng)爭(zhēng)力。

BAMnet模型結(jié)構(gòu)介紹

BAMnet模型結(jié)構(gòu)

????可以看到該模型由輸入模塊、存儲(chǔ)模塊、推理模塊和回答模塊四部分組成。

輸入模塊

????輸入NL問題Q = {q_i}^{|Q|}_{i=1}通過單詞嵌入層表示為單詞嵌入序列(q_i)

記憶力模塊

????候選答案:盡管知識(shí)庫(kù)中的所有實(shí)體原則上都可以是候選答案,但這樣計(jì)算代價(jià)比較大,而且在實(shí)際應(yīng)用中是沒有必要的。所以只考慮那些“接近”問題主題實(shí)體的實(shí)體。答案是實(shí)體節(jié)點(diǎn)的文本描述(例如,名稱)。在獲得主題實(shí)體之后,我們?cè)趆躍點(diǎn)內(nèi)收集與之相關(guān)的所有實(shí)體作為候選答案。
????知識(shí)庫(kù)表示對(duì)于來自知識(shí)庫(kù)的每個(gè)候選答案,我們編碼三種類型的信息:答案類型、路徑和上下文。其中:
????答案類型:實(shí)體類型信息是對(duì)答案進(jìn)行排序的重要線索
????答案路徑:將答案路徑定義為從候選答案到主題實(shí)體的一系列關(guān)系。
????答案上下文:答案上下文被定義為候選答案的周圍實(shí)體,這些實(shí)體可以幫助回答帶有約束的問題。
????鍵值記憶模塊在該模型中使用key-value memory network (Miller et al., 2016)來存儲(chǔ)候選答案。與基本內(nèi)存網(wǎng)絡(luò)不同(Weston et al., 2014),它的尋址階段基于鍵內(nèi)存,而讀取階段使用值內(nèi)存,這使得通過功能分離對(duì)先驗(yàn)知識(shí)進(jìn)行編碼具有更大的靈活性。

推理模塊

????推理模塊由泛化模塊和二層雙向注意力網(wǎng)絡(luò)組成,其目的主要是捕捉問題與知識(shí)庫(kù)之間的雙向互動(dòng)。注意力網(wǎng)絡(luò)包括基于知識(shí)庫(kù)的知識(shí)庫(kù)感知注意力模塊和基于問題知識(shí)庫(kù)的知識(shí)庫(kù)感知注意力模塊。二次注意網(wǎng)絡(luò)(圖1中的增強(qiáng)模塊)是為了進(jìn)一步利用雙向注意來增強(qiáng)問題和知識(shí)庫(kù)向量。
????知識(shí)庫(kù)感知注意力模塊并不是所有的單詞都是一樣的。我們使用意識(shí)到kb的注意機(jī)制來關(guān)注問題的重要組成部分,如下圖3所示。


????重要性模塊 重要性模塊側(cè)重于重要的KB方面,主要是通過它們與問題的相關(guān)性來衡量。
????增強(qiáng)模塊我們利用雙向注意力進(jìn)一步增強(qiáng)問題和知識(shí)庫(kù)表示。
????泛化模塊 在回答問題之前添加了一個(gè)one-hop注意力過程。我們使用問題表示通過一個(gè)注意力機(jī)制查詢鍵存儲(chǔ),并從值存儲(chǔ)中獲取最相關(guān)的信息,然后用于更新問題向量。最后,我們應(yīng)用一個(gè)殘差層(和批量歸一化(BN)來保證模型在實(shí)踐中的性能。
????回答模塊通過計(jì)算候選答案的匹配得分進(jìn)行排序,然后得到最終的答案。

實(shí)驗(yàn)結(jié)果

????在WebQuestion測(cè)試上結(jié)果對(duì)比

????假定Gold主題實(shí)體已知,網(wǎng)絡(luò)問題測(cè)試集的消融結(jié)果。
????推理模塊注意力熱圖。彩色效果最佳

Double Kill

TILE: Multi-Task Learning with Multi-View Attention for Answer Selection and Knowledge Base Question Answering.
Contributor : 北京大學(xué)深圳研究生院
Paper: https://arxiv.org/pdf/1812.02354v1.pdf
Code:https://github.com/dengyang17/dengyang17.github.io

文章摘要

????答題選擇和基于知識(shí)庫(kù)的問答是問答系統(tǒng)中兩項(xiàng)重要任務(wù)?,F(xiàn)有的方法分別解決這兩個(gè)任務(wù),需要大量的重復(fù)工作,而忽略了任務(wù)之間豐富的相關(guān)信息。 為此本文提出一種新的多任務(wù)學(xué)習(xí)方案,利用從不同角度學(xué)習(xí)的多視角注意力,使這些任務(wù)相互作用,學(xué)習(xí)更全面的句子表示。在多個(gè)實(shí)際數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了該方法的有效性,提高了答案選擇和KBQA的性能。同時(shí),多視點(diǎn)注意方案被證明能夠有效地從不同的表征角度組合注意信息。

本文三大看點(diǎn)

????1、探討了多任務(wù)學(xué)習(xí)方法的答案選擇和基于知識(shí)庫(kù)的問答。知識(shí)級(jí)的KBQA任務(wù)有助于答案選擇任務(wù),而單詞級(jí)的答案選擇任務(wù)可以有助于KBQA任務(wù)。
????2、提出了一種新的多任務(wù)學(xué)習(xí)方案,該方案利用多視圖注意力機(jī)制來連接不同的任務(wù),將任務(wù)特定層的重要信息集成到共享層中,使模型能夠交互式地學(xué)習(xí)單詞級(jí)和知識(shí)級(jí)表示。
????3、實(shí)驗(yàn)結(jié)果表明,答案選擇和KBQA的多任務(wù)學(xué)習(xí)優(yōu)于目前最先進(jìn)的單任務(wù)學(xué)習(xí)方法。此外,基于多視圖注意力的MTL方案進(jìn)一步提高了性能。

本文模型介紹(Multi-Task Model with Multi-View Attention )

多任務(wù)問答模型

????基本的多任務(wù)學(xué)習(xí)模型是一種深度神經(jīng)網(wǎng)絡(luò),采用分層特定的共享機(jī)制(Guo, Pasunuru, Bansal 2018),在不同的任務(wù)之間共享一些高層信息,剩余的層是并行的、獨(dú)立的,學(xué)習(xí)任務(wù)特定的低層信息。

????上圖展示了用于選擇答案(AS)和知識(shí)庫(kù)問答(KBQA)的多任務(wù)QA網(wǎng)絡(luò)(MTQA-net)的總體架構(gòu)。

多視角注意力模型

????多視角注意力模型如下圖所示:
Multi-View Attention

????如上圖所示,與其他注意力共享方案不同,我們不僅從任務(wù)特定層吸引注意力,還結(jié)合了來自共享層的信息。此外,我們從詞匯和知識(shí)兩個(gè)角度獲取注意力信息,因?yàn)樵~匯級(jí)別和知識(shí)級(jí)別的信息對(duì)表征性學(xué)習(xí)有共同的貢獻(xiàn)。具體來說,我們計(jì)算了五種注意力的視角,包括單詞、知識(shí)、語義、知識(shí)語義和注意力。

多視角注意力共享

????由于多視圖注意力應(yīng)用于共享表示層的隱藏狀態(tài),計(jì)算注意力權(quán)重的參數(shù)也應(yīng)該在任務(wù)之間共享。同時(shí),由于多視圖注意方案從任務(wù)特定層和共享層收集信息,因此不同的任務(wù)通過多視圖注意連接起來。

實(shí)驗(yàn)結(jié)果

????多任務(wù)學(xué)習(xí)結(jié)果

????多視覺注意力消融分析
????多視覺注意力案例研究

ACED

Attention

更多自然語言處理相關(guān)知識(shí),還請(qǐng)關(guān)注AINLPer公眾號(hào),極品干貨即刻送達(dá)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容