論文筆記 --《Enhanced LSTM for Natural Language Inference》

標(biāo)簽: Jd_Paperweekly
時(shí)間:2020.11.18
來源: ACL 2017
關(guān)鍵詞:文本匹配,Alignment layer


1.背景及問題描述

文本匹配(Text Matching)是自然語言處理領(lǐng)域最經(jīng)典的問題之一,也是搜索、QA、推薦等領(lǐng)域的基礎(chǔ)研究課題。而短文本匹配,因?yàn)槠涮厥庑?,比如語義性缺失,句法缺失等,往往需要特殊的處理模型。而對齊機(jī)制(Alignment)是處理短文本的有效方案,今天介紹一篇很經(jīng)典的基于Alignment的短文本匹配模型。ESIM不僅在模型開創(chuàng)性還是實(shí)用性上來說,都是一個(gè)很值得學(xué)習(xí)的佳作,畢竟此模型被公認(rèn)為短文本匹配競賽刷榜利器。

這篇文章是專門為NLI(自然語言推理)任務(wù)做的,即給定前提premise和假設(shè)hypothesis,要求判斷兩者的關(guān)系(1.不相干neural;2.沖突contradiction,即有矛盾,3.蘊(yùn)含entailment,即能從p推斷h或者兩者表達(dá)相同的意思)。

2.已有的解決方案

在這篇文章之前的深度文本匹配模型,基本上就是基于簡單的LSTM+attention的模型。往往具有很深的模型。

3.解決方案概述

結(jié)構(gòu)圖

現(xiàn)在來看,ESIM的網(wǎng)絡(luò)并不復(fù)雜,層次結(jié)構(gòu)也非常清晰。左半部分就是我們要講的ESIM,右半部分的區(qū)別是編碼器使用Tree-LSTM,可適用于語法分析任務(wù)。模型大概分為4層:

  • 1.Input Encoding

編碼層,使用詞向量表示輸入序列的token,然后對序列向量通過BiLSTM做編碼,可認(rèn)為是做一層特征提取,同時(shí)加入語境特征,也是NLP任務(wù)的一般配置。分別對Premise和Hypothesis進(jìn)行編碼:

1
  • 2.Local Inference Modeling

往往兩個(gè)句子之間的推理關(guān)系是通過一些關(guān)鍵詞決定的,所以為了分析Premise和Hypothesis之間的關(guān)系,找到兩句話之間有關(guān)系的部分是關(guān)鍵點(diǎn)。這些有關(guān)系的部分,可以稱之為對其(alignment)部分,一般通過attention機(jī)制實(shí)現(xiàn),來描述對彼此來說的重要部分。

模型的做法比較簡單,計(jì)算Premise和Hypothesis之間的attention權(quán)重,就是直接將上層的結(jié)果做矩陣乘法:

2

然后用上面attention權(quán)重來做本地推理,以此獲取Premise和Hypothesis的關(guān)系:

3

Premise的對其表征是用attention權(quán)重乘以Hypothesis向量,Hypothesis的對其表征同理使用ttention權(quán)重乘以Premise向量,也就是通過這樣來引入對其機(jī)制,作者稱之為Local Inference。
然后,在此基礎(chǔ)上,再進(jìn)行強(qiáng)化表示,分別對這兩個(gè)值做差異性計(jì)算,作者使用了差值和點(diǎn)積(element-wise product),作者認(rèn)為這樣的操作有助于模型效果的提升:

4
  • 3.Inference Composition

這一層就是對對m_am_b再使用BiLSTM來提取信息,然后分別進(jìn)行MaxPooling和AvgPooling來做降維和特征提取,然后將四部分的結(jié)果concat在一起:

5
  • 4.Prediction

最后預(yù)測層,把v送入到全連接層,激活函數(shù)采用的是tanh,得到的結(jié)果送到softmax層。

4.結(jié)果分析

實(shí)驗(yàn)結(jié)果

作者主要就是在SNLI數(shù)據(jù)集上做了實(shí)驗(yàn),達(dá)到了當(dāng)時(shí)的SOTA。

5.創(chuàng)新點(diǎn)或貢獻(xiàn)

  • 這篇文章是第一個(gè)將對其機(jī)制引入文本匹配的模型,獲得了非常好的效果。

6.個(gè)人思考

短文本匹配,對其機(jī)制交互信息一般會(huì)是很好的策略。
但是其模型還是相對復(fù)雜,作者沒做實(shí)驗(yàn),但是預(yù)計(jì)推理時(shí)間不太高效,并且模型結(jié)果無法預(yù)存,只適合做精準(zhǔn)匹配,不太容易做大規(guī)模匹配。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容