標(biāo)簽: Jd_Paperweekly
時(shí)間:2020.11.18
來源: ACL 2017
關(guān)鍵詞:文本匹配,Alignment layer
1.背景及問題描述
文本匹配(Text Matching)是自然語言處理領(lǐng)域最經(jīng)典的問題之一,也是搜索、QA、推薦等領(lǐng)域的基礎(chǔ)研究課題。而短文本匹配,因?yàn)槠涮厥庑?,比如語義性缺失,句法缺失等,往往需要特殊的處理模型。而對齊機(jī)制(Alignment)是處理短文本的有效方案,今天介紹一篇很經(jīng)典的基于Alignment的短文本匹配模型。ESIM不僅在模型開創(chuàng)性還是實(shí)用性上來說,都是一個(gè)很值得學(xué)習(xí)的佳作,畢竟此模型被公認(rèn)為短文本匹配競賽刷榜利器。
這篇文章是專門為NLI(自然語言推理)任務(wù)做的,即給定前提premise和假設(shè)hypothesis,要求判斷兩者的關(guān)系(1.不相干neural;2.沖突contradiction,即有矛盾,3.蘊(yùn)含entailment,即能從p推斷h或者兩者表達(dá)相同的意思)。
2.已有的解決方案
在這篇文章之前的深度文本匹配模型,基本上就是基于簡單的LSTM+attention的模型。往往具有很深的模型。
3.解決方案概述

現(xiàn)在來看,ESIM的網(wǎng)絡(luò)并不復(fù)雜,層次結(jié)構(gòu)也非常清晰。左半部分就是我們要講的ESIM,右半部分的區(qū)別是編碼器使用Tree-LSTM,可適用于語法分析任務(wù)。模型大概分為4層:
- 1.Input Encoding
編碼層,使用詞向量表示輸入序列的token,然后對序列向量通過BiLSTM做編碼,可認(rèn)為是做一層特征提取,同時(shí)加入語境特征,也是NLP任務(wù)的一般配置。分別對Premise和Hypothesis進(jìn)行編碼:

- 2.Local Inference Modeling
往往兩個(gè)句子之間的推理關(guān)系是通過一些關(guān)鍵詞決定的,所以為了分析Premise和Hypothesis之間的關(guān)系,找到兩句話之間有關(guān)系的部分是關(guān)鍵點(diǎn)。這些有關(guān)系的部分,可以稱之為對其(alignment)部分,一般通過attention機(jī)制實(shí)現(xiàn),來描述對彼此來說的重要部分。
模型的做法比較簡單,計(jì)算Premise和Hypothesis之間的attention權(quán)重,就是直接將上層的結(jié)果做矩陣乘法:

然后用上面attention權(quán)重來做本地推理,以此獲取Premise和Hypothesis的關(guān)系:

Premise的對其表征是用attention權(quán)重乘以Hypothesis向量,Hypothesis的對其表征同理使用ttention權(quán)重乘以Premise向量,也就是通過這樣來引入對其機(jī)制,作者稱之為Local Inference。
然后,在此基礎(chǔ)上,再進(jìn)行強(qiáng)化表示,分別對這兩個(gè)值做差異性計(jì)算,作者使用了差值和點(diǎn)積(element-wise product),作者認(rèn)為這樣的操作有助于模型效果的提升:

- 3.Inference Composition
這一層就是對對和
再使用BiLSTM來提取信息,然后分別進(jìn)行MaxPooling和AvgPooling來做降維和特征提取,然后將四部分的結(jié)果concat在一起:

- 4.Prediction
最后預(yù)測層,把送入到全連接層,激活函數(shù)采用的是
,得到的結(jié)果送到softmax層。
4.結(jié)果分析

作者主要就是在SNLI數(shù)據(jù)集上做了實(shí)驗(yàn),達(dá)到了當(dāng)時(shí)的SOTA。
5.創(chuàng)新點(diǎn)或貢獻(xiàn)
- 這篇文章是第一個(gè)將對其機(jī)制引入文本匹配的模型,獲得了非常好的效果。
6.個(gè)人思考
短文本匹配,對其機(jī)制和交互信息一般會(huì)是很好的策略。
但是其模型還是相對復(fù)雜,作者沒做實(shí)驗(yàn),但是預(yù)計(jì)推理時(shí)間不太高效,并且模型結(jié)果無法預(yù)存,只適合做精準(zhǔn)匹配,不太容易做大規(guī)模匹配。