KDD2018,短文本匹配:MIX

  • 題目:MIX: Multi-Channel Information Crossing for Text Matching
  • 騰訊出的文章
  • CNN做短文本匹配

1. 摘要

  • 在English WikiQA數(shù)據(jù)集的NDCG@3評價指標(biāo)下比其他最好的模型提升了11%
  • 在QQ瀏覽器上做了A/B test,點(diǎn)擊數(shù)提升了5.7%

2. 背景和相關(guān)工作

  • 短文本匹配方法主要可以分為兩類:基于表示基于交互

2.1 基于表示的匹配

  • 首先生成文本的表示,然后計(jì)算匹配度(相似度)
  • 不同方法主要的不同在于怎么得到文本表示怎么計(jì)算表示相似度
  • 得到文本表示的方法有
    • 基于CNN的
      • A convolutional neural network for modelling sentences,ACL2014
      • Convolutional neural networks for sentence classification,EMNLP2014
    • 基于RNN的
      • When are tree structures necessary for deep learning of representations?,EMNLP2015
      • Recurrent neural network for text classification with multi-task learning,IJCAI2016
    • 基于Tree-base RNN的
      • Deep recursive neural networks for compositionality in language,NIPS2014
      • Parsing natural scenes and natural language with recursive neural networks,ICML2011
  • DSSM,用MLP得到文本表示,相似度計(jì)算是cosine相似度
    • Learning deep structured semantic models for web search using clickthrough data,CIKM2013
    • DSSM用的MLP,參數(shù)過多,模型復(fù)雜而且容易過擬合,而且也沒有考慮到單詞順序
  • CDSSM,用CNN替換了MLP
    • A latent semantic model with convolutional-pooling structure for information retrieval,CIKM2014
  • CNTN,用tensor匹配在CQA任務(wù)上表現(xiàn)很好
    • Reasoning with neural tensor networks for knowledge base completion,NIPS2013

2.2 基于交互的匹配

  • 直接計(jì)算匹配特征
  • 更加直觀和自然
  • 第一是關(guān)鍵詞的匹配,其次是相對位置
  • 同時考慮匹配度匹配的結(jié)構(gòu)
  • 最近的研究表明這種方法在多文本匹配任務(wù)中表現(xiàn)更好
  • ARC-II,用CNN做匹配,相比前面的方法,考慮了單詞的順序,效果更好。(具體怎么做的得看原文)
    • Convolutional neural network architectures for matching natural language sentences,NIPS2014
  • MatchPyramid,把兩段文本做成一個2-d的Matching Matrix,里面元素是每對詞語的匹配度(cosine),然后通過CNN得到整體的匹配度
    • Text Matching as Image Recognition,AAAI2016
  • DRMM,When most NLP tasks focus on semantic matching, the Ad-hoc retrieval task is mainly about relevance matching。映射一個可變長的局部交互到一個固定長度的匹配直方圖(具體怎么做的得看原文)
    • A deep relevance matching model for ad-hoc retrieval,CIKM2016
  • KNRM [23] 和 Conv-KNRM [3] directly makes interaction between ngrams’ embeddings from two pieces of text and employs a kernel pooling layer to combine the cross-match layers to generate the matching score.
    • End-to-end neural ad-hoc ranking with kernel pooling,SIGIR2017
    • Convolutional Neural Networks for Soft-Matching N-Grams in Ad-hoc Search,WSDM2018
幾個弱點(diǎn)
  • Words or n-grams是基本語義單元,直接用它來匹配忽略了一些有用的方面,例如基于整個句子的語義信息
  • 難以較好的描述全局匹配和局部匹配之間的關(guān)系。實(shí)際上有時候,文本匹配中關(guān)鍵部分的匹配比全局匹配更加重要
  • The lack ofa unified ensemble mechanism for multiple aspect matching.

總的來說,上的模型都過多的以來深度學(xué)習(xí)模型的泛化能力和訓(xùn)練數(shù)據(jù)的質(zhì)量。

3. MIX MODEL

整體模型結(jié)構(gòu)圖
  • global matching 匹配兩個句子
  • location matching 匹配句子中的元素

3.1 Local Matching

  • 僅僅基于word Embedding的匹配不好,因?yàn)樵~語在不同語境下意義不同

  • 所以用了unigrams, bigrams 和 trigrams,用卷積實(shí)現(xiàn),卷積核大小分別為1、2、3。


    unigrams, bigrams 和 trigrams
  • 不同大小卷積核的結(jié)果都保留,每個都用來做匹配

3.2 Attention mechanisms

  • 多層Attention機(jī)制對local matching做加權(quán)
  • 第一層:每對詞語的IDF相乘,這樣常見的單詞匹配的權(quán)重更小,不常見單詞匹配的權(quán)重更大
  • 第二層:詞性的匹配,不同詞性之間的匹配權(quán)重不一樣,例如人名和人名匹配的權(quán)重要大于動詞和動詞的匹配
  • 第三層:詞語的位置,不同位置的權(quán)重不同,直觀的說位置靠前的詞語更加重要
  • Attention值加在matching上是直接與對于matching值相乘
  • 這樣對于每對文本有3種不同的Attention值,結(jié)合之前的不同卷積核處理文本(例如分別是N和M),那么總共有3NM種local matching

3.3 Combination

  • 就是用CNN嘛
  • 然后接上MLP得到最后的結(jié)果

4. 實(shí)驗(yàn)和結(jié)果

  • 用了兩個線下數(shù)據(jù)集和QQ瀏覽器的A/Btest作為實(shí)驗(yàn)結(jié)果
  • 評價指標(biāo)為NDCG@3、NDCG@5、MAP
  • 實(shí)驗(yàn)效果拔群


    實(shí)驗(yàn)結(jié)果

5. 總結(jié)

  • 一種新的多通道文本特征多層Attention機(jī)制的方法
  • 有中英文數(shù)據(jù)集,有A/B test,實(shí)驗(yàn)結(jié)果非常具有說服力
  • 個人認(rèn)為實(shí)驗(yàn)設(shè)置不夠完善,沒有較好的體現(xiàn)每種Attention層的重要性(雖然勉強(qiáng)可以說的通)
  • 具體方法說明的不夠詳細(xì),缺乏公式說明。(例的幾個公式都是都知道的東西)
  • 總的來說是一篇非常棒的文章,給我提供了一些新的思路。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容