計(jì)算兩個(gè)句子(文檔)的相似度

通過對一句話分詞,訓(xùn)練每個(gè)詞的詞向量之后,判斷兩個(gè)句子是否相似

一個(gè)相關(guān)鏈接:

如何通過詞向量技術(shù)來計(jì)算2個(gè)文檔的相似度? - 吳俁的回答 - 知乎
https://www.zhihu.com/question/33952003/answer/135089460

常用的幾種方法:

  • Siamese-CNN
  • Siamese-LSTM(BiLSTM, GRU)
  • Attention(Memory Network)
  • Attention weighted(CNN, LSTM)
    • ABCNN(不太喜歡,像是硬用進(jìn)去,感覺不太優(yōu)美)
  • Word Mover's distance

一些經(jīng)驗(yàn):

  • 基于句子交互(點(diǎn)積,差絕對值等等) 比 基于表示(直接余弦相似度)好

(可能這個(gè)問題的重心已經(jīng)不再是如何通過NN的優(yōu)化最大程度的保留句子的語義信息,而是更多去尋求一些比較明顯的特征直接比較?)

ABCNN

看了好久才弄懂ABCNN的卷積過程。
其實(shí)卷積也還是就是Yoon Kim的方法。
協(xié)助理解的時(shí)候,這篇講的還是很好的:

https://blog.csdn.net/liuchonge/article/details/69587681

后面這里提了一下,說把中間pooling層的輸出也合并到最后的輸出里,可以增強(qiáng)performance

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容