一種挖掘文本中語(yǔ)義相似詞的方法

1 前言

在自然語(yǔ)言處理工作(NLP)中,會(huì)遇到這樣的一個(gè)應(yīng)用問題:如何挖掘文本中某一關(guān)鍵詞的語(yǔ)義相似詞或近義詞?解決該問題的辦法很多,比如使用近義詞詞庫(kù)進(jìn)行匹配,或檢索詞語(yǔ)類的知識(shí)庫(kù)(HowNet),也可用word2vec之類的詞向量技術(shù)進(jìn)行cosine相似計(jì)算。再高級(jí)點(diǎn),可利用像BERT之類的預(yù)訓(xùn)練模型進(jìn)行預(yù)測(cè),但這種方式對(duì)中文詞不太友好。此外,上述的挖掘方法都存在一個(gè)共同的缺陷,都沒考慮關(guān)鍵詞所在的語(yǔ)義環(huán)境。

針對(duì)上述場(chǎng)景,今天分享一篇基于上下文語(yǔ)義來挖掘相似詞或近義詞的paper,論文為CASE: Context-Aware Semantic Expansion,論文題目的意思為基于上下文感知的語(yǔ)義擴(kuò)充,解決的場(chǎng)景如下圖。如要挖掘句子中與“氨基酸”(amino acid)相似的語(yǔ)義詞,若不考慮語(yǔ)義環(huán)境,與之匹配的有維生素(vitamin)、抗氧化劑(antioxidant)、脂肪(fat)等等;但若考慮文本語(yǔ)義,脂肪不能作為氨基酸擴(kuò)充的語(yǔ)義詞,因?yàn)榍囡?amino acid)不富含脂肪,這在語(yǔ)料庫(kù)中也不會(huì)有類似的描述。

2 模型

paper先定義如下學(xué)習(xí)任務(wù):


其中 C為句子文本,"__"為替代文本中seed term(s)的占位符,T表示潛在與占位符同級(jí)的下義詞(hyponym)集合,任務(wù)的目標(biāo)即為找到除s外的語(yǔ)義詞,即訓(xùn)練目標(biāo)如下:

表示為,在輸入句子文本C與種子詞s條件下,求除種子詞的其他詞最大概率。下圖為模型的整體框架。

從模型圖可以看出,主要分三個(gè)部分:Context Encoder、Seed Encoder、Prediction Layer,下面簡(jiǎn)單介紹下這三個(gè)模塊。

2.1 Context Encoder

文中作者提出四種編碼方法,第一種為Neural Bag-of-Words Encoder,該方法是利用N-gram的思路,通過looksup詞表的方式,得到句子的所有詞向量,然后以縱向相加求平均得到句子向量; 第二,三種分布為RNN-Based Encoders 、 CNN-Based Encoders,通過兩種編碼網(wǎng)絡(luò)得到句子向量;第四種為Position-Aware Encoders,具體采用類似CNN+PF的方式,將位置信息也嵌入進(jìn)行學(xué)習(xí)。最后,通過Context Encoder得到句子向量V_C。

2.2 Seed Encoder

關(guān)于句子中Seed Term的編碼,文章同樣是采用Neural Bag-of-Words Encoder,因?yàn)镾eed Term有可能是由多個(gè)word組成的,所有得到的向量V_S如下:

2.4 Prediction Layer

模型的第三部分就是預(yù)測(cè)擴(kuò)充的詞條,Predicting Expansion Terms,具體為想將上述兩個(gè)編碼層得到的兩個(gè)向量 concatenation方式得到最終向量x,然后輸入softmax層進(jìn)行預(yù)測(cè):

在實(shí)際中,相似的語(yǔ)義詞有可能很多,而softmax正常只是輸出概率最大的一個(gè)。文中為了緩解該問題,作者采用sampled softmax loss的方式,實(shí)現(xiàn)multi-label的方式進(jìn)行預(yù)測(cè),這樣可以大大提高預(yù)測(cè)效率。

此外,文中在Context Encoder部分還嘗試了Attention機(jī)制,并提出兩種結(jié)合方式,一種為Seed-Oblivious Attention,該方法是將句子每個(gè)詞學(xué)一個(gè)權(quán)重,然后再加權(quán)計(jì)算最終句子向量;另中為Seed-Aware Attention,該方法是將句子每個(gè)詞相對(duì)Seed Term學(xué)一個(gè)權(quán)重,這里文中提出DOTTRANS-DOT兩種計(jì)算方法,然后再加權(quán)計(jì)算最終句子向量。此環(huán)節(jié)詳情若有興趣可查看原文。

3 實(shí)驗(yàn)

在實(shí)驗(yàn)部分,文中使用的是WebIsA數(shù)據(jù)集,該數(shù)據(jù)集180萬(wàn)的訓(xùn)練集,400萬(wàn)的下位詞。實(shí)驗(yàn)的最終結(jié)果為:


顯示相對(duì)之前別人的方法,作者的模型在四個(gè)評(píng)價(jià)指標(biāo)平均有4%的提升,此外作者也驗(yàn)證了前面提到的四種句子編碼方式,方法Neural Bag-of-Words Encoder(NBoW)方式效果最好,如下圖所示。

可以看出,多種常規(guī)的編碼方法效果都沒有超過最簡(jiǎn)單的NBoW方式,這也讓我有點(diǎn)驚訝。我想該任務(wù)也挺適合上BERT等預(yù)訓(xùn)練模型的,因?yàn)锽ERT就是基于上下文進(jìn)行編碼的,不過文中并沒有對(duì)比在預(yù)訓(xùn)練模型下的預(yù)測(cè)效果。


上圖是對(duì)應(yīng)前言列舉的句子中amino acid(氨基酸)的語(yǔ)義詞學(xué)到的結(jié)果,其中加粗的為擴(kuò)充的正確相似語(yǔ)義詞,其他為擴(kuò)充的噪聲詞。左邊一列顯示在TRANS-DOT注意力機(jī)制下,預(yù)測(cè)的噪聲詞fat從top10之列移除了,并且有效詞得到提升,說明了該方法的有效性。此外,兩列一起驗(yàn)證了是否考慮下位詞(Hypernym)的效果,結(jié)果來看,使用下位詞效果稍微好一點(diǎn),但影響并不大。

4 結(jié)語(yǔ)

從paper解決的任務(wù)來看,覺得還是挺有意思,它可視為挖掘近義詞或同義詞的更細(xì)粒度的任務(wù),它考慮了詞的語(yǔ)義環(huán)境。從實(shí)驗(yàn)結(jié)果來看,該任務(wù)的預(yù)測(cè)難度還很大,top10的召回率也只有23%左右的效果,說明離實(shí)際應(yīng)用還是有點(diǎn)距離;從Table5顯示的結(jié)果來看,若不考慮語(yǔ)義環(huán)境,只作為近義詞的擴(kuò)充,其實(shí)效果還是很不錯(cuò)的。盡管文中提出的方法很簡(jiǎn)單,但還是被2020年的AAAI會(huì)議接受,所以也啟發(fā)我們,做學(xué)術(shù)不用太追求模型,方法,踏踏實(shí)實(shí)把實(shí)驗(yàn)做好,做的更落地些,也是能被人青睞,而這篇就具備這樣的特點(diǎn)。

此外,我個(gè)人覺得該方向作為學(xué)術(shù)點(diǎn)還是可以繼續(xù)優(yōu)化下去的,在如何深入考慮上下文信息上還是有不少可嘗試的方法。如果有興趣的朋友,可以私下交流,也可以嘗試合作~~

更多文章可關(guān)注筆者公眾號(hào):自然語(yǔ)言處理算法與實(shí)踐

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 1 前言 在微博、Twitter之類的社交媒體上,用戶產(chǎn)生的大量短文本中包含各種類型的實(shí)體,這類實(shí)體的識(shí)別難度更大...
    燭之文閱讀 829評(píng)論 0 0
  • 文章 Sentence Embedding 干貨 | NIPS 2015 Deep Learning Sympos...
    風(fēng)馳電掣一瓜牛閱讀 1,878評(píng)論 0 5
  • 我是黑夜里大雨紛飛的人啊 1 “又到一年六月,有人笑有人哭,有人歡樂有人憂愁,有人驚喜有人失落,有的覺得收獲滿滿有...
    陌忘宇閱讀 8,832評(píng)論 28 54
  • 人工智能是什么?什么是人工智能?人工智能是未來發(fā)展的必然趨勢(shì)嗎?以后人工智能技術(shù)真的能達(dá)到電影里機(jī)器人的智能水平嗎...
    ZLLZ閱讀 4,098評(píng)論 0 5
  • 上周六在壓力下實(shí)在需要釋放,去西塘躲了兩天,真是好地方,很優(yōu)雅的江南古鎮(zhèn),而且與周莊比開發(fā)不算過度。 我們是周五半...
    聚塔閱讀 887評(píng)論 2 2

友情鏈接更多精彩內(nèi)容