1 前言

在自然語(yǔ)言處理工作(NLP)中，會(huì)遇到這樣的一個(gè)應(yīng)用問題：如何挖掘文本中某一關(guān)鍵詞的語(yǔ)義相似詞或近義詞？解決該問題的辦法很多，比如使用近義詞詞庫(kù)進(jìn)行匹配，或檢索詞語(yǔ)類的知識(shí)庫(kù)(HowNet)，也可用word2vec之類的詞向量技術(shù)進(jìn)行cosine相似計(jì)算。再高級(jí)點(diǎn)，可利用像BERT之類的預(yù)訓(xùn)練模型進(jìn)行預(yù)測(cè)，但這種方式對(duì)中文詞不太友好。此外，上述的挖掘方法都存在一個(gè)共同的缺陷，都沒考慮關(guān)鍵詞所在的語(yǔ)義環(huán)境。

針對(duì)上述場(chǎng)景，今天分享一篇基于上下文語(yǔ)義來挖掘相似詞或近義詞的paper，論文為《CASE: Context-Aware Semantic Expansion》，論文題目的意思為基于上下文感知的語(yǔ)義擴(kuò)充，解決的場(chǎng)景如下圖。如要挖掘句子中與“氨基酸”(amino acid)相似的語(yǔ)義詞，若不考慮語(yǔ)義環(huán)境，與之匹配的有維生素(vitamin)、抗氧化劑(antioxidant)、脂肪(fat)等等；但若考慮文本語(yǔ)義，脂肪不能作為氨基酸擴(kuò)充的語(yǔ)義詞，因?yàn)榍囡?amino acid)不富含脂肪，這在語(yǔ)料庫(kù)中也不會(huì)有類似的描述。

2 模型

paper先定義如下學(xué)習(xí)任務(wù)：

其中 C為句子文本，"__"為替代文本中seed term(s)的占位符，T表示潛在與占位符同級(jí)的下義詞(hyponym)集合，任務(wù)的目標(biāo)即為找到除s外的語(yǔ)義詞，即訓(xùn)練目標(biāo)如下：

表示為，在輸入句子文本C與種子詞s條件下，求除種子詞的其他詞最大概率。下圖為模型的整體框架。

從模型圖可以看出，主要分三個(gè)部分：Context Encoder、Seed Encoder、Prediction Layer，下面簡(jiǎn)單介紹下這三個(gè)模塊。

2.1 Context Encoder

文中作者提出四種編碼方法，第一種為Neural Bag-of-Words Encoder，該方法是利用N-gram的思路，通過looksup詞表的方式，得到句子的所有詞向量，然后以縱向相加求平均得到句子向量; 第二，三種分布為RNN-Based Encoders 、 CNN-Based Encoders，通過兩種編碼網(wǎng)絡(luò)得到句子向量;第四種為Position-Aware Encoders，具體采用類似CNN+PF的方式，將位置信息也嵌入進(jìn)行學(xué)習(xí)。最后，通過Context Encoder得到句子向量 $V_C$ 。

2.2 Seed Encoder

關(guān)于句子中Seed Term的編碼，文章同樣是采用Neural Bag-of-Words Encoder，因?yàn)镾eed Term有可能是由多個(gè)word組成的，所有得到的向量 $V_S$ 如下：

2.4 Prediction Layer

模型的第三部分就是預(yù)測(cè)擴(kuò)充的詞條，Predicting Expansion Terms，具體為想將上述兩個(gè)編碼層得到的兩個(gè)向量 concatenation方式得到最終向量x，然后輸入softmax層進(jìn)行預(yù)測(cè):

在實(shí)際中，相似的語(yǔ)義詞有可能很多，而softmax正常只是輸出概率最大的一個(gè)。文中為了緩解該問題，作者采用sampled softmax loss的方式，實(shí)現(xiàn)multi-label的方式進(jìn)行預(yù)測(cè)，這樣可以大大提高預(yù)測(cè)效率。

此外，文中在Context Encoder部分還嘗試了Attention機(jī)制，并提出兩種結(jié)合方式，一種為Seed-Oblivious Attention，該方法是將句子每個(gè)詞學(xué)一個(gè)權(quán)重，然后再加權(quán)計(jì)算最終句子向量；另中為Seed-Aware Attention，該方法是將句子每個(gè)詞相對(duì)Seed Term學(xué)一個(gè)權(quán)重，這里文中提出DOT與TRANS-DOT兩種計(jì)算方法，然后再加權(quán)計(jì)算最終句子向量。此環(huán)節(jié)詳情若有興趣可查看原文。

3 實(shí)驗(yàn)

在實(shí)驗(yàn)部分，文中使用的是WebIsA數(shù)據(jù)集，該數(shù)據(jù)集180萬(wàn)的訓(xùn)練集，400萬(wàn)的下位詞。實(shí)驗(yàn)的最終結(jié)果為：

顯示相對(duì)之前別人的方法，作者的模型在四個(gè)評(píng)價(jià)指標(biāo)平均有4%的提升，此外作者也驗(yàn)證了前面提到的四種句子編碼方式，方法Neural Bag-of-Words Encoder(NBoW)方式效果最好，如下圖所示。

可以看出，多種常規(guī)的編碼方法效果都沒有超過最簡(jiǎn)單的NBoW方式，這也讓我有點(diǎn)驚訝。我想該任務(wù)也挺適合上BERT等預(yù)訓(xùn)練模型的，因?yàn)锽ERT就是基于上下文進(jìn)行編碼的，不過文中并沒有對(duì)比在預(yù)訓(xùn)練模型下的預(yù)測(cè)效果。

上圖是對(duì)應(yīng)前言列舉的句子中amino acid(氨基酸)的語(yǔ)義詞學(xué)到的結(jié)果，其中加粗的為擴(kuò)充的正確相似語(yǔ)義詞，其他為擴(kuò)充的噪聲詞。左邊一列顯示在TRANS-DOT注意力機(jī)制下，預(yù)測(cè)的噪聲詞fat從top10之列移除了，并且有效詞得到提升，說明了該方法的有效性。此外，兩列一起驗(yàn)證了是否考慮下位詞(Hypernym)的效果，結(jié)果來看，使用下位詞效果稍微好一點(diǎn)，但影響并不大。

4 結(jié)語(yǔ)

從paper解決的任務(wù)來看，覺得還是挺有意思，它可視為挖掘近義詞或同義詞的更細(xì)粒度的任務(wù)，它考慮了詞的語(yǔ)義環(huán)境。從實(shí)驗(yàn)結(jié)果來看，該任務(wù)的預(yù)測(cè)難度還很大，top10的召回率也只有23%左右的效果，說明離實(shí)際應(yīng)用還是有點(diǎn)距離；從Table5顯示的結(jié)果來看，若不考慮語(yǔ)義環(huán)境，只作為近義詞的擴(kuò)充，其實(shí)效果還是很不錯(cuò)的。盡管文中提出的方法很簡(jiǎn)單，但還是被2020年的AAAI會(huì)議接受，所以也啟發(fā)我們，做學(xué)術(shù)不用太追求模型，方法，踏踏實(shí)實(shí)把實(shí)驗(yàn)做好，做的更落地些，也是能被人青睞，而這篇就具備這樣的特點(diǎn)。

此外，我個(gè)人覺得該方向作為學(xué)術(shù)點(diǎn)還是可以繼續(xù)優(yōu)化下去的，在如何深入考慮上下文信息上還是有不少可嘗試的方法。如果有興趣的朋友，可以私下交流，也可以嘗試合作~~

更多文章可關(guān)注筆者公眾號(hào)：自然語(yǔ)言處理算法與實(shí)踐

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

一種挖掘文本中語(yǔ)義相似詞的方法

一種挖掘文本中語(yǔ)義相似詞的方法

1 前言