2018 · ICLR · A NEW METHOD OF REGION EMBEDDING FOR TEXT CLASSIFICATION

2018 · ICLR · A NEW METHOD OF REGION EMBEDDING FOR TEXT CLASSIFICATION

想法來源:為了挖掘深層的語法信息,利用上下文來表示word,利用n-gram來表示上下文,參數(shù)會(huì)過多,本文提出的方法可以解決上面的問題。

價(jià)值:探索了上下文n-gram對詞表示的影響。

方法:新的用上下文表示詞embedding的解決方案,一個(gè)詞對應(yīng)著一個(gè)n-gram上下文矩陣,這個(gè)矩陣不隨著它的上下文變化而變化,可以挖掘深層語義信息。

缺點(diǎn):參數(shù)過多,不容易訓(xùn)練。

詳細(xì)方案:一個(gè)詞,構(gòu)建一個(gè)n-gram矩陣,表示其上下文,這個(gè)矩陣不隨上下文單詞變化而變化,是個(gè)維度固定的矩陣。
Word-Context Region Embedding:對于輸入的句子其n-gram的上下文,每一個(gè)詞的embedding,與上下文矩陣中對應(yīng)位置的列向量做element-wise mul,然后max-pool
Context-Word Region Embedding:對于輸入的句子其n-gram的上下文,上下文中的每一個(gè)詞各自的上下文向量,抽取出當(dāng)前n-gram核心詞的相對位置的列向量,拿出來與上下文矩陣中對應(yīng)位置的列向量做element-wise mul,然后max-pool

數(shù)據(jù)集

  1. Yelp Review Polarity
  2. Yelp Review Full
  3. Amazon Review Polarity
  4. Amazon Review Full
  5. AG’s News
  6. Sogou News
  7. Yahoo! Answers
  8. DBPedia

實(shí)驗(yàn)

baseline result

image

n-gram n的大小和embedding size的影響

image

詳細(xì)對比了加入context表示的影響


-c400

后面還做了可視化

訓(xùn)練時(shí)間,參數(shù)規(guī)模,收斂速度


image
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容