<Paper Reading Series>
本文基于2016 TACL的文章:Adversarial Deep Averaging Networks for Cross-Lingual Sentiment Classification
- 研究背景
- 前人的解決方式
- 模型核心思想
- 具體實現細節(jié)
- 實驗結果
- 結論
研究背景
TODO
前人的解決方式
- Machine Translation system
模型核心思想
提出了一個ADAN(Adversarial Deep Averaging Network)模型,即基于對抗訓練的DAN網絡模型。
模型提出的假設是:跨語言遷移模型的最理想狀態(tài)是這個模型可以學習到在源語言和目標語言中都能達到好的預測效果的特征,也就是源語言和目標語言共有的一些特征,即specify features invariant with respect to the shift in language。

ADAN Architecture
ADAN的結構大體分為2條branches,3個main components:
- 聯合特征提取器F
- 情感分析分類器P
- 用于對抗訓練的語言辨別器Q
特征提取器F的目標是學習到輸入語料的特征,用來幫助分類器P進行情感分析的分類,同時阻止語言辨別器Q辨別出這個特征是來自源語言還是目標語言。
ADAN has a joint feature extractor F which aims to learn features that aid prediction of the sentiment classifier P, and hamper the language dis- criminator Q, whose goal is to identify whether an input text is from SOURCE or TARGET.
這樣做基于的假設是:如果語言辨別器Q接收特征提取器F提取出的某個特征f1作為輸入進行語言的判斷,但是無法判斷出這是來自哪種語言,那么這個特征可以看作是兩種語言共有的,即language-invariant。
基于此,Q的作用就是努力去辨識接收到的features是來自哪種語言,如果最后辨別不出來了,說明特征提取器F提取出的features已經都是language-invariant的了。其中的思想和GAN的生成器/鑒別器很像。
具體實現細節(jié)
-
Word Embedding層
baseline:將輸入的句子表示為詞的序列,每個詞再由其詞向量來表示。
improved method:pre-trained bilingual word embeddings,但是需要有平行語料進行預訓練。 -
Feature Extractor層F
DAN(Deep Averaging Network)/ CNN / Bi-LSTM with dot attention mechanism -
Sentiment Classifier層P
普通的前饋神經網絡 -
Language Discriminator層Q
使用梯度反轉層(Gradient Reversal Layer),Q作為一個二分類器,輸出的前一層為一個sigmoid層,輸出0-1之間的值,作為輸入的特征是來自源語言的概率,因此訓練完成后,Q層的輸出應該都趨向于0.5。
但是標準的GRL層有一個缺點,就是F和Q層的訓練并不完全同步,通過觀察,F的訓練速度是快于Q的,這樣對整體的擬合速度和準確性有一定損害。因此作者提出了一個優(yōu)化方法,即設置一個超參數k,每對Q訓練k個iterations,才訓練一次F,通過這樣的方式使F和Q的訓練速度達到同步。
實驗結果
TODO
結論
TODO