論文 : Adversarial Multi-task Learning for Text Classification
最近決定每周讀一篇GAN的論文。一方面,提升自己的閱讀理解能力。另一方面,拓展自己的思路。作為GAN的初學者,有很多表述不當?shù)牡胤綒g迎大家批評指正!
標題:對抗多任務(wù)學習用于文本分類。所謂多任務(wù)學習(MTL)就是指學習某一類任務(wù)的通用知識(focus on learning the shared layers to extract the common and task-invariant features)。比如學習AlexNet,VGG的卷積部分(不含全連接層)。這樣學習出來的卷積特征通常表示一些通用的特征表示(類似于SIFT,HOG)。而利用全連接層,就可以學的一些可以針對某個具體任務(wù)的特征,比如分類,分割,檢測等。詳細可以看這篇關(guān)于多任務(wù)學習文章。
Abstract
作者提出利用GAN進行多任務(wù)學習,可以緩解多任務(wù)學習中學習的shared knowledge存在task-specific features問題。
Introduction
作者為解決目前多任務(wù)學習中存在的問題,設(shè)計了一個shared-private learning framework. 其主要關(guān)鍵點就是引入了對抗訓練以及正交約束,這樣可以阻止 shared and private latent features from interfering with each other。說白了,作者就是要將task-specific features 以及 task-dependent features分開來,示意圖如下:

舉個栗子,通用的shared-private model存在下面的問題:

第一句話的infantile是一個中性詞,但是第二句是貶義詞。顯然,這是一個task-specific feature, 但是,目前的模型卻會把他們放到shared space,這樣就會導致shared space 中的特征冗余。為了解決這個問題,作者提出的框架引入了正交約束,使得shared-privete space 天生就是分離的。
作者提出的框架具有兩個關(guān)鍵點:
- 對抗訓練:使得shared features space 僅僅包含通用的特征。
- 正交約束:從private and shared space中消除冗余約束。
作者本文的工作有以下三點:
- 提出了一種更精確的劃分task-specific features 以及 shared space 的方法,而不是以前那種通過shared parameters來粗糙的劃分。
- 對于多類問題,拓展了以前的二值GAN,不僅使得多任務(wù)可以聯(lián)合訓練,而且還可以利用未標記的數(shù)據(jù)。
- 將shared knowledge 濃縮到現(xiàn)成的layer中,使其可以很容易的遷移到新任務(wù)中。
LSTM用于文本分類
LSTM可以表示為下式:

對于分類問題,給定一個詞序列,首先要學得每一個詞的向量表示(即詞嵌入,所謂詞嵌入,是學得序列的一個向量表示,ont-encoding就是一種表示,但這樣通常維度很高,詞嵌入通常有一個降維過程,word2vec就是一種詞嵌入方法),經(jīng)過LSTM之后,其最后一個時刻的輸出h作為整個序列的特征表示,而后跟上一個softmax非線性層預測每一類的概率。

網(wǎng)絡(luò)的優(yōu)化目標是交叉熵損失。
Multi-task Learning for TextClassification
多任務(wù)學習的關(guān)鍵就是在潛在的特征空間共享方案。共享方案通常有兩種:
- Fully-Shared Model (FS-MTL) :這種模型忽略了task-dependent特性
- Shared-Private Model (SP-MTL) :這種模型對每個任務(wù)都引入了shared space 和 private space。分別用LSTM學得,并級聯(lián)。
示意圖如下:

上圖其實表示的就是多任務(wù)學習的兩種網(wǎng)絡(luò)框架,上述網(wǎng)絡(luò)的優(yōu)化目標如下(alpha為各個任務(wù)的權(quán)重因子,L表示交叉熵損失):

Incorporating Adversarial Training
作者將shared space學得的特征丟到判別器中,最大化判別器的損失,以達到對抗訓練的目的。損失函數(shù)如下(d表示任務(wù)的類型):

對于一個sentence,LSTM生成一個特征表示誤導判別器,與此同時,判別器嘗試盡可能減小判別誤差。此外,從上面的公式可以看出,訓練過程并未用到樣本的label,所以可以將這個引入無監(jiān)督學習以解決相關(guān)問題。
可以看出,上述模型還存在一個問題,那就是對抗訓練只能保證task-dependent features 不進入shared space,但是task-invariant features還是會進入private space。因此,作者受他人工作啟發(fā),引入正交約束,對代價函數(shù)進行懲罰,使LSTM盡量從不同層面提取特征。懲罰函數(shù)如下:

總結(jié)起來,最終代價函數(shù)如下(lambda和gama為超參數(shù),即各個loss的權(quán)重比例):

網(wǎng)絡(luò)利用反向傳播進行訓練,對抗網(wǎng)絡(luò)的訓練可以用gradient reverse layer。整體網(wǎng)絡(luò)框架如下:

Experiment
效果不錯,就不講啦。
作者本文的兩大關(guān)鍵點就是:對抗訓練,正交約束。