Adversarial Multi-task Learning for Text Classification

論文 : Adversarial Multi-task Learning for Text Classification

最近決定每周讀一篇GAN的論文。一方面,提升自己的閱讀理解能力。另一方面,拓展自己的思路。作為GAN的初學者,有很多表述不當?shù)牡胤綒g迎大家批評指正!

標題:對抗多任務(wù)學習用于文本分類。所謂多任務(wù)學習(MTL)就是指學習某一類任務(wù)的通用知識(focus on learning the shared layers to extract the common and task-invariant features)。比如學習AlexNet,VGG的卷積部分(不含全連接層)。這樣學習出來的卷積特征通常表示一些通用的特征表示(類似于SIFT,HOG)。而利用全連接層,就可以學的一些可以針對某個具體任務(wù)的特征,比如分類,分割,檢測等。詳細可以看這篇關(guān)于多任務(wù)學習文章。

Abstract

作者提出利用GAN進行多任務(wù)學習,可以緩解多任務(wù)學習中學習的shared knowledge存在task-specific features問題。

Introduction

作者為解決目前多任務(wù)學習中存在的問題,設(shè)計了一個shared-private learning framework. 其主要關(guān)鍵點就是引入了對抗訓練以及正交約束,這樣可以阻止 shared and private latent features from interfering with each other。說白了,作者就是要將task-specific features 以及 task-dependent features分開來,示意圖如下:

Shared-Private Model示意圖

舉個栗子,通用的shared-private model存在下面的問題:

文本分類任務(wù)存在的問題舉例

第一句話的infantile是一個中性詞,但是第二句是貶義詞。顯然,這是一個task-specific feature, 但是,目前的模型卻會把他們放到shared space,這樣就會導致shared space 中的特征冗余。為了解決這個問題,作者提出的框架引入了正交約束,使得shared-privete space 天生就是分離的。

作者提出的框架具有兩個關(guān)鍵點:

  • 對抗訓練:使得shared features space 僅僅包含通用的特征。
  • 正交約束:從private and shared space中消除冗余約束。

作者本文的工作有以下三點:

  • 提出了一種更精確的劃分task-specific features 以及 shared space 的方法,而不是以前那種通過shared parameters來粗糙的劃分。
  • 對于多類問題,拓展了以前的二值GAN,不僅使得多任務(wù)可以聯(lián)合訓練,而且還可以利用未標記的數(shù)據(jù)。
  • 將shared knowledge 濃縮到現(xiàn)成的layer中,使其可以很容易的遷移到新任務(wù)中。

LSTM用于文本分類

LSTM可以表示為下式:

LSTM計算公式

對于分類問題,給定一個詞序列,首先要學得每一個詞的向量表示(即詞嵌入,所謂詞嵌入,是學得序列的一個向量表示,ont-encoding就是一種表示,但這樣通常維度很高,詞嵌入通常有一個降維過程,word2vec就是一種詞嵌入方法),經(jīng)過LSTM之后,其最后一個時刻的輸出h作為整個序列的特征表示,而后跟上一個softmax非線性層預測每一類的概率。


網(wǎng)絡(luò)的優(yōu)化目標是交叉熵損失。

Multi-task Learning for TextClassification

多任務(wù)學習的關(guān)鍵就是在潛在的特征空間共享方案。共享方案通常有兩種:

  • Fully-Shared Model (FS-MTL) :這種模型忽略了task-dependent特性
  • Shared-Private Model (SP-MTL) :這種模型對每個任務(wù)都引入了shared space 和 private space。分別用LSTM學得,并級聯(lián)。

示意圖如下:



上圖其實表示的就是多任務(wù)學習的兩種網(wǎng)絡(luò)框架,上述網(wǎng)絡(luò)的優(yōu)化目標如下(alpha為各個任務(wù)的權(quán)重因子,L表示交叉熵損失):


損失函數(shù)

Incorporating Adversarial Training

作者將shared space學得的特征丟到判別器中,最大化判別器的損失,以達到對抗訓練的目的。損失函數(shù)如下(d表示任務(wù)的類型):


對于一個sentence,LSTM生成一個特征表示誤導判別器,與此同時,判別器嘗試盡可能減小判別誤差。此外,從上面的公式可以看出,訓練過程并未用到樣本的label,所以可以將這個引入無監(jiān)督學習以解決相關(guān)問題。

可以看出,上述模型還存在一個問題,那就是對抗訓練只能保證task-dependent features 不進入shared space,但是task-invariant features還是會進入private space。因此,作者受他人工作啟發(fā),引入正交約束,對代價函數(shù)進行懲罰,使LSTM盡量從不同層面提取特征。懲罰函數(shù)如下:

懲罰函數(shù)

總結(jié)起來,最終代價函數(shù)如下(lambda和gama為超參數(shù),即各個loss的權(quán)重比例):


最終代價函數(shù)

網(wǎng)絡(luò)利用反向傳播進行訓練,對抗網(wǎng)絡(luò)的訓練可以用gradient reverse layer。整體網(wǎng)絡(luò)框架如下:


作者提出的網(wǎng)絡(luò)框架

Experiment

效果不錯,就不講啦。

作者本文的兩大關(guān)鍵點就是:對抗訓練,正交約束。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容