Adversarial Distributional Training

Adversarial Distributional Training for Robust Deep Learning
Zhijie Deng, Yinpeng Dong, Tianyu Pang, Hang Su, Jun Zhu
arXiv preprint arXiv:2002.05999.

此文章為清華大學朱軍組最新的研究成果,提出了ADT(Adversarial Distributional Training)用于學習魯棒的模型。AT(Adversarial Training)與ADT的不同點在于,AT尋找最壞情況的對抗樣本,而ADT學習最壞情況的對抗分布。由于該分布潛在地包含各種攻擊方法生成的對抗樣本,最小化其損失將增強模型的泛化性能,同時提升干凈樣本和對抗樣本的分類精度。

  • Adversarial Training
    給定n個訓練樣本的數(shù)據(jù)集\mathcal{D}=\{(x_i, y_i)\}^n_{i=1},其中,輸入x_i \in \mathbb{R}^u0z1t8os,標簽y_i \in \{1,...,C\},則對抗訓練可以被定義為如下的最小最大(minimax)的優(yōu)化問題:
    \min _{\boldsymbol{\theta}} \frac{1}{n} \sum_{i=1}^{n} \max _{\boldsymbol{\delta}_{i} \in \mathcal{S}} \mathcal{L}\left(f_{\boldsymbol{\theta}}\left(\mathbf{x}_{i}+\boldsymbol{\delta}_{i}\right), y_{i}\right)
  • Adversarial Distributional Training
    為了緩解對抗訓練的不足(性能遠非滿意,抵抗眾多攻擊的通用性較差),作者提出捕獲每個輸入周圍的對抗擾動的分布,而不是僅尋找局部最對抗的點以進行更通用的對抗訓練,并將此方法命名為Adversarial Distributional Training(ADT)。令正常樣本x_i周圍的對抗分布為p(\delta_i),則ADT可以描述為如下的minimax優(yōu)化問題:
    \min _{\boldsymbol{\theta}} \frac{1}{n} \sum_{i=1}^{n} \max _{p\left(\boldsymbol{\delta}_{i}\right) \in \mathcal{P}} \mathbb{E}_{p\left(\boldsymbol{\delta}_{i}\right)}\left[\mathcal{L}\left(f_{\boldsymbol{\theta}}\left(\mathbf{x}_{i}+\boldsymbol{\delta}_{i}\right), y_{i}\right)\right]
    其中,\mathcal{P}=\{p: \operatorname{supp}(p) \subseteq \mathcal{S}\}\operatorname{supp}指的是支撐集)。
  • Regularizing Adversarial Distributions
    如下式所示,ADT的內(nèi)層優(yōu)化容易退化到狄拉克分布
    \max _{p\left(\boldsymbol{\delta}_{i}\right) \in \mathcal{P}} \mathbb{E}_{p\left(\boldsymbol{\delta}_{i}\right)}\left[\mathcal{L}\left(f_{\boldsymbol{\theta}}\left(\mathbf{x}_{i}+\boldsymbol{\delta}_{i}\right), y_{i}\right)\right]
    \quad \leq \max _{\boldsymbol{\delta}_{i} \in \mathcal{S}} \mathcal{L}\left(f_{\boldsymbol{\theta}}\left(\mathbf{x}_{i}+\boldsymbol{\delta}_{i}\right), y_{i}\right)
    為了解決退化問題,引入正則化項:
    \min _{\boldsymbol{\theta}} \frac{1}{n} \sum_{i=1}^{n} \max _{p\left(\boldsymbol{\delta}_{i}\right) \in \mathcal{P}} \mathcal{J}\left(p\left(\boldsymbol{\delta}_{i}\right), \boldsymbol{\theta}\right), with
    \mathcal{J}\left(p\left(\boldsymbol{\delta}_{i}\right), \boldsymbol{\theta}\right)=\mathbb{E}_{p\left(\boldsymbol{\delta}_{i}\right)}\left[\mathcal{L}\left(f_{\boldsymbol{\theta}}\left(\mathbf{x}_{i}+\boldsymbol{\delta}_{i}\right), y_{i}\right)\right]+\lambda \mathcal{H}\left(p\left(\boldsymbol{\delta}_{i}\right)\right)
    其中,\mathcal{H}\left(p\left(\boldsymbol{\delta}_{i}\right)\right)=-\mathbb{E}_{p\left(\boldsymbol{\delta}_{i}\right)}\left[\log p\left(\boldsymbol{\delta}_{i}\right)\right]
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內(nèi)容