日韩二区三区AV,骚逼高清AV高清,久久国产精品香蕉视频

Adversarial Distributional Training for Robust Deep Learning
Zhijie Deng, Yinpeng Dong, Tianyu Pang, Hang Su, Jun Zhu
arXiv preprint arXiv:2002.05999.

此文章為清華大學朱軍組最新的研究成果，提出了ADT（Adversarial Distributional Training）用于學習魯棒的模型。AT（Adversarial Training）與ADT的不同點在于，AT尋找最壞情況的對抗樣本，而ADT學習最壞情況的對抗分布。由于該分布潛在地包含各種攻擊方法生成的對抗樣本，最小化其損失將增強模型的泛化性能，同時提升干凈樣本和對抗樣本的分類精度。

Adversarial Training
給定n個訓練樣本的數(shù)據(jù)集 $\mathcal{D}=\{(x_i, y_i)\}^n_{i=1}$ ，其中，輸入 $x_i \in \mathbb{R}^u0z1t8os$ ，標簽 $y_i \in \{1,...,C\}$ ，則對抗訓練可以被定義為如下的最小最大（minimax）的優(yōu)化問題：
$\min _{\boldsymbol{\theta}} \frac{1}{n} \sum_{i=1}^{n} \max _{\boldsymbol{\delta}_{i} \in \mathcal{S}} \mathcal{L}\left(f_{\boldsymbol{\theta}}\left(\mathbf{x}_{i}+\boldsymbol{\delta}_{i}\right), y_{i}\right)$
Adversarial Distributional Training
為了緩解對抗訓練的不足（性能遠非滿意，抵抗眾多攻擊的通用性較差），作者提出捕獲每個輸入周圍的對抗擾動的分布，而不是僅尋找局部最對抗的點以進行更通用的對抗訓練，并將此方法命名為Adversarial Distributional Training（ADT）。令正常樣本 $x_i$ 周圍的對抗分布為 $p(\delta_i)$ ，則ADT可以描述為如下的minimax優(yōu)化問題：
$\min _{\boldsymbol{\theta}} \frac{1}{n} \sum_{i=1}^{n} \max _{p\left(\boldsymbol{\delta}_{i}\right) \in \mathcal{P}} \mathbb{E}_{p\left(\boldsymbol{\delta}_{i}\right)}\left[\mathcal{L}\left(f_{\boldsymbol{\theta}}\left(\mathbf{x}_{i}+\boldsymbol{\delta}_{i}\right), y_{i}\right)\right]$
其中， $\mathcal{P}=\{p: \operatorname{supp}(p) \subseteq \mathcal{S}\}$ （ $\operatorname{supp}$ 指的是支撐集）。
Regularizing Adversarial Distributions
如下式所示，ADT的內(nèi)層優(yōu)化容易退化到狄拉克分布
$\max _{p\left(\boldsymbol{\delta}_{i}\right) \in \mathcal{P}} \mathbb{E}_{p\left(\boldsymbol{\delta}_{i}\right)}\left[\mathcal{L}\left(f_{\boldsymbol{\theta}}\left(\mathbf{x}_{i}+\boldsymbol{\delta}_{i}\right), y_{i}\right)\right]$
$\quad \leq \max _{\boldsymbol{\delta}_{i} \in \mathcal{S}} \mathcal{L}\left(f_{\boldsymbol{\theta}}\left(\mathbf{x}_{i}+\boldsymbol{\delta}_{i}\right), y_{i}\right)$
為了解決退化問題，引入正則化項：
$\min _{\boldsymbol{\theta}} \frac{1}{n} \sum_{i=1}^{n} \max _{p\left(\boldsymbol{\delta}_{i}\right) \in \mathcal{P}} \mathcal{J}\left(p\left(\boldsymbol{\delta}_{i}\right), \boldsymbol{\theta}\right),$ with
$\mathcal{J}\left(p\left(\boldsymbol{\delta}_{i}\right), \boldsymbol{\theta}\right)=\mathbb{E}_{p\left(\boldsymbol{\delta}_{i}\right)}\left[\mathcal{L}\left(f_{\boldsymbol{\theta}}\left(\mathbf{x}_{i}+\boldsymbol{\delta}_{i}\right), y_{i}\right)\right]+\lambda \mathcal{H}\left(p\left(\boldsymbol{\delta}_{i}\right)\right)$
其中， $\mathcal{H}\left(p\left(\boldsymbol{\delta}_{i}\right)\right)=-\mathbb{E}_{p\left(\boldsymbol{\delta}_{i}\right)}\left[\log p\left(\boldsymbol{\delta}_{i}\right)\right]$