Adversarial Distributional Training for Robust Deep Learning
Zhijie Deng, Yinpeng Dong, Tianyu Pang, Hang Su, Jun Zhu
arXiv preprint arXiv:2002.05999.
此文章為清華大學朱軍組最新的研究成果,提出了ADT(Adversarial Distributional Training)用于學習魯棒的模型。AT(Adversarial Training)與ADT的不同點在于,AT尋找最壞情況的對抗樣本,而ADT學習最壞情況的對抗分布。由于該分布潛在地包含各種攻擊方法生成的對抗樣本,最小化其損失將增強模型的泛化性能,同時提升干凈樣本和對抗樣本的分類精度。
-
Adversarial Training
給定n個訓練樣本的數(shù)據(jù)集,其中,輸入
,標簽
,則對抗訓練可以被定義為如下的最小最大(minimax)的優(yōu)化問題:
-
Adversarial Distributional Training
為了緩解對抗訓練的不足(性能遠非滿意,抵抗眾多攻擊的通用性較差),作者提出捕獲每個輸入周圍的對抗擾動的分布,而不是僅尋找局部最對抗的點以進行更通用的對抗訓練,并將此方法命名為Adversarial Distributional Training(ADT)。令正常樣本周圍的對抗分布為
,則ADT可以描述為如下的minimax優(yōu)化問題:
其中,(
指的是支撐集)。
-
Regularizing Adversarial Distributions
如下式所示,ADT的內(nèi)層優(yōu)化容易退化到狄拉克分布
為了解決退化問題,引入正則化項:
with
其中,