利用超球嵌入來(lái)增強(qiáng)對(duì)抗訓(xùn)練
這次介紹一篇NeurIPS2020的工作,"Boosting Adversarial Training with Hypersphere Embedding",一作是清華的Tianyu Pang。
該工作主要是引入了一種技術(shù),稱之為Hypersphere Embedding,本文將其稱作超球嵌入。
該方法和現(xiàn)有的一些對(duì)抗訓(xùn)練的變種是正交的,即可以互相融合提升效果。
這里指的對(duì)抗訓(xùn)練的變種有 ALP, TRADE 等
對(duì)抗訓(xùn)練框架
首先,如下圖所示,我們列出來(lái)AT以及其變種,用粉色標(biāo)識(shí)出來(lái)其訓(xùn)練目標(biāo)的差異

其中, 是對(duì)抗樣本,右邊的對(duì)抗目標(biāo)可以理解為用于生成對(duì)抗樣本的誤差函數(shù)。
我們可以簡(jiǎn)單地看出來(lái)這些變種的設(shè)計(jì):
- ALP是加上了正常樣本的交叉熵誤差,并引入了一個(gè)正則化項(xiàng),
其實(shí)就是
- TRADES則是在引入正常樣本的交叉熵誤差之后,將原本的對(duì)抗樣本的誤差做了修改,即,從原本的標(biāo)簽
改為正常樣本的輸出
HE的修改部分主要有兩塊:
- 在模型
上面
- 在交叉熵誤差
上面
方法介紹
記號(hào)描述
這里首先給出一些基礎(chǔ)的記號(hào),方便后面的描述
我們考慮分類任務(wù),記標(biāo)簽數(shù)量為 , 記模型為:
其中, 代表著基于模型參數(shù)
抽取出來(lái)的特征,矩陣
以及偏置
可以理解為最后的線性層,函數(shù)
是softmax函數(shù)。
我們記交叉熵誤差為:
其中, 就是標(biāo)簽
的 one-hot 編碼,也就是在
位置上為1,其余都是0。
我們使用 表示向量
和
之間的夾角
融合HE的對(duì)抗訓(xùn)練框架
首先,大多數(shù)的對(duì)抗訓(xùn)練可以寫成如下的二階段框架:
其實(shí)就是,先生成對(duì)抗樣本,然后優(yōu)化訓(xùn)練目標(biāo)。
在多次迭代之后, 以及
就會(huì)逐漸收斂,為了提高這種對(duì)抗訓(xùn)練的性能,有一些工作將metric learning引入進(jìn)對(duì)抗學(xué)習(xí)之中,不過(guò)這些工作的計(jì)算代價(jià)比較高昂,會(huì)導(dǎo)致一些類別偏向,在更強(qiáng)的對(duì)抗攻擊之下仍然也是脆弱的。
相關(guān)材料:
- NeurIPS 2019: Metric learning for adversarial robustness.
- IWSBPR 2015: Deep metric learning using triplet network.
- 更強(qiáng)的對(duì)抗攻擊:https://github.com/Line290/FeatureAttack
其實(shí)這里的motivation并不充分,給的理由仍然不夠有力
接下來(lái),直接給出HE的形式,其實(shí)就是對(duì)特征 以及權(quán)重
進(jìn)行標(biāo)準(zhǔn)化
其中 ,
我們令
從而有
計(jì)算交叉熵函數(shù)的時(shí)候,引入一個(gè)變量 ,記:
其中 是一個(gè)系數(shù),用于提高訓(xùn)練時(shí)候的數(shù)值的穩(wěn)定性
這個(gè)
的引入是參考了CVPR2018的一篇文章,Cosface: Large margin cosine loss for deep face recognition
理論分析
首先我們定義一個(gè)向量函數(shù)
其中
引理1:給定一個(gè)對(duì)抗目標(biāo)誤差函數(shù) ,令
,利用一階泰勒展開,可得
的解為
。進(jìn)一步的,
證明:
不妨令 ,其中
從而,
在 處進(jìn)行泰勒展開,得到
故
這里需要用到ICML2019 First-order Adversarial Vulnerability of Neural Networks and Input Dimension的一個(gè)結(jié) 論, 即
通過(guò)引理1,我們獲得了對(duì)抗樣本 對(duì)于損失函數(shù)
的影響,同時(shí)給出了
對(duì)
的方向。
引理2:令 為兩個(gè)權(quán)重的差值,
為
的特征向量,便有
證明:
在引理2之上,記 是對(duì)抗樣本
的預(yù)測(cè)輸出,其中
基于一些先驗(yàn)的觀測(cè),通常預(yù)測(cè)輸出標(biāo)簽的概率值(Top1 的概率)要遠(yuǎn)大于其他標(biāo)簽的概率值
于是有
其中
令 ,
并且
不依賴于
從而,每次攻擊的迭代下, 的增量為
而先前介紹的方法,會(huì)使得 ,進(jìn)而使得攻擊的樣本更貼近分類邊界

如上圖所示, 會(huì)影響下降的方向,導(dǎo)致生成的對(duì)抗樣本產(chǎn)生的作用比較差,進(jìn)而抑制了對(duì)抗訓(xùn)練的效率
實(shí)驗(yàn)分析
首先是CIFAR-10上的白盒攻擊測(cè)試

可以看到,加了HE之后防御效果會(huì)有一定的提升,少數(shù)情況下會(huì)下降
然后是ImageNet上的測(cè)試

相比FreeAT,防御效果會(huì)比較明顯