5月7日,MIT Madry組發(fā)布了一篇文章 Adversarial Examples Are Not Bugs, They are features. 這篇文章試圖解釋為什么會(huì)存在Adversarial Examples,并得出結(jié)論,模型之所以會(huì)受到adversarial attack是因?yàn)樗鼘W(xué)習(xí)到了原始數(shù)據(jù)中的Non-robust but predictive 的特征。
自從Adversarial examples 被發(fā)現(xiàn)以來(lái),關(guān)于它的研究就一直沒(méi)有中斷過(guò)。最早我們可以在2014年2月的 Szegedy 的 Intriguing properties of neural networks文中了解到神經(jīng)網(wǎng)絡(luò)對(duì)抗樣本的存在。隨后,Ian Goodfellow 在 EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES中提出了導(dǎo)致對(duì)抗樣本存在的一個(gè)可能原因:神經(jīng)網(wǎng)絡(luò)的局部線性性質(zhì),在CNN中也就是我們的relu部分。并且依據(jù)這一發(fā)現(xiàn),提出了一種非常簡(jiǎn)單的生成對(duì)抗樣本的方法 FGSM (Fast-Gradient Sign Method). 不過(guò)這個(gè)說(shuō)法并不能解釋所有情況,因?yàn)殡S后有研究發(fā)現(xiàn)有些對(duì)抗樣本本身和局部線性性質(zhì)沒(méi)有關(guān)系。
Madry組另外一篇非常有名的文章中就談到了這個(gè)問(wèn)題。Towards Deep Learning Models Resistance to Adversarial Attacks. 這篇文章提出了一種抵御對(duì)抗樣本的方法,也是目前為止唯一沒(méi)有被攻破的方法。
回到文章本身。在Madry組前一篇文章Robustness May Be at Odds with Accuracy中,研究者發(fā)現(xiàn)提高模型robustness和accuracy是兩個(gè)相矛盾的任務(wù),進(jìn)而思考了是否提高robustness在任何情況下都是最優(yōu)選擇。在這篇文章中,研究者則表明,對(duì)抗樣本的存在是合理的,甚至是必然的:他們構(gòu)成了特征,并且這些特征往往能夠顯著提高模型的準(zhǔn)確率,用文中的話來(lái)說(shuō),這些特征是non-robust but useful. 因此,如果我們不去利用這些不魯棒但是有用的特征,模型的預(yù)測(cè)能力就會(huì)下降。
為了證實(shí)這個(gè)觀點(diǎn),研究者嘗試從原始數(shù)據(jù)集中分離robust feature and non-robust feature
,并分別在這兩個(gè)數(shù)據(jù)集上訓(xùn)練模型,并測(cè)試其在原始測(cè)試集上的準(zhǔn)確率。
的生成比較簡(jiǎn)單,是targeted attack。對(duì)每一個(gè)原始數(shù)據(jù)集
(x, y), 我們隨機(jī)/固定 將y映射到另外一個(gè)類別t,之后再進(jìn)行targeted attack,得到x'。理論上來(lái)說(shuō)x'這個(gè)時(shí)候應(yīng)該包含和屬于類別t的non-robust features, 而那些和類別y有關(guān)的robust feature將會(huì)被破壞,或者,即便沒(méi)有被破壞,也無(wú)法給分類器提供任何有價(jià)值的信息。結(jié)果顯示,在上訓(xùn)練出來(lái)的模型,仍然具有泛化能力,能夠在原始測(cè)試集上達(dá)到43.7%~87.9%的準(zhǔn)確率(取決于數(shù)據(jù)集類型以及到底是隨機(jī)映射還是固定映射)。作者于是指出,這些non-robust的特征能夠被模型選擇,即便原始集中存在一些同樣具備預(yù)測(cè)能力的魯棒性特征。
個(gè)人認(rèn)為,這個(gè)觀點(diǎn)可以這么理解:這些robust features 以人類視角看,是非常強(qiáng),可解釋的特征,然而他們是錯(cuò)的,和一個(gè)錯(cuò)誤的類別聯(lián)系在了一起。所以,很有可能模型會(huì)學(xué)習(xí)到錯(cuò)誤的信息??杉幢闳绱耍P腿匀荒軌蚪柚鷑on-robust features排除干擾獲得一定程度的泛化能力。事實(shí)上,根據(jù)試驗(yàn)結(jié)果,我們發(fā)現(xiàn)固定映射數(shù)據(jù)集上訓(xùn)練的模型比隨機(jī)映射數(shù)據(jù)集上訓(xùn)練的模型表現(xiàn)更差一些:因?yàn)楣潭ㄓ成鋸?qiáng)化了robust features和錯(cuò)誤類別的聯(lián)系,而隨機(jī)映射則是相互抵消。因此,從這個(gè)結(jié)果我們可以得出,這些non-robust features的作用要比我們想象中要大。他們雖然在人類視角中難以被理解,但是對(duì)于機(jī)器學(xué)習(xí)模型,確實(shí)提高準(zhǔn)確率的不二法寶。
其實(shí),仔細(xì)想想,目前的研究人員似乎把robustness 以及 interpretability 劃上了等號(hào)。Interpretability 本身是從人類視角出發(fā)的一個(gè)評(píng)估指標(biāo)。而Robustness并不天然和人的感官有關(guān),它有嚴(yán)格的數(shù)學(xué)表示。通俗點(diǎn)來(lái)說(shuō),指的是輸入在一定范圍內(nèi)變化時(shí),輸出不會(huì)有太大改變。然而,當(dāng)我們把研究對(duì)象集中在機(jī)器視覺(jué)領(lǐng)域時(shí),這兩者就有很強(qiáng)關(guān)聯(lián)性了。對(duì)人類而言,對(duì)視覺(jué)任務(wù)有用的特征 (具有high interpretability的特征) 通常都是robust的,因?yàn)槲覀兇竽X自帶去噪能力,能夠忽略細(xì)小的變化而關(guān)注整體表征?,F(xiàn)在的問(wèn)題在于:
是否存在 robust 但是 less interpretable 的特征?
也就是文中提到的-robustly useful features。文中雖然給了定義,但是并沒(méi)有給出實(shí)例。同樣,盡管作者宣稱
和
分別包含robust features 和 non-robust features,但是卻沒(méi)有給出定量的分析。
中只包含robust features嗎?包含的比例是多少?
的分布是怎樣?
同樣,只包含 non-robust features嗎?
因此,個(gè)人認(rèn)為,由于缺少這一部分的分析,很難說(shuō)non-robust features在模型中到底貢獻(xiàn)了多少。不過(guò),這一部分也確實(shí)不好做,因?yàn)槲覀兙矸e神經(jīng)網(wǎng)絡(luò)的特征并不是輸入數(shù)據(jù),而是經(jīng)過(guò)卷積,池化后得到representation。而到底選取哪一部分的representation作為特征又有很多工作要做。所以,粗略來(lái)說(shuō),我們可以大致認(rèn)為和
分別是包含robust features 和 non-robust features比較多的數(shù)據(jù)集。不過(guò),需要指出,這一部分我認(rèn)為還是不嚴(yán)謹(jǐn)?shù)摹?/p>
最后,感謝Madry組的工作,為我們探索模型的安全可靠性又提供了一種新思路!