mixup:超越經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化

論文原文:Zhang H, Cisse M, Dauphin Y N, et al. mixup: Beyond Empirical Risk Minimization[J]. 2017.
原文鏈接:https://arxiv.org/abs/1710.09412

1.摘要

??大型深度神經(jīng)網(wǎng)絡(luò)是非常強(qiáng)大的,但在記憶和針對(duì)對(duì)抗樣本的敏感性上卻表現(xiàn)地不太理想。在這項(xiàng)研究中,我們提出了mixup,它是一個(gè)用以解決這些問題的簡單學(xué)習(xí)原則。實(shí)質(zhì)上,mixup是在樣本對(duì)和其標(biāo)簽的凸組合(convex combinations)上訓(xùn)練神經(jīng)網(wǎng)絡(luò)的。通過這樣做,mixup將神經(jīng)網(wǎng)絡(luò)正規(guī)化以支持訓(xùn)練樣本之間的簡單線性行為。我們分別在ImageNet-2012、CIFAR-10、CIFAR-100、Google命令和UCI數(shù)據(jù)集上進(jìn)行試驗(yàn),研究結(jié)果表明,mixup可以改進(jìn)當(dāng)前最先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)的泛化能力。我們還發(fā)現(xiàn),mixup能夠減少對(duì)錯(cuò)誤標(biāo)簽的記憶,增加對(duì)抗樣本的健壯性,并能夠穩(wěn)定對(duì)生成對(duì)抗網(wǎng)絡(luò)的訓(xùn)練過程。

2.引入

??大型深度神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(Krizhevsky 等人于2012年提出)、語音識(shí)別(Hinton 等人于2012年提出)和強(qiáng)化學(xué)習(xí)(Silver等人于2016年提出)等領(lǐng)域均實(shí)現(xiàn)了突破性發(fā)展。在大多數(shù)的成功應(yīng)用中,這些神經(jīng)網(wǎng)絡(luò)有兩個(gè)共同點(diǎn):首先,它們進(jìn)行訓(xùn)練以將其訓(xùn)練數(shù)據(jù)的平均誤差最小化,這種學(xué)習(xí)規(guī)則也被稱為經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(Empirical Risk Minimization,ERM)原則(Vapnik于1998年提出);其次,這些當(dāng)前最先進(jìn)的神經(jīng)網(wǎng)絡(luò)的大小與訓(xùn)練樣本的數(shù)量呈線性關(guān)系。例如,Springenberg等人(于2015年提出)的網(wǎng)絡(luò)使用106個(gè)參數(shù)來對(duì)CIFAR-10數(shù)據(jù)集中的5×104個(gè)圖像進(jìn)行建模,Simonyan和Zisserman(于2015年提出)的網(wǎng)絡(luò)使用108個(gè)參數(shù)來對(duì)ImageNet-2012數(shù)據(jù)集中的106個(gè)圖像進(jìn)行建模,Chelba等人(于2013年提出)的網(wǎng)絡(luò)使用2×10^10個(gè)參數(shù)對(duì)十億單詞(One Billion Word)數(shù)據(jù)集中的10^9個(gè)單詞進(jìn)行建模。
??引人注目的是,學(xué)習(xí)理論(Vapnik和Chervonenkis于1971年提出)的經(jīng)典結(jié)果告訴我們,只要學(xué)習(xí)機(jī)器(如神經(jīng)網(wǎng)絡(luò))的大小不隨著訓(xùn)練數(shù)據(jù)數(shù)量的增加而增加,那么ERM的收斂性就是可以得到保證的。其中,學(xué)習(xí)機(jī)器的大小是根據(jù)其參數(shù)數(shù)量,或相關(guān)地,根據(jù)其VC復(fù)雜度(Harvey等人于2017年提出)來衡量的
??這一矛盾挑戰(zhàn)了ERM訓(xùn)練當(dāng)前神經(jīng)網(wǎng)絡(luò)模型的適應(yīng)性,正如在最近的研究中所強(qiáng)調(diào)的那樣。一方面,ERM允許大型神經(jīng)網(wǎng)絡(luò)記憶(而不是從中泛化)訓(xùn)練數(shù)據(jù),即使是在強(qiáng)正則化,或是標(biāo)簽是隨機(jī)分配的分類問題(Zhang等人于2017年提出)中。另一方面,在對(duì)訓(xùn)練分布之外的樣本(也被稱之為對(duì)抗樣本)進(jìn)行評(píng)估時(shí),用ERM訓(xùn)練的神經(jīng)網(wǎng)絡(luò)會(huì)徹底地改變其預(yù)測結(jié)果(Szegedy等人于2014年提出)。這一證據(jù)表明,當(dāng)測試分布與訓(xùn)練數(shù)據(jù)略有不同時(shí),ERM便無法對(duì)其進(jìn)行解釋或?yàn)槠涮峁┓夯?。那么,ERM的替代方案是什么呢?
??選擇在類似但不相同的樣本上進(jìn)行訓(xùn)練以增加到訓(xùn)練數(shù)據(jù)中的方法稱為數(shù)據(jù)增強(qiáng)(data augmentation)(Simard等人于1998年提出),而后由鄰域風(fēng)險(xiǎn)最小化原則(Vicinal Risk Minimization,VRM)形式化(Chapelle等人于2000年提出)。在VRM中,需要用人類知識(shí)來描述訓(xùn)練數(shù)據(jù)中每個(gè)樣本周圍的鄰域區(qū)域。然后,可以從訓(xùn)練樣本的附近分布中提取附加的虛擬樣本,以擴(kuò)大訓(xùn)練分布的支持。例如,當(dāng)進(jìn)行圖像分類時(shí),通常將一個(gè)圖像的鄰域定義為其水平反射、輕微旋轉(zhuǎn)和輕微縮放的集合。雖然一直以來,數(shù)據(jù)增強(qiáng)都會(huì)促使改進(jìn)泛化能力(Simard等人于1998年提出),但是該過程是依賴于數(shù)據(jù)集的,因此需要使用專家知識(shí)。除此之外,數(shù)據(jù)擴(kuò)充假設(shè)鄰域中的樣本共享相同的類,并且不對(duì)不同類的樣本之間的鄰域關(guān)系進(jìn)行建模。
??貢獻(xiàn):受到這些問題的啟發(fā),我們引入了一個(gè)簡單的、并且和數(shù)據(jù)無關(guān)的數(shù)據(jù)擴(kuò)充例程,稱為mixup。簡而言之,mixup能夠構(gòu)建虛擬的訓(xùn)練樣本:

image.png

??其中(xi,yi)和(xj,yj)是從我們的訓(xùn)練數(shù)據(jù)中隨機(jī)抽取的兩個(gè)樣本,且λ∈[0,1]。因此,mixup通過結(jié)合先驗(yàn)知識(shí),即特征向量的線性插值應(yīng)該導(dǎo)致相關(guān)目標(biāo)的線性插值,來擴(kuò)展訓(xùn)練分布。Mixup在很少的幾行代碼中就可以得以實(shí)施,并且引入了最少的計(jì)算開銷。
??盡管它很簡單,但mixup在CIFAR-10、CIFAR-100和ImageNet-2012圖像分類數(shù)據(jù)集中實(shí)現(xiàn)了當(dāng)前最先進(jìn)的性能。此外,當(dāng)從錯(cuò)誤數(shù)據(jù)中進(jìn)行學(xué)習(xí),或面對(duì)對(duì)抗樣本時(shí),mixup能夠增強(qiáng)神經(jīng)網(wǎng)絡(luò)的健壯性。最后,mixup能夠改善在語音和表格數(shù)據(jù)中的泛化能力,并可用于穩(wěn)定GAN的訓(xùn)練過程。相關(guān)實(shí)驗(yàn)的源代碼資源鏈接:https://coming.soon/mixup。
??我們通過探討與之前工作的聯(lián)系來結(jié)束本文,并且提出一些觀點(diǎn)以供討論。

3.從經(jīng)驗(yàn)風(fēng)險(xiǎn)最小到mixup

??在監(jiān)督學(xué)習(xí)當(dāng)中,我們感興趣的是找到一個(gè)函數(shù)f來描述隨便一個(gè)特征向量X和目標(biāo)向量Y之間的關(guān)系,這種關(guān)系遵循聯(lián)合分布P(X,Y)。為此,我們定義了一個(gè)損失函數(shù)L用來懲罰預(yù)測值f(x)和實(shí)際目標(biāo)值y之間的區(qū)別。然后呢,我們最小化在這個(gè)數(shù)據(jù)分布P上的平均損失,這也就是我們熟知的期望風(fēng)險(xiǎn):
image.png

?? 不幸的是,這個(gè)分布P在絕大多數(shù)情況下都是未知的。不過呢,我們通常很容易獲取一個(gè)訓(xùn)練數(shù)據(jù)集
image.png
在這里對(duì)于i=1,2,...,n來說,
image.png
。使用這個(gè)訓(xùn)練集,我們能通過經(jīng)驗(yàn)分布獲取到近似的P
image.png
在這里,
image.png

是以(xi,yi)為中心的迪拉克測度。使用經(jīng)驗(yàn)分布
image.png
,我們能夠獲得經(jīng)驗(yàn)風(fēng)險(xiǎn)的近似期望風(fēng)險(xiǎn):
image.png
通過最小化上面式子而學(xué)習(xí)到的函數(shù)f就是廣為人知的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化理論,Empirical Risk Minimization (ERP)(Vapnik,1998)。雖然計(jì)算效率很高,但是經(jīng)驗(yàn)損失只監(jiān)控了有限的n個(gè)樣本上函數(shù)f的表現(xiàn)。當(dāng)考慮一個(gè)具有與n相當(dāng)數(shù)量參數(shù)的函數(shù)時(shí)(比如大型神經(jīng)網(wǎng)絡(luò)),一個(gè)最簡單的方法就是直接記住這個(gè)訓(xùn)練數(shù)據(jù)。不過,這種記憶反過來使得f在訓(xùn)練集之外的數(shù)據(jù)上表現(xiàn)不夠令人滿意。
??然而,樸素估計(jì)
image.png
是用來近似真實(shí)分布的很多方法的其中一種。比如,在鄰域風(fēng)險(xiǎn)最小化(Vicinal Risk Minimization,VRM)原則中,分布P就是用下式來定義
image.png
這里,v是一個(gè)鄰域分布,用來表示在訓(xùn)練特征-目標(biāo)對(duì)(xi,yi)鄰域上尋找到虛構(gòu)特征-目標(biāo)對(duì)
image.png
的概率。特別地,Chapelle等人考慮高斯鄰域
image.png
,這等價(jià)于通過添加高斯噪聲來增強(qiáng)數(shù)據(jù)。在使用VRM學(xué)習(xí)時(shí),我們?cè)卩徲蚍植忌喜蓸觼順?gòu)造一個(gè)數(shù)據(jù)集
image.png
,并且最小化經(jīng)驗(yàn)鄰域風(fēng)險(xiǎn):
image.png

本篇論文的貢獻(xiàn)在于提出了一種通用的鄰域分布,mixup:
image.png
在這里,
image.png
總而言之,從mixup鄰域分布采樣,產(chǎn)生虛擬特征-目標(biāo)向量
image.png
這里,(xi,yi)和(xj,yj)是從訓(xùn)練數(shù)據(jù)中隨機(jī)抽樣的2個(gè)特征-目標(biāo)向量,λ屬于[0,1]。mixup的超參數(shù)α控制著特征-目標(biāo)對(duì)之間插值的強(qiáng)度,當(dāng)α趨于0的時(shí)候mixup模型回歸會(huì)回歸到ERM。
?? mixup的實(shí)現(xiàn)簡單直接,下圖展示了用PyTorch訓(xùn)練時(shí)實(shí)現(xiàn)mixup的幾行必要的代碼。
?? mixup究竟做了什么?mixup鄰域分布可以被理解為一種數(shù)據(jù)增強(qiáng)方式,它令模型在處理樣本和樣本之間的區(qū)域時(shí)表現(xiàn)為線性。我們認(rèn)為,這種線性建模減少了在預(yù)測訓(xùn)練樣本以外的數(shù)據(jù)時(shí)的不適應(yīng)性。從奧卡姆剃刀的原理出發(fā),線性是一個(gè)很好的歸納偏見,因?yàn)樗亲詈唵蔚目赡艿膸追N行為之一。圖1顯示了mixup導(dǎo)致決策邊界從一個(gè)類到另一個(gè)類線性的轉(zhuǎn)變,提供了一個(gè)更平滑的不確定性估計(jì)。圖2顯示了在CIFAR-10數(shù)據(jù)集上用mixup和ERM兩個(gè)方法訓(xùn)練的兩個(gè)神經(jīng)網(wǎng)絡(luò)模型的平均表現(xiàn)。兩個(gè)模型有相同的結(jié)構(gòu),使用相同的訓(xùn)練過程,在同一個(gè)從訓(xùn)練數(shù)據(jù)里隨機(jī)抽樣而來的樣本上來評(píng)估。用mixup訓(xùn)練的模型在預(yù)測訓(xùn)練數(shù)據(jù)之間的數(shù)據(jù)時(shí)更穩(wěn)定。
image.png
image.png

4.討論

?? 在此研究中,我們提出了mixup,一個(gè)和數(shù)據(jù)無關(guān)的、簡單的數(shù)據(jù)增強(qiáng)原則。研究結(jié)果表明,mixup是鄰域風(fēng)險(xiǎn)最小化的一種形式,它在虛擬樣本(即構(gòu)建為訓(xùn)練集中的兩個(gè)隨機(jī)樣本及其標(biāo)簽的線性插值)中進(jìn)行訓(xùn)練。將mixup集成到現(xiàn)有的訓(xùn)練管道中僅需要幾行代碼,并且很少或幾乎沒有計(jì)算開銷。在廣泛的評(píng)估中,結(jié)果已經(jīng)表明,mixup改進(jìn)了當(dāng)前最先進(jìn)的模型在ImageNet、CIFAR、語音和表格數(shù)據(jù)集中的泛化誤差。此外,mixup有助于有助于消除對(duì)錯(cuò)誤標(biāo)簽的記憶、對(duì)對(duì)抗樣本的敏感性以及對(duì)抗訓(xùn)練的不穩(wěn)定性。
?? 在我們的實(shí)驗(yàn)中,以下思維趨勢是一致的:隨著α越來越大,實(shí)際數(shù)據(jù)的訓(xùn)練誤差就會(huì)增加,而泛化差距會(huì)縮小。這就支持了我們的假設(shè),即mixup隱式地控制了模型的復(fù)雜性。然而,我們還沒有一個(gè)很好的理論來理解這種偏差—方差平衡(bias-variance trade-off)的“最佳點(diǎn)”。例如,在CIFAR-10分類中,即使在α → ∞(即僅對(duì)真實(shí)樣本的平均值進(jìn)行訓(xùn)練)的情況下,我們?nèi)匀豢梢栽谡鎸?shí)數(shù)據(jù)中獲得非常低的訓(xùn)練誤差。而在ImageNet分類中,當(dāng)α → ∞時(shí),真實(shí)數(shù)據(jù)的訓(xùn)練誤差會(huì)顯著增加??紤]到我們的ImageNet和Google命令實(shí)驗(yàn)是用不同的模型架構(gòu)進(jìn)行的,我們推測,增加模型容量會(huì)降低訓(xùn)練誤差對(duì)較大的α的敏感性,從而給予mixup一個(gè)更大的優(yōu)勢。
??與此同時(shí),mixup還為進(jìn)行進(jìn)一步探索開辟了幾種可能性。首先,是否有可能讓類似的想法在其他類型的監(jiān)督學(xué)習(xí)問題上發(fā)揮作用,比如回歸和結(jié)構(gòu)化預(yù)測?雖然將mixup泛化到回歸問題是很簡單的,但要將其應(yīng)用到諸如圖像分割這樣的結(jié)構(gòu)化預(yù)測問題上效果就不那么明顯了。第二,類似的方法能否在監(jiān)督學(xué)習(xí)之外的問題上有所幫助?插補(bǔ)原理似乎是一種合理的歸納偏置(inductive bias),即也有可能在無監(jiān)督、半監(jiān)督和強(qiáng)化學(xué)習(xí)中有所幫助。我們是否可以將mixup擴(kuò)展到特征標(biāo)簽外插,以確保遠(yuǎn)離訓(xùn)練數(shù)據(jù)的強(qiáng)大的模型行為?雖然我們對(duì)這些方向的討論仍然是具有推測性的,但我們對(duì)mixup未來所能開辟的可能性抱有極大的期待,并希望我們的觀察結(jié)果將有助于未來的發(fā)展。
參考翻譯:http://blog.csdn.net/cygqjbabx875u/article/details/78421324

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容