色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

<ul id="0kwwq"></ul>

<strike id="0kwwq"><input id="0kwwq"></input></strike>

登錄注冊(cè)寫文章

mixup:超越經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化

mixup:超越經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化

論文原文：Zhang H, Cisse M, Dauphin Y N, et al. mixup: Beyond Empirical Risk Minimization[J]. 2017.
原文鏈接：https://arxiv.org/abs/1710.09412

1.摘要

??大型深度神經(jīng)網(wǎng)絡(luò)是非常強(qiáng)大的，但在記憶和針對(duì)對(duì)抗樣本的敏感性上卻表現(xiàn)地不太理想。在這項(xiàng)研究中，我們提出了mixup，它是一個(gè)用以解決這些問題的簡單學(xué)習(xí)原則。實(shí)質(zhì)上，mixup是在樣本對(duì)和其標(biāo)簽的凸組合（convex combinations）上訓(xùn)練神經(jīng)網(wǎng)絡(luò)的。通過這樣做，mixup將神經(jīng)網(wǎng)絡(luò)正規(guī)化以支持訓(xùn)練樣本之間的簡單線性行為。我們分別在ImageNet-2012、CIFAR-10、CIFAR-100、Google命令和UCI數(shù)據(jù)集上進(jìn)行試驗(yàn)，研究結(jié)果表明，mixup可以改進(jìn)當(dāng)前最先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)的泛化能力。我們還發(fā)現(xiàn)，mixup能夠減少對(duì)錯(cuò)誤標(biāo)簽的記憶，增加對(duì)抗樣本的健壯性，并能夠穩(wěn)定對(duì)生成對(duì)抗網(wǎng)絡(luò)的訓(xùn)練過程。

2.引入

??大型深度神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺（Krizhevsky 等人于2012年提出）、語音識(shí)別（Hinton 等人于2012年提出）和強(qiáng)化學(xué)習(xí)（Silver等人于2016年提出）等領(lǐng)域均實(shí)現(xiàn)了突破性發(fā)展。在大多數(shù)的成功應(yīng)用中，這些神經(jīng)網(wǎng)絡(luò)有兩個(gè)共同點(diǎn)：首先，它們進(jìn)行訓(xùn)練以將其訓(xùn)練數(shù)據(jù)的平均誤差最小化，這種學(xué)習(xí)規(guī)則也被稱為經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化（Empirical Risk Minimization，ERM）原則（Vapnik于1998年提出）；其次，這些當(dāng)前最先進(jìn)的神經(jīng)網(wǎng)絡(luò)的大小與訓(xùn)練樣本的數(shù)量呈線性關(guān)系。例如，Springenberg等人（于2015年提出）的網(wǎng)絡(luò)使用10^{6個(gè)參數(shù)來對(duì)CIFAR-10數(shù)據(jù)集中的5×10}4個(gè)圖像進(jìn)行建模，Simonyan和Zisserman（于2015年提出）的網(wǎng)絡(luò)使用10^{8個(gè)參數(shù)來對(duì)ImageNet-2012數(shù)據(jù)集中的10}6個(gè)圖像進(jìn)行建模，Chelba等人（于2013年提出）的網(wǎng)絡(luò)使用2×10^10個(gè)參數(shù)對(duì)十億單詞（One Billion Word）數(shù)據(jù)集中的10^9個(gè)單詞進(jìn)行建模。
??引人注目的是，學(xué)習(xí)理論（Vapnik和Chervonenkis于1971年提出）的經(jīng)典結(jié)果告訴我們，只要學(xué)習(xí)機(jī)器（如神經(jīng)網(wǎng)絡(luò)）的大小不隨著訓(xùn)練數(shù)據(jù)數(shù)量的增加而增加，那么ERM的收斂性就是可以得到保證的。其中，學(xué)習(xí)機(jī)器的大小是根據(jù)其參數(shù)數(shù)量，或相關(guān)地，根據(jù)其VC復(fù)雜度（Harvey等人于2017年提出）來衡量的
??這一矛盾挑戰(zhàn)了ERM訓(xùn)練當(dāng)前神經(jīng)網(wǎng)絡(luò)模型的適應(yīng)性，正如在最近的研究中所強(qiáng)調(diào)的那樣。一方面，ERM允許大型神經(jīng)網(wǎng)絡(luò)記憶（而不是從中泛化）訓(xùn)練數(shù)據(jù)，即使是在強(qiáng)正則化，或是標(biāo)簽是隨機(jī)分配的分類問題（Zhang等人于2017年提出）中。另一方面，在對(duì)訓(xùn)練分布之外的樣本（也被稱之為對(duì)抗樣本）進(jìn)行評(píng)估時(shí)，用ERM訓(xùn)練的神經(jīng)網(wǎng)絡(luò)會(huì)徹底地改變其預(yù)測結(jié)果（Szegedy等人于2014年提出）。這一證據(jù)表明，當(dāng)測試分布與訓(xùn)練數(shù)據(jù)略有不同時(shí)，ERM便無法對(duì)其進(jìn)行解釋或?yàn)槠涮峁┓夯?。那么，ERM的替代方案是什么呢？
??選擇在類似但不相同的樣本上進(jìn)行訓(xùn)練以增加到訓(xùn)練數(shù)據(jù)中的方法稱為數(shù)據(jù)增強(qiáng)（data augmentation）（Simard等人于1998年提出），而后由鄰域風(fēng)險(xiǎn)最小化原則（Vicinal Risk Minimization，VRM）形式化（Chapelle等人于2000年提出）。在VRM中，需要用人類知識(shí)來描述訓(xùn)練數(shù)據(jù)中每個(gè)樣本周圍的鄰域區(qū)域。然后，可以從訓(xùn)練樣本的附近分布中提取附加的虛擬樣本，以擴(kuò)大訓(xùn)練分布的支持。例如，當(dāng)進(jìn)行圖像分類時(shí)，通常將一個(gè)圖像的鄰域定義為其水平反射、輕微旋轉(zhuǎn)和輕微縮放的集合。雖然一直以來，數(shù)據(jù)增強(qiáng)都會(huì)促使改進(jìn)泛化能力（Simard等人于1998年提出），但是該過程是依賴于數(shù)據(jù)集的，因此需要使用專家知識(shí)。除此之外，數(shù)據(jù)擴(kuò)充假設(shè)鄰域中的樣本共享相同的類，并且不對(duì)不同類的樣本之間的鄰域關(guān)系進(jìn)行建模。
??貢獻(xiàn)：受到這些問題的啟發(fā)，我們引入了一個(gè)簡單的、并且和數(shù)據(jù)無關(guān)的數(shù)據(jù)擴(kuò)充例程，稱為mixup。簡而言之，mixup能夠構(gòu)建虛擬的訓(xùn)練樣本：

image.png

??其中(xi,yi)和(xj,yj)是從我們的訓(xùn)練數(shù)據(jù)中隨機(jī)抽取的兩個(gè)樣本，且λ∈[0,1]。因此，mixup通過結(jié)合先驗(yàn)知識(shí)，即特征向量的線性插值應(yīng)該導(dǎo)致相關(guān)目標(biāo)的線性插值，來擴(kuò)展訓(xùn)練分布。Mixup在很少的幾行代碼中就可以得以實(shí)施，并且引入了最少的計(jì)算開銷。
??盡管它很簡單，但mixup在CIFAR-10、CIFAR-100和ImageNet-2012圖像分類數(shù)據(jù)集中實(shí)現(xiàn)了當(dāng)前最先進(jìn)的性能。此外，當(dāng)從錯(cuò)誤數(shù)據(jù)中進(jìn)行學(xué)習(xí)，或面對(duì)對(duì)抗樣本時(shí)，mixup能夠增強(qiáng)神經(jīng)網(wǎng)絡(luò)的健壯性。最后，mixup能夠改善在語音和表格數(shù)據(jù)中的泛化能力，并可用于穩(wěn)定GAN的訓(xùn)練過程。相關(guān)實(shí)驗(yàn)的源代碼資源鏈接：https：//coming.soon/mixup。
??我們通過探討與之前工作的聯(lián)系來結(jié)束本文，并且提出一些觀點(diǎn)以供討論。

3.從經(jīng)驗(yàn)風(fēng)險(xiǎn)最小到mixup

??在監(jiān)督學(xué)習(xí)當(dāng)中，我們感興趣的是找到一個(gè)函數(shù)f來描述隨便一個(gè)特征向量X和目標(biāo)向量Y之間的關(guān)系，這種關(guān)系遵循聯(lián)合分布P(X,Y)。為此，我們定義了一個(gè)損失函數(shù)L用來懲罰預(yù)測值f(x)和實(shí)際目標(biāo)值y之間的區(qū)別。然后呢，我們最小化在這個(gè)數(shù)據(jù)分布P上的平均損失，這也就是我們熟知的期望風(fēng)險(xiǎn)：

image.png

?? 不幸的是，這個(gè)分布P在絕大多數(shù)情況下都是未知的。不過呢，我們通常很容易獲取一個(gè)訓(xùn)練數(shù)據(jù)集

image.png

在這里對(duì)于i=1,2,...,n來說，

image.png

。使用這個(gè)訓(xùn)練集，我們能通過經(jīng)驗(yàn)分布獲取到近似的P

image.png

在這里，

image.png

是以(xi,yi)為中心的迪拉克測度。使用經(jīng)驗(yàn)分布

image.png

，我們能夠獲得經(jīng)驗(yàn)風(fēng)險(xiǎn)的近似期望風(fēng)險(xiǎn)：

image.png

通過最小化上面式子而學(xué)習(xí)到的函數(shù)f就是廣為人知的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化理論,Empirical Risk Minimization (ERP)(Vapnik,1998)。雖然計(jì)算效率很高，但是經(jīng)驗(yàn)損失只監(jiān)控了有限的n個(gè)樣本上函數(shù)f的表現(xiàn)。當(dāng)考慮一個(gè)具有與n相當(dāng)數(shù)量參數(shù)的函數(shù)時(shí)(比如大型神經(jīng)網(wǎng)絡(luò))，一個(gè)最簡單的方法就是直接記住這個(gè)訓(xùn)練數(shù)據(jù)。不過，這種記憶反過來使得f在訓(xùn)練集之外的數(shù)據(jù)上表現(xiàn)不夠令人滿意。
??然而，樸素估計(jì)

image.png

是用來近似真實(shí)分布的很多方法的其中一種。比如，在鄰域風(fēng)險(xiǎn)最小化(Vicinal Risk Minimization，VRM)原則中，分布P就是用下式來定義

image.png

這里，v是一個(gè)鄰域分布，用來表示在訓(xùn)練特征-目標(biāo)對(duì)(xi,yi)鄰域上尋找到虛構(gòu)特征-目標(biāo)對(duì)

image.png

的概率。特別地，Chapelle等人考慮高斯鄰域

image.png

，這等價(jià)于通過添加高斯噪聲來增強(qiáng)數(shù)據(jù)。在使用VRM學(xué)習(xí)時(shí)，我們?cè)卩徲蚍植忌喜蓸觼順?gòu)造一個(gè)數(shù)據(jù)集

image.png

，并且最小化經(jīng)驗(yàn)鄰域風(fēng)險(xiǎn)：

image.png

本篇論文的貢獻(xiàn)在于提出了一種通用的鄰域分布，mixup：

image.png

在這里，

image.png

總而言之，從mixup鄰域分布采樣，產(chǎn)生虛擬特征-目標(biāo)向量

image.png

這里，(xi，yi)和(xj,yj)是從訓(xùn)練數(shù)據(jù)中隨機(jī)抽樣的2個(gè)特征-目標(biāo)向量，λ屬于[0,1]。mixup的超參數(shù)α控制著特征-目標(biāo)對(duì)之間插值的強(qiáng)度，當(dāng)α趨于0的時(shí)候mixup模型回歸會(huì)回歸到ERM。
?? mixup的實(shí)現(xiàn)簡單直接，下圖展示了用PyTorch訓(xùn)練時(shí)實(shí)現(xiàn)mixup的幾行必要的代碼。
?? mixup究竟做了什么？mixup鄰域分布可以被理解為一種數(shù)據(jù)增強(qiáng)方式，它令模型在處理樣本和樣本之間的區(qū)域時(shí)表現(xiàn)為線性。我們認(rèn)為，這種線性建模減少了在預(yù)測訓(xùn)練樣本以外的數(shù)據(jù)時(shí)的不適應(yīng)性。從奧卡姆剃刀的原理出發(fā)，線性是一個(gè)很好的歸納偏見，因?yàn)樗亲詈唵蔚目赡艿膸追N行為之一。圖1顯示了mixup導(dǎo)致決策邊界從一個(gè)類到另一個(gè)類線性的轉(zhuǎn)變，提供了一個(gè)更平滑的不確定性估計(jì)。圖2顯示了在CIFAR-10數(shù)據(jù)集上用mixup和ERM兩個(gè)方法訓(xùn)練的兩個(gè)神經(jīng)網(wǎng)絡(luò)模型的平均表現(xiàn)。兩個(gè)模型有相同的結(jié)構(gòu)，使用相同的訓(xùn)練過程，在同一個(gè)從訓(xùn)練數(shù)據(jù)里隨機(jī)抽樣而來的樣本上來評(píng)估。用mixup訓(xùn)練的模型在預(yù)測訓(xùn)練數(shù)據(jù)之間的數(shù)據(jù)時(shí)更穩(wěn)定。

image.png

image.png

4.討論

?? 在此研究中，我們提出了mixup，一個(gè)和數(shù)據(jù)無關(guān)的、簡單的數(shù)據(jù)增強(qiáng)原則。研究結(jié)果表明，mixup是鄰域風(fēng)險(xiǎn)最小化的一種形式，它在虛擬樣本（即構(gòu)建為訓(xùn)練集中的兩個(gè)隨機(jī)樣本及其標(biāo)簽的線性插值）中進(jìn)行訓(xùn)練。將mixup集成到現(xiàn)有的訓(xùn)練管道中僅需要幾行代碼，并且很少或幾乎沒有計(jì)算開銷。在廣泛的評(píng)估中，結(jié)果已經(jīng)表明，mixup改進(jìn)了當(dāng)前最先進(jìn)的模型在ImageNet、CIFAR、語音和表格數(shù)據(jù)集中的泛化誤差。此外，mixup有助于有助于消除對(duì)錯(cuò)誤標(biāo)簽的記憶、對(duì)對(duì)抗樣本的敏感性以及對(duì)抗訓(xùn)練的不穩(wěn)定性。
?? 在我們的實(shí)驗(yàn)中，以下思維趨勢是一致的：隨著α越來越大，實(shí)際數(shù)據(jù)的訓(xùn)練誤差就會(huì)增加，而泛化差距會(huì)縮小。這就支持了我們的假設(shè)，即mixup隱式地控制了模型的復(fù)雜性。然而，我們還沒有一個(gè)很好的理論來理解這種偏差—方差平衡（bias-variance trade-off）的“最佳點(diǎn)”。例如，在CIFAR-10分類中，即使在α → ∞（即僅對(duì)真實(shí)樣本的平均值進(jìn)行訓(xùn)練）的情況下，我們?nèi)匀豢梢栽谡鎸?shí)數(shù)據(jù)中獲得非常低的訓(xùn)練誤差。而在ImageNet分類中，當(dāng)α → ∞時(shí)，真實(shí)數(shù)據(jù)的訓(xùn)練誤差會(huì)顯著增加?？紤]到我們的ImageNet和Google命令實(shí)驗(yàn)是用不同的模型架構(gòu)進(jìn)行的，我們推測，增加模型容量會(huì)降低訓(xùn)練誤差對(duì)較大的α的敏感性，從而給予mixup一個(gè)更大的優(yōu)勢。
??與此同時(shí)，mixup還為進(jìn)行進(jìn)一步探索開辟了幾種可能性。首先，是否有可能讓類似的想法在其他類型的監(jiān)督學(xué)習(xí)問題上發(fā)揮作用，比如回歸和結(jié)構(gòu)化預(yù)測？雖然將mixup泛化到回歸問題是很簡單的，但要將其應(yīng)用到諸如圖像分割這樣的結(jié)構(gòu)化預(yù)測問題上效果就不那么明顯了。第二，類似的方法能否在監(jiān)督學(xué)習(xí)之外的問題上有所幫助？插補(bǔ)原理似乎是一種合理的歸納偏置（inductive bias），即也有可能在無監(jiān)督、半監(jiān)督和強(qiáng)化學(xué)習(xí)中有所幫助。我們是否可以將mixup擴(kuò)展到特征標(biāo)簽外插，以確保遠(yuǎn)離訓(xùn)練數(shù)據(jù)的強(qiáng)大的模型行為？雖然我們對(duì)這些方向的討論仍然是具有推測性的，但我們對(duì)mixup未來所能開辟的可能性抱有極大的期待，并希望我們的觀察結(jié)果將有助于未來的發(fā)展。
參考翻譯：http://blog.csdn.net/cygqjbabx875u/article/details/78421324

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡書系信息發(fā)布平臺(tái)，僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

使用簡書，簡簡單單實(shí)現(xiàn)微信織網(wǎng)
徐老師問我，怎么做一個(gè)網(wǎng)頁目錄，而且能分享到微信里面。這個(gè)在web1.0時(shí)代，幾乎是每個(gè)網(wǎng)站編輯都必備的技能，到了...
mukshow閱讀 453評(píng)論 0贊 4
033-行走的思考-4月2日
早上看書，看到這樣的一句話。提出了“晶體管”這個(gè)名字的貝爾實(shí)驗(yàn)室工程師約翰·羅賓遜·皮爾斯在回顧香農(nóng)提出信息論時(shí)可...
神煩閱讀 330評(píng)論 0贊 0

有人等著你回去的感覺真好
曉曉2219閱讀 178評(píng)論 1贊 1
微信即將推出付費(fèi)訂閱，我們?cè)撊绾蚊鎸?duì)？
最近一段時(shí)間，關(guān)于微信即將推出付費(fèi)訂閱內(nèi)容的消息甚囂塵上，許多人都對(duì)其望眼欲穿，這個(gè)提出很久的構(gòu)想很快就會(huì)落地。然...
公子在野閱讀 8,689評(píng)論 3贊 749

友情鏈接更多精彩內(nèi)容

1贊2贊

贊賞

手機(jī)看全文

荥经县| 中宁县| 通海县| 五大连池市| 壶关县| 乡宁县| 宿松县| 天津市| 马公市| 咸阳市| 绥化市| 寿宁县| 基隆市| 贵州省| 繁昌县| 抚顺县| 清丰县| 平利县| 辉南县| 嘉善县| 河北省| 安达市| 江油市| 元江| 庆城县| 通榆县| 东乡| 墨玉县| 大悟县| 阳高县| 镇江市| 昔阳县| 泾阳县| 怀柔区| 张家口市| 华安县| 武川县| 连州市| 利津县| 定西市| 天峻县|

<tfoot id="e2se4"><input id="e2se4"></input></tfoot>