Deep Residual Learning for Image Recognition(ResNet,殘差網(wǎng)絡(luò))

這篇文章雖然寫的是Image Recognition,但是它提出殘差網(wǎng)絡(luò)的思想在其他任務(wù)中也有很多應(yīng)用,具有廣泛的借鑒意義。

背景

隨著網(wǎng)絡(luò)結(jié)構(gòu)的加深,帶來了兩個問題:一是vanishing/exploding gradient,導(dǎo)致了訓(xùn)練十分難收斂,這類問題能夠通過normalized initialization 和intermediate normalization layers解決;另一個是被稱為degradation的退化現(xiàn)象。對合適的深度模型繼續(xù)增加層數(shù),模型準(zhǔn)確率會下滑(不是overfit造成),training error和test error都會很高,相應(yīng)的現(xiàn)象在CIFAR-10和ImageNet都有出現(xiàn)。


Deep Residual Network

ResNet

作者提出了如上圖所示的殘差網(wǎng)絡(luò)結(jié)構(gòu)。原本經(jīng)過兩個layer的映射可以表示為\mathcal { H } ( \mathbf { x } ),現(xiàn)在令\mathcal { F } ( \mathbf { x } ) : = \mathcal { H } ( \mathbf { x } ) - \mathbf { x }。這樣原來用于訓(xùn)練\mathcal { H } ( \mathbf { x } )的網(wǎng)絡(luò),現(xiàn)在用來訓(xùn)練\mathcal { F } ( \mathbf { x } )。\mathcal { F } ( \mathbf { x } )稱作殘差函數(shù)。這個思路跟「Highway Network」很類似,所不同的是Highway Network里面使用了加權(quán)和。

背景中提到56層網(wǎng)絡(luò)與20層網(wǎng)絡(luò)的對比,可以做如下假設(shè):在20層網(wǎng)絡(luò)模型的基礎(chǔ)上,增加36層的恒等映射層,結(jié)果會與20層的網(wǎng)絡(luò)相等。但是往往很難訓(xùn)練這樣的網(wǎng)絡(luò),因為在接近恒等映射的layer,其梯度都非常小。而對于ResNet來說,因為訓(xùn)練目標(biāo)是殘差函數(shù)\mathcal { F } ( \mathbf { x } ),就很容易捕捉微小的映射波動。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容