這篇文章雖然寫的是Image Recognition,但是它提出殘差網(wǎng)絡(luò)的思想在其他任務(wù)中也有很多應(yīng)用,具有廣泛的借鑒意義。
背景
隨著網(wǎng)絡(luò)結(jié)構(gòu)的加深,帶來了兩個問題:一是vanishing/exploding gradient,導(dǎo)致了訓(xùn)練十分難收斂,這類問題能夠通過normalized initialization 和intermediate normalization layers解決;另一個是被稱為degradation的退化現(xiàn)象。對合適的深度模型繼續(xù)增加層數(shù),模型準(zhǔn)確率會下滑(不是overfit造成),training error和test error都會很高,相應(yīng)的現(xiàn)象在CIFAR-10和ImageNet都有出現(xiàn)。

Deep Residual Network

作者提出了如上圖所示的殘差網(wǎng)絡(luò)結(jié)構(gòu)。原本經(jīng)過兩個layer的映射可以表示為,現(xiàn)在令
。這樣原來用于訓(xùn)練
的網(wǎng)絡(luò),現(xiàn)在用來訓(xùn)練
。
稱作殘差函數(shù)。這個思路跟「Highway Network」很類似,所不同的是Highway Network里面使用了加權(quán)和。
背景中提到56層網(wǎng)絡(luò)與20層網(wǎng)絡(luò)的對比,可以做如下假設(shè):在20層網(wǎng)絡(luò)模型的基礎(chǔ)上,增加36層的恒等映射層,結(jié)果會與20層的網(wǎng)絡(luò)相等。但是往往很難訓(xùn)練這樣的網(wǎng)絡(luò),因為在接近恒等映射的layer,其梯度都非常小。而對于ResNet來說,因為訓(xùn)練目標(biāo)是殘差函數(shù),就很容易捕捉微小的映射波動。