對Inception系列的三篇論文,5個模型進(jìn)行一個淺顯的總結(jié)對比。來看看系列之首的第一個參考文獻(xiàn)——we need to go deeper, 這在這個系列中有兩個意思,從直接意義上,GoogLeNet有22層參數(shù)層,從另一個維度上,Inception使用了分組卷積對模型進(jìn)行加寬,用不同尺寸的核分路進(jìn)行卷積后拼接起來,這也是Inception系列最大的特色。

2014 Inception-v1:多支路卷積

而整個模型就是通過對這樣的基礎(chǔ)模塊進(jìn)行堆疊得到的,這一點和VGG類似。和其他深度神經(jīng)網(wǎng)絡(luò)一樣GoogLeNet面臨著梯度消亡問題,批量正則化是在V2才被引入的,V1最終的結(jié)果由最終的分類器和兩個輔助分類器的結(jié)果加權(quán)求和得到,在原論文中賦予給了每個輔助分類器0.3的權(quán)重.
Inception模塊優(yōu)化時間/空間復(fù)雜度:https://zhuanlan.zhihu.com/p/31575074
2015 Inception-v2,v3:
Rethinking the Inception Architecture for Computer Vision:
分享了四項基本的設(shè)計原則:
- 避免representational bottlenecks ,尤其是在淺層。
- 非線性可以加速訓(xùn)練,因為高維的表征更容易被處理。
- 在空間整合(卷積?)之前降維不會影像表現(xiàn)。
- 平衡寬度和深度。
引入Batch Normalization(BN)技術(shù),兩個分解 減少參數(shù)量:
- 把大卷積核分解為連續(xù)的小卷積
- 把對稱的卷積核分解為不對稱的卷積,但是這不宜在淺層使用,作者在實踐中發(fā)現(xiàn)特征圖尺寸在12和20之間時,不對稱分解的表現(xiàn)很好


分解的目的是在提升表現(xiàn)的同時盡量降低計算量,V2對比V1加深到了42層,但是計算成本只提升為2.5倍。
V3:
對比V2應(yīng)用了這幾個改進(jìn):
RMSProp 是一種優(yōu)化算法
Label Smoothing 正則化方法
V2對根莖部分的第一個7*7卷積層進(jìn)行分解,
在輔助分類器中使用了批量正則化,
2016 Inception-v4, Inception-ResNet:
Inception-v4:
Inception-ResNet:



