URL:
EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
源碼
TL;DR
谷歌大腦(Google Research, Brain Team)在ICML2019上的一篇工作。
主要是探索如何在深度、寬度、分辨率3個(gè)層面對模型進(jìn)行自動(dòng)縮放。
方法

Model Scaling
本文定義模型縮放包括3個(gè)尺度:寬度(width)指在channel數(shù)目上進(jìn)行修改,深度(depth)指在layer數(shù)目上進(jìn)行修改,分辨率(resolution)指在feature map大小上進(jìn)行修改。組合縮放(compound)則是對上述3個(gè)維度進(jìn)行組合修改。
實(shí)驗(yàn)和經(jīng)驗(yàn)也告訴我們,增加上述3個(gè)維度能帶來acc的提升(但也會(huì)帶來計(jì)算量和參數(shù)量的增加)。但不同的組合策略能帶來不同程度的性能提升。如下圖所示,針對同一baseline,模型增大到同一Flops,不同組合帶來的提升效果差別很大。

組合縮放實(shí)驗(yàn)
這就帶來一個(gè)問題:如何科學(xué)地組合3中不同的縮放形式?
首先定義問題:我們的目標(biāo)是找到acc最高的模型的縮放尺度參數(shù)。公式如下,其中分別是深度、寬度和分辨率的縮放尺度,表示階段,層重復(fù)次。

優(yōu)化目標(biāo)
由于搜參范圍較大,為此,本文引入復(fù)合參數(shù),即首先在小范圍內(nèi)搜索得到,然后由用戶指定的大下即可。
此外,由于depth的增大會(huì)增加倍的flops,但是width和resolution則會(huì)分別增加倍的flops。因此本文約束。實(shí)際上本文搜索得到的參數(shù)分別為。

約束條件
實(shí)驗(yàn)
實(shí)驗(yàn)結(jié)果分別如下:

跟stoa方法的對比:模型大小的影響

跟stoa方法的對比

CAM的結(jié)果