【論文筆記】EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

URL:
EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
源碼

TL;DR

谷歌大腦(Google Research, Brain Team)在ICML2019上的一篇工作。
主要是探索如何在深度、寬度、分辨率3個(gè)層面對模型進(jìn)行自動(dòng)縮放。


方法

Model Scaling

本文定義模型縮放包括3個(gè)尺度:寬度(width)指在channel數(shù)目上進(jìn)行修改,深度(depth)指在layer數(shù)目上進(jìn)行修改,分辨率(resolution)指在feature map大小上進(jìn)行修改。組合縮放(compound)則是對上述3個(gè)維度進(jìn)行組合修改。

實(shí)驗(yàn)和經(jīng)驗(yàn)也告訴我們,增加上述3個(gè)維度能帶來acc的提升(但也會(huì)帶來計(jì)算量和參數(shù)量的增加)。但不同的組合策略能帶來不同程度的性能提升。如下圖所示,針對同一baseline,模型增大到同一Flops,不同組合帶來的提升效果差別很大。

組合縮放實(shí)驗(yàn)

這就帶來一個(gè)問題:如何科學(xué)地組合3中不同的縮放形式?
首先定義問題:我們的目標(biāo)是找到acc最高的模型的縮放尺度參數(shù)。公式如下,其中分別是深度、寬度和分辨率的縮放尺度,表示階段,層重復(fù)次。
優(yōu)化目標(biāo)

由于搜參范圍較大,為此,本文引入復(fù)合參數(shù),即首先在小范圍內(nèi)搜索得到,然后由用戶指定的大下即可。
此外,由于depth的增大會(huì)增加倍的flops,但是width和resolution則會(huì)分別增加倍的flops。因此本文約束。實(shí)際上本文搜索得到的參數(shù)分別為。
約束條件

實(shí)驗(yàn)

實(shí)驗(yàn)結(jié)果分別如下:


跟stoa方法的對比:模型大小的影響
跟stoa方法的對比
CAM的結(jié)果
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容