DL-Paper精讀:Sparse Structure Selection

Data-Drive Sparse Structure Selection for Deep Neural Networks

https://openaccess.thecvf.com/content_ECCV_2018/papers/Zehao_Huang_Data-Driven_Sparse_Structure_ECCV_2018_paper.pdf

background

模型壓縮balabala…

related work and the limit

傳統(tǒng)的結(jié)構(gòu)剪枝方法(給出了上古OBD OBS/ Deep compression/ network surgery / 神經(jīng)元類敏感度剪切(16, 24, 29) / CP/ ThinNet /Slimming / Rethinking等),一般需要訓(xùn)練-剪枝等迭代操作,操作繁雜。因此文章提出一種基于稀疏訓(xùn)練的端到端的模型訓(xùn)練裁剪一體化工作(without bells and whistles).

現(xiàn)有的一些稀疏訓(xùn)練的方法,如[25]實現(xiàn)非結(jié)構(gòu)化的權(quán)重稀疏,不利于GPU等硬件的加速部署。[50, 1, 43]等采用了group Lasso的方式來實現(xiàn)結(jié)構(gòu)化的稀疏訓(xùn)練。類似的工作還有Slimming使用subgradient descent 和 Rethinking 使用ISTA的方法來優(yōu)化L1稀疏問題。

還提到了一些目前用于結(jié)構(gòu)搜索的文章[2, 51, 32, 46,43,38]等。。。結(jié)構(gòu)搜索和剪枝不分家。。。

novel points

1、提出了統(tǒng)一的CNN訓(xùn)練和修剪框架。 特別是,通過在CNN的某些結(jié)構(gòu)(神經(jīng)元(或通道),殘差塊,結(jié)構(gòu)塊)上引入比例因子和相應(yīng)的稀疏正則化,將其公式化為聯(lián)合稀疏正則化優(yōu)化問題。

2、我們利用改進(jìn)的隨機(jī)加速近距離梯度(APG)方法通過稀疏正則化共同優(yōu)化CNN的權(quán)重和縮放因子。與以前使用啟發(fā)式方法強(qiáng)制稀疏性的方法相比,該方法無需進(jìn)行微調(diào)和多階段優(yōu)化即可享有更穩(wěn)定的收斂性和更好的結(jié)果

總結(jié)來說:提出了一種端到端的模型訓(xùn)練裁剪方法。首先引入一個縮放因子,來縮放特定結(jié)構(gòu)(neurons,group或者res-block)的輸出;然后對其添加稀疏正則化;并且通過一種改進(jìn)的APG方法解決該優(yōu)化問題;最后將某些值較小的因子強(qiáng)制為0,從而安全地刪除相應(yīng)結(jié)構(gòu)

methodology

不同層面引入可訓(xùn)練比例因子如下圖所示:

對于權(quán)重參數(shù)的稀疏化和網(wǎng)絡(luò)的聯(lián)合優(yōu)化訓(xùn)練是較難實現(xiàn)的,因此本文中將比例因子的位置放置在某個整體塊的輸出之后(如一個channel的輸出,一個操作塊的輸出或res-block的輸出位置),來進(jìn)行g(shù)roup的稀疏化。采用APG方法來求解該問題,并對APG進(jìn)行了優(yōu)化,避免了梯度計算時重復(fù)的前后向計算:

在mx的實現(xiàn)如下(良心。。。):

evaluation(benchmark, experiments design)

由于論文較早,不重點(diǎn)關(guān)注精度高低。實驗設(shè)計上,包括Cifar, ImageNet數(shù)據(jù)集上的驗證,壓縮網(wǎng)絡(luò)包括VGG, ResNet, ResNext,PeleeNet等。與其他SOTA的剪枝方法進(jìn)行了對比,重點(diǎn)還與類似的工作Rethinking進(jìn)行了對比。

Thoughts:

1、 is this problem very meaningful? is the idea interesting and inspired?

端到端其實對于大部分稀疏訓(xùn)練的工程來說都是可以實現(xiàn)的,,,但其他部分都非常強(qiáng)悍。包括不同層級的結(jié)構(gòu)稀疏化設(shè)計,對于APG的優(yōu)化等??

2、 does the paper clearly explained the considerations and implement?

很清晰

3、 what’s the tradeoff?

APG的優(yōu)化計算消耗并不大,實現(xiàn)中引入比例因子比直接使用BN的參數(shù)肯定要復(fù)雜一些,但同時應(yīng)用范圍也更廣。

4、 other consideration.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容