輕量級網絡之ShuffleNet

原論文——ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices

介紹

目前深度學習網絡已經取得很大的成功，但是模型參數巨大，計算量以GFLOPs計，導致難以應用到手機等嵌入設備中。因此有許多學者研究如何在適當的MFLOPs下取得好的效果，大致有幾個方向：剪枝（pruning），量化（quantization，低維表達）,蒸餾（distill）和網絡結構的優(yōu)化，而shufflenet旨在優(yōu)化網絡基礎結構。
論文提出了一種新的輕量級網絡架構ShuffleNet，包括了兩個新的操作operations: pointwise group convolution and channel shuffle，減少計算的同時保持好的準確率。

方法

在講shufflenet前先回顧下深度可分離卷積和分組卷積：

Depthwise Separable Convolution (Preliminary)

深度可分離卷積由MobileNet提出，主要用于降低傳統(tǒng)卷積的計算復雜度。如下圖，(a)為標準卷積操作，(a) (c) 為深度可分離卷積，它將標準卷積分為了兩步：
(1) Depthwise Convolution, 用跟輸入的channel一樣大小的M個卷積核，分別于輸入的map對應的channel進行卷積操作；
(2) Pointwise Convolution，標準的1×1卷積，做通道融合變換。

Group Convolution (Preliminary)

論文中提到的分組卷積有ResNeXt和Xception，這里就不列出來了，本質就是將channel通道分組，分別做卷積，以減少計算復雜度（后面會涉及）。

Channel Shuffle for Group Convolution

如下圖，(a)是分組卷積，分為三組，然后分別卷積。這里就會出現一個問題，每個組之間是獨立的，沒有信息交流，傳遞的，因此，基于此問題論文提出了channel shuffle的操作，將組之間的特征進行交換(shuffle)，使得每個組包含了其他組的特征，如圖(b)和(c)所示。

實現：假設一個g個group的卷積層輸出為g x n個channels, 首先reshape為大小(g, n)，然后轉置為(n, g)，最后reshape為gn維。這樣每個組的n channels里就會有其他組的特征。這種實現非常簡單，可適用于不同channel大小，并且是可導的。

ShuffleNet Unit

圖(a)是resnet的bottleneck block，其中3x3卷積被替換為depthwise conv (DWConv)；(b) 1x1卷積替換為group conv(GConv), 加channel shuffle；(c) 為下采樣時采用的結構。
復雜度：c × h × w, bottleneck channel 為m的Resnet Block, 復雜度為 $hw(2cm + 9m^2)$ . shufflenet為 $hw(2cm/g + 9m)$ FLOPs，可見很大地減少了計算量。