時間終于來到了2020年!今天來讀一讀這一篇還蠻有新意的高分辨率神經(jīng)網(wǎng)絡(luò)。
之前講過的 AlexNet, VGGNet, GoogleNet, ResNet, 他們都和LeNet一樣,不斷地下采樣減小特征圖的尺寸。到最后特征圖像素很低,如果是圖像分類任務(wù),那么問題不大因為目標明顯另外不需要給出位置信息,但是如果是目標檢測,關(guān)鍵點檢測,圖像分割等任務(wù),比如說從一個5*5的特征圖給出300*300圖片中的一個像素坐標,想想就很難。

所以,對于對位置敏感的任務(wù),很多表現(xiàn)好的模型使用了復(fù)原高像素也就是上采樣的方法。 之前也講過的,用于人體姿態(tài)估計的Hourglass就是重復(fù)下采樣上采樣的結(jié)構(gòu),然后還有淺層和深層之間的跳躍連接進行融合。
同樣用于人體姿態(tài)估計的simplebaseline方法沒有使用跳躍連接,用的帶訓(xùn)練參數(shù)的反卷積進行上采樣,其實還有很多例子,都是為了復(fù)原分辨率。
而HRNet使用了一個并行的結(jié)構(gòu)。 一條支路始終保持高分辨率,由于不是從低分辨率復(fù)原來的,所以可能在空間上更精確。

作者一次提出了兩個版本的HRNet, V1只輸出高分辨率的特征,V2則把從低到高的特征都結(jié)合起來。兩者在姿態(tài)估計任務(wù)上表現(xiàn)差不多,V2在圖像分割任務(wù)上表現(xiàn)更好。

然后作者把HRNet套用到經(jīng)典的檢測框架和圖像分割框架中,表現(xiàn)都得到了提升。然后我就覺得吧,肯定又有人做了輕量版的HRNet,一搜果然。
Lite-HRNet
https://github.com/HRNet/Lite-HRNet
先是直接把ShuffleNet套到了HRnet里,結(jié)果對比的其他輕量網(wǎng)絡(luò)得到提升,不過這篇文章的重點是對大量出現(xiàn)的1*1卷積進行了簡化。
那么首先要知道1*1卷積的主要功能,那就是在深度可分離卷積中,起到分組卷積之后通道間的交流作用。
條件通道加權(quán) conditional :
把逐點卷積換成用一張和特征圖同尺寸的權(quán)重圖。

對比之前的逐點卷積,每個單元的是通過對所有特征圖上的對應(yīng)位置元素逐點卷積得到的,而ccw就只用和權(quán)重矩陣對應(yīng)位置的權(quán)重相乘就好了。所以運算量降了很多。

然后回過頭來看HRNet的每個階段的最后一層,不同分辨率的尺寸不一樣,所以對前面的s-1個階段的特征圖上采樣到最高分辨率的尺寸。
adaptive average pooling: 給定輸出需要的尺寸,自動計算步長和kernel size 滿足要求。
