論文地址:https://arxiv.org/abs/1904.02216
曠世CVPR2019的論文,對高清圖像分割效果SOTA的同時,還能做到實時,十分驚艷。總體來看其策略是在采用輕量級網(wǎng)絡(luò)的同時,通過“花樣”的特征融合來保證最終分割的效果。
1、網(wǎng)絡(luò)的backbone采用Xception網(wǎng)絡(luò),主要是考慮到網(wǎng)絡(luò)的輕量級,同時在網(wǎng)絡(luò)末尾添加FC層,引入注意力機制;
2、深度特征聚合,特征聚合分為兩種,sub-stage和sub-network ,通過特征復(fù)用提高網(wǎng)絡(luò)性能;
3、decoder部分輕量化,提高網(wǎng)絡(luò)運算速度;
Xception
Xception是在Inception V3的基礎(chǔ)上,引入depthwise convolution,其目的是在相同參數(shù)量的情況下,提高網(wǎng)絡(luò)的性能,由于引入depthwise convolution結(jié)構(gòu),使得該網(wǎng)絡(luò)結(jié)構(gòu)在運行效率上也有一定的優(yōu)勢。目前輕量級幾乎都是depthwise convolution的變體,不知道什么時候會被顛覆。
Xception的depthwise convolution同mobilenet中的最大的不同之處是,1x1卷級核的位置不同,mobilenet中是先進行逐通道卷積運算,再使用1x1卷積進行通道融合,Xception是個相反的操作,如圖
首先進行通道融合,之后再將通道分離,進行卷積,其中1X1后面加了ReLU激活函數(shù),增加非線性。既然同樣是輕量級網(wǎng)絡(luò)為什么選用后者,經(jīng)查閱資料,個人認為Xception的inception結(jié)構(gòu)的基礎(chǔ),使得其在性能上更有優(yōu)勢一些,mobilenet則是更注重速度方面的提升。
該文對xception結(jié)構(gòu)做了修改,最終的結(jié)構(gòu)如下圖
Atention
注意力機制的引入
該文在xception后引入全鏈接來實現(xiàn)注意力機制,
Deep Feature Agragation
深度特征融合分為兩部分,sub-network和sub-stage
sub-network,網(wǎng)路整體由三個backbone組成,每個backbone的結(jié)構(gòu)一致,都是Xception+FC atention,可以看作三個sub-network,在每個network的最后會做一個上采樣,然后將上采樣之后的圖作為下一個網(wǎng)絡(luò)的輸入,由置頂圖可以看出,三個network的通道數(shù)和特征圖大小在遞減,該過程可以看作是一個由corse to fine的過程
sub-stage,指圖中網(wǎng)絡(luò)中間部分由上向下的結(jié)合,即底層結(jié)構(gòu)信息和高層語義信息相結(jié)合,在網(wǎng)路結(jié)構(gòu)較深的情況下,保留結(jié)構(gòu)信息
參考鏈接
https://blog.csdn.net/kevin_zhao_zl/article/details/90200955
https://zhuanlan.zhihu.com/p/32746221
https://blog.csdn.net/baidu_27643275/article/details/90301814