輕量化分割模型-CGNet

摘要

????????現(xiàn)在的sota網(wǎng)絡(luò)有很多的網(wǎng)絡(luò)參數(shù),不適合移動設(shè)備的使用,小內(nèi)存需求的網(wǎng)絡(luò)遵循著分類網(wǎng)絡(luò)的設(shè)計,忽略了語義分割的固有特征,為了解決這個問題,作者提出了一個新穎的輕量化并且高效的語義分割網(wǎng)絡(luò)-CGNet.作者首先提出了上下文指導(dǎo)模塊(CG)block,用來從局部特征和周圍上下文中學(xué)習(xí)聯(lián)合特征.通過全局上下文來進一步提升聯(lián)合特征.基于CG block.作者提出了CGNet,可以從網(wǎng)絡(luò)的各個階段捕捉上下文信息,并專為提高細分精度而量身定制的。


網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計


????????首先,CG塊從局部和周圍上下文中學(xué)習(xí)聯(lián)合特征,因此,CG塊從物體本身和它空間相關(guān)的物體上學(xué)習(xí)特征表示,其中包含了豐富的共現(xiàn)關(guān)系.第二,CG塊采用全局上下文來提升聯(lián)合特征.全局上下文被用來逐通道的調(diào)整聯(lián)合特征的權(quán)重,從而強調(diào)了有用的部分,壓縮沒有用的部分.第三,CG塊在CGNet的所有階段都被用到,所以CGNet可以從空間信息階段到語義信息階段都捕獲上下文信息.現(xiàn)存的分割框架可以分為:1.FCN-shape的設(shè)計,遵循著分類網(wǎng)絡(luò)的設(shè)計規(guī)則,忽視了上下文信息.2.FCN-CM模型,這類模型通過上下文模塊,在編碼器階段后,只從語義階段來捕獲上下文信息.第四,現(xiàn)存的主流分割網(wǎng)絡(luò)都有5次的下采樣,這會導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)了太多的目標(biāo)抽象信息,而丟失掉許多有分辨能力的空間信息,導(dǎo)致分割邊界過度平滑.CGNet只有三次下采樣,這樣有助于保留空間信息.

? ??????CGNet為了減少參數(shù),首先,它遵循了"深且瘦"的設(shè)計來盡可能的減少內(nèi)存需求.CGNet包含了51個網(wǎng)絡(luò)層,三個階段中的通道數(shù)量依次為32,64,128.第二CGNet采用了逐通道卷積來減少計算量.最后,在cityscapes和camvid數(shù)據(jù)集上的實驗證明了CGNet的有效性和高效性,CGNet沒有任何的預(yù)處理和 后處理或者復(fù)雜的上采樣.

CG 模塊


Fig.1 CG模塊

????????圖1展示的是CG模塊,圖中Floc和Fsur分別用來學(xué)習(xí)局部特征和對應(yīng)的周圍的上下文特征,F(xiàn)loc和Fsur的卷積核都是3x3大小的,F(xiàn)loc 是標(biāo)準(zhǔn)的3x3卷積,用于從周圍的八個特征向量中學(xué)習(xí)局部特征,Fsur是空洞卷積,可以有更大的感受野,高效的從周圍學(xué)習(xí)上下文. Fjoi用來將上面的兩個特征進行融合形成聯(lián)合特征,作者將Fjoi設(shè)計為一個concatenation層,后接BN和PRelu.第二步中,Fglo用來提取全局特征圖的上下文信息來改善聯(lián)合特征,同時,F(xiàn)glo受到SENet的啟發(fā),采用逐通道的自注意力模型來提高含有用信息量高的通道的權(quán)重,降低含有用信息量少的通道的權(quán)重。同時,CG block還采用了殘差學(xué)習(xí)的思想,將輸入CG block之前的特征圖添加到后面,以此來幫助學(xué)習(xí)更復(fù)雜的特征,同時改善訓(xùn)練過程中的梯度反向傳播。加入的殘差學(xué)習(xí)有LRL和GRL兩種,如圖2所示。 LRL將輸入和聯(lián)合特征進行相連,GRL是將輸入和全局特征進行相連. 直觀上,GRL具有比LRL更強的功能來促進網(wǎng)絡(luò)中的信息流。


Fig.2 LRL& GRL


Fig.3 CGNet結(jié)構(gòu)圖


Fig.4 CGNet網(wǎng)絡(luò)參數(shù)

????????CGNet的細節(jié)結(jié)構(gòu)如圖4所示,在階段一,作者堆疊了三層標(biāo)準(zhǔn)卷積來獲得原始輸入圖像1/2的分辨率特征圖,在階段2和3,作者堆疊了M和N個CG塊,將特征圖分辨率下采樣到輸入的1/4和1/8.在階段2和3,第一層的輸入是上一階段中第一個block和最后一個block的組合,這樣會很好的將特征進行重用并增強了特征傳播。為了改善CGNet中的信息流,作者采用了輸入注入機制(input injection mechanism),該機制還分別將1/4和1/8降采樣后的輸入圖像送到階段2和階段3。 最后,使用1×1卷積層進行分割預(yù)測.由于CG塊用于階段2和3的所有單元,這意味著CG塊幾乎用于CGNet的所有階段,所以CGNet可以從底部到頂部來聚合上下文信息,從語義階段的深層網(wǎng)絡(luò)到空間層的淺層網(wǎng)絡(luò).此外,為了進一步的減少參數(shù)量,Floc和Fsur采用的是逐通道的卷積,深度可分離卷積后接1x1卷積,但是這樣的設(shè)計不能夠被用在CG塊中,因為CG塊中局部特征和周圍上下文需要保持特征通道的獨立.


實驗結(jié)果

Fsur模塊效果

? ? ? ? 作者采取三種驗證方式,1. CGNet M3N15中不采用Fsur,通過增加通道數(shù)來配置相同數(shù)量的參數(shù).2.Fsur只在網(wǎng)絡(luò)的最后一個塊中使用.3.Fsur在網(wǎng)絡(luò)中的所有模塊中都采用,結(jié)果如圖5(a)所示,從結(jié)果可以看出,Fsur在第二和第三里面準(zhǔn)確率增加了0.8%和5.1%.

Fglo模塊效果

????????作者利用全局上下文來精修聯(lián)合特征,如表三所示,全局上下文捕獲器能夠?qū)?zhǔn)確率從58.9%提高到59.7%,如圖5(b)所示.證明了Fglo的對于CGNet的有效性.

網(wǎng)絡(luò)深度實驗

????如圖5(c)所示,總體上來說,深網(wǎng)絡(luò)的表現(xiàn)要優(yōu)于淺層的網(wǎng)絡(luò),表六中顯示,當(dāng)固定N,隨著M的增長,分割的準(zhǔn)確率并沒有增長,所以將M設(shè)置成3,然后來對比N的設(shè)置,當(dāng)N=21,M=3時,CGNet在cityscapes交叉驗證集上達到了63.5%的準(zhǔn)確率.

殘差學(xué)習(xí)的對比實驗

如圖5(d)所示,相比于LRL,GRL可以將準(zhǔn)確率從57.2%提升到63.5%.一個可能的原因是GRL有更強的能力來存進網(wǎng)絡(luò)中信息的傳遞.

Fig.5?
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容