多支路輕量化分割模型-BiSeNet

摘要

????????本文是兩支路輕量化分割網(wǎng)絡(luò)模型,作者分別設(shè)計了空間路徑(Spatial Path)和上下文路徑(Context Path)??臻g路徑(SP)設(shè)計了一個小步長的空間路徑來保留空間信息并產(chǎn)生高分辨率的特征,同時,作者設(shè)計了一個快速下采樣的上下文路徑(CP)來獲取充分的感受野。在兩個路徑的頂部,作者設(shè)計了一個特征融合模塊(FFM)來高效的組合特征。


內(nèi)容介紹

????????作者總結(jié)在此之前加速模型的三種方法:1.[34,39]嘗試限制輸入圖像的大小來減少計算的復(fù)雜度,盡管這種方法簡單而且有效,但是這會丟失空間細節(jié)信息特別是邊界信息,導(dǎo)致準(zhǔn)確率的下降;2.采用剪枝通道的方式來提高前向推理速度,特別是在基礎(chǔ)模型的早期階段,但是這會削弱空間信息;3.像是ENet,主張放棄模型的最后階段,以追求一個非常緊湊的模型框架。但是,這樣做的缺點也是顯而易見的:ENet放棄了模型最后階段的下采樣操作,導(dǎo)致模型的感受野不餓能夠包含大的物體,導(dǎo)致了模型的判別能力差。總結(jié)上述的三種方法,都是以犧牲精度來換取速度。

????????為了彌補空間細節(jié)的丟失,很多研究者都采用U形狀的結(jié)構(gòu)來將backbone的高階特征與上采樣的特征進行融合,然而這會造成兩個劣勢:1.由于對于高階特征圖的融合帶來的計算量較大,會降低模型的速度;2.由剪枝胡總和剪裁造成的空間信息的丟失很難輕易的經(jīng)過淺層特征的融合進行恢復(fù)。所以說U形狀的融合技術(shù)只能是一個緩解,而不是一個根本的方法。

????????對于SP,作者只采用了三層卷積來獲取1/8大小的特征圖,來保留充足的空間細節(jié).對于CP,作者在Xception(作為backbone)添加了一個全局平均池化層,其感受野是backbone網(wǎng)絡(luò)的最大值。

網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計


Fig.1 BiseNet網(wǎng)絡(luò)結(jié)構(gòu)

空間路徑

????????由于空間信息和感受野的大小對于高精度的分割來說十分重要,但是要滿足這些,對于網(wǎng)絡(luò)的推理速度帶來了損害.作者根據(jù)這些,設(shè)計出了空間路徑,來保留原輸入圖像的大小,同時編碼了充足的空間信息.SP包含了三個卷積層,每個卷積層步長為2,后接bn和Relu.因此SP輸出尺寸的大小是輸入圖像的1/8.因為輸出圖像的尺寸大,因此SP編碼了充足的空間信息。

上下文路徑

????????CP的設(shè)計是為了提供充足的感受野,在語義分割中,感受野對于網(wǎng)絡(luò)的精度有很重要的意義,為了增大感受野,一些方法采用了金字塔池化,擴張空間金字塔池化和"Large kernel"的策略,但是這些方法都需要大量的計算和內(nèi)存消耗,導(dǎo)致網(wǎng)絡(luò)推理速度慢.為了保證大的感受野的同時保證高效的計算,作者設(shè)計了CP,CP使用的是輕量化的模型和全局平均池化來提供大的感受野.在本文中,輕量化的模型,例如Xception可以快速的下采樣來獲取較大的感受野,并編碼了高階的語義上下文信息,我們之后在輕量化模型的尾巴上添加了一個全局池化層,以最大的感受野來提供全局上下文信息,最后,作者將全局池化后的特征圖進行上采樣并將其與輕量化模型的輸出進行組合,在輕量化的模型中,作者采用了不完整的U-shape結(jié)構(gòu)來組合最后兩個階段的特征,圖如1中的(c)所示.arm的結(jié)構(gòu)攻來精修每個階段的特征,如圖1中的(b)所示,arm采用全局平均池化來捕獲全局上下文信息,并計算一個注意力向量來指導(dǎo)特征的學(xué)習(xí),這個設(shè)計可以精修CP的每個階段中的輸出特征.它無需任何上采樣操作即可輕松集成全局上下文信息,因此計算量也可以忽略.

網(wǎng)絡(luò)結(jié)構(gòu)

????????BiseNet采用預(yù)訓(xùn)練的Xception作為CP的backbone,采用三個卷積層作為SP.最終將兩個支路的特征進行融合來產(chǎn)生最終的預(yù)測.首先,作者將注意力放到了實際的計算方面,盡管sp有大的空間尺寸,但是它只有三個卷積層,因此計算量不會太大,對于CP,作者使用輕量化的模型來快速的下采樣,此外,這兩個路徑同時進行計算,這極大地提高了效率.第二,作何討論了網(wǎng)絡(luò)的精度方面,SP編碼了豐富的空間信息,CP提供了大的感受野,它們彼此互補以實現(xiàn)更高的性能。

FFM:在特征的表達方面,兩個支路的特征是不同的,因此,不能簡單的將兩個支路的特征進行相加.SP編碼了大多數(shù)的豐富的空間信息,CP則主要編碼了上下文信息.換句話說,SP的輸出特征是底層的空間特征,而CP輸出的是高層的語義特征.因此使用FFM來融合特征.給定不同級別的特征,我們首先將空間路徑和上下文路徑的輸出特征進行cancatenate起來。 然后,我們利用批量歸一化[15]來平衡特征的尺度。 接下來,我們將級聯(lián)特征池化為一個特征向量,并計算權(quán)重向量,如SENet [13]。 該權(quán)重向量可以對特征進行加權(quán),這相當(dāng)于特征選擇和組合。 圖1(c)顯示了該設(shè)計的細節(jié)。


實驗對比


Fig.2

空間路徑的作用:SP包括了三個步長為2的卷積,后接BN和Relu激活函數(shù),SPp將準(zhǔn)確率從66.01%提升到了67.42%,如圖2所示,SP編碼了豐富的空間信息細節(jié)。
ARM模塊的作用:為了更好的提升性能,作何設(shè)計了arm模塊,它包含了全局平均池化來將輸出特征編碼為一個向量.之后作者用一個卷積+bn+Relu的單元來計算這個注意力向量.最初的特征會被這個注意力向量重新調(diào)整權(quán)重.對于最初的特征,可以很輕松在不經(jīng)過復(fù)雜上采樣操作的前提下的捕獲全局上下文信息.ARM的效果如圖2所示.

FFM作用:?在CP和Sp的基礎(chǔ)之上,作者要融合兩個支路的特征,考慮到CP的語義特征和SP的空間特征,作者采用FFM來高效的組合兩個特征.作者直接將兩個特征進行相加,來和后面的FFM模塊進行對比,如圖2所示。

全局平均池化作用:盡管Xception39模型的感受野理論上可以包含絕大多數(shù)的輸入圖像,但是作者仍然提供了全局平均池化來擴大感受野.這可以確保有效的感受野足夠大,本文作者在Xception39后面接全局平均池化,并將全局平均池化后的結(jié)果上采樣和Xception39最后階段的輸出進行加和.結(jié)果由67.42%升到了68.42%,如圖2所示。


精度速度對比


Fig.3


Fig.4

圖3所示的是BiseNet網(wǎng)絡(luò)與其他網(wǎng)絡(luò)在速度上的對比。圖4所示的是BiseNet網(wǎng)絡(luò)與其他網(wǎng)絡(luò)在精度上的對比。

給出一個代碼的講解鏈接:

http://mp.weixin.qq.com/s?__biz=MzIzNjc0MTMwMA==&mid=2247494220&idx=1&sn=824d12b1856a72dc8a2f4cdc1aea6d29&chksm=e8d19d97dfa61481d67fe78fe344bd03a2eb276efa4bf9a17941d3176cfe887882b3d655ce63&scene=0&xtrack=1#rd

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容