研究問題:
在給定特征圖下,通過通道和空間兩個維度推導(dǎo)出注意力圖,然后將注意力圖乘到輸入的特征圖上以用來自適應(yīng)的細(xì)化輸入的特征。設(shè)計的CBAM是一個輕量的模塊,可以方便的集成在任意的CNN模型中。
相關(guān)信息:
1、VGGNet通過堆積相同的形狀的塊并不會使得結(jié)果變差;ResNet使用了跳躍連接與相同的拓?fù)錃埐顗K構(gòu)建了非常深的網(wǎng)絡(luò);GoogleNet表明增加網(wǎng)絡(luò)的寬度可以改善網(wǎng)絡(luò)的性能;Xception和ResNeXt表明基數(shù)比深度與寬度這兩個因素具有更強(qiáng)的表示能力。
2、注意力機(jī)制不僅可以將注意力集中在感興趣的區(qū)域,還能夠提高感興趣區(qū)域的表現(xiàn)力。論文的目的就在于利用注意力機(jī)制,關(guān)注重要的特征并抑制不重要的特征。
3、卷積操作本質(zhì)是通過跨通道與空間來提取特征,所以論文就分別設(shè)計了通道與空間兩個注意力模塊。
網(wǎng)絡(luò)架構(gòu):
1、

分為兩個子模塊,一個是通道注意力模塊,一個是空間注意力模塊。具體原理如下:
給定一個特征圖,生成的通道注意力圖為
,空間注意力圖為
,對注意力過程總結(jié)如下:

概括來說,就是輸入特征圖依次與通道注意力圖與空間注意力圖作點乘,最終得到更加細(xì)化的特征圖。
2、1)通道注意力模塊:

通道注意力圖主要是由通道之間的關(guān)系得到,過去人們常用平均池化來聚合空間信息,但論文認(rèn)為最大池化或許能捕獲到另外一些重要的特征,所以論文同時使用了平均池化與最大池化。為了降低運算量,首先對特征圖的空間維度進(jìn)行了壓縮,之后并行的兩種池化操作,將結(jié)果輸入到一個多層感知機(jī)中,最后將結(jié)果對應(yīng)元素相加即得到通道注意力圖,公式表示如下:

2)空間注意力模塊

通道注意力關(guān)注的是目標(biāo)是什么,而空間注意力則關(guān)注的是目標(biāo)在哪,二者可以相互補(bǔ)充。論文在通道軸上使用了最大池化與平均池化并將其結(jié)合起來,之后通過一個標(biāo)準(zhǔn)的卷積操作,得到空間注意力圖。其用公式總結(jié)如下:

3、經(jīng)過試驗驗證,模塊插入方式如下:
