CBAM: Convolutional Block Attention Module


更多注意力機(jī)制相關(guān)文章,請(qǐng)看這篇論文總結(jié)RAM: Residual Attention Module for Single Image Super-Resolution

概述

  1. 為了提升CNNs(卷積神經(jīng)網(wǎng)絡(luò))效果,一些研究者嘗試從三個(gè)方面著手:depth、width、cardinality,各自典型代表:
  • depth:VGGNet、ResNet
  • width:GoogLeNet
  • cardinality:Xception、ResNeXt
  1. 作者嘗試從另一個(gè)角度出發(fā)—attention,attention適用于很多計(jì)算機(jī)視覺(jué)任務(wù),例如圖片分類(lèi)、語(yǔ)義分割、邊緣檢測(cè)、姿態(tài)估計(jì)等。Attention可分為兩類(lèi):基于通道(channel)和基于空間(spatial),前者關(guān)注更重要的特征(每個(gè)通道都是一種特征),后者留意在哪個(gè)位置關(guān)注,即作者所說(shuō)的learn ‘what’ and ‘where’。
  2. 作者組合這兩類(lèi)attention,提出 Convolutional Block Attention Module(CBAM)。基于主干網(wǎng)絡(luò)ResNet18、ResNet34、ResNet101、WideResNet18、ResNeXt50、ResNeXt101、MobileNet、VGG16,在數(shù)據(jù)集ImageNet-1K上測(cè)試圖片分類(lèi),在數(shù)據(jù)集 MS COCOVOC 2007上測(cè)試物體檢測(cè)。驗(yàn)證了CBAM不僅通用性強(qiáng),而且在不明顯增加參數(shù)量的情況下,能提升網(wǎng)絡(luò)效果。

CBAM結(jié)構(gòu)


在給定輸入特征F的情況下,CBAM模塊先學(xué)到1維的通道注意力圖(Channel Attention map)—Mc,再學(xué)到2維的空間注意力圖(Spatial Attention map)—Ms,這個(gè)attention過(guò)程可用如下公式表達(dá):

其中,

  • 通道注意力模塊(Channel attention module)
    該模塊先利用全局平均池化(global average-pooling)全局最大值池化(global max-pooling)操作同時(shí)抽取通道上的特征;然后通過(guò)共享一個(gè)多層感知機(jī)(multi-layer perceptron)進(jìn)一步得到通道上的特征;最終這兩種特征點(diǎn)加(element-wise summation),并使用sigmoid激活后得到Channel Attention map。公式表達(dá)為:
  • 空間注意力模塊(Spatial attention module)
    該模塊同時(shí)在通道維度上取平均值和最大值,得到兩個(gè)二維空間特征;之后concatenate一起,經(jīng)過(guò)卷積得到最終的Spatial Attention map。公式表達(dá)為:

    這里的7x7代表卷積核大小。
  • 如何組合通道和空間注意力模塊?
    后續(xù)實(shí)驗(yàn)證明:串聯(lián)比并聯(lián)效果好,通道模塊接空間模塊效果好

實(shí)驗(yàn)

  1. Ablation studies
    數(shù)據(jù)集:ImageNet-1K
    Baseline:ResNet50
    在現(xiàn)有ResNet結(jié)構(gòu)中,CBAM可以添加到每個(gè)block的輸出特征之后:

    作者針對(duì) Channel attention、Spatial attention以及二者如何組合做了各個(gè)實(shí)驗(yàn):
  • Channel attention



    該實(shí)驗(yàn)結(jié)果中發(fā)現(xiàn)綜合AvgPool和MaxPool效果比單一使用其中之一要好。

  • Spatial attention


    image.png

    該實(shí)驗(yàn)結(jié)果中發(fā)現(xiàn)綜合Avg和Max,并使用7x7卷積核效果最好。

  • 二者如何組合



    該實(shí)驗(yàn)結(jié)果表明:串聯(lián)比并聯(lián)效果要好;先通道注意力后空間注意力效果要更好。

  1. Image Classification on ImageNet-1K
  • 該實(shí)驗(yàn)基于主干網(wǎng)絡(luò):ResNet、WideResNet、ResNext,驗(yàn)證了CBAM的有效性,而且參數(shù)量和計(jì)算量提升不明顯:


  • 作者同時(shí)也對(duì)不同主干網(wǎng)絡(luò)的最后一層輸出特征做了可視化,并給出目標(biāo)分類(lèi)的softmax值(P):

    發(fā)現(xiàn)添加CBAM之后,網(wǎng)絡(luò)能更加關(guān)注到目標(biāo)分類(lèi)的區(qū)域??梢暬椒▉?lái)自:
    Selvaraju, R.R., Cogswell, M., Das, A., Vedantam, R., Parikh, D., Batra, D.: Grad- cam: Visual explanations from deep networks via gradient-based localization. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. (2017) 618–626
  1. Object Detection
  • MS COCO
    目標(biāo)檢測(cè)采取方法Faster-RCNN,主干為帶預(yù)訓(xùn)練權(quán)重的 ResNet50和ResNet101:



    實(shí)驗(yàn)證明:添加CBAM模塊后,不同主干網(wǎng)絡(luò)的效果都有提升。

  • VOC 2007
    目標(biāo)檢測(cè)采取方法StairNet,它又基于SSD,主干網(wǎng)絡(luò)有VGG16和MobileNet:



    實(shí)驗(yàn)證明:添加CBAM模塊后,不同主干網(wǎng)絡(luò)的效果都有提升,即使在輕量級(jí)網(wǎng)絡(luò)MobileNet下也有提升。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容