論文閱讀——ResNeSt: Split-Attention Networks

一、摘要

??盡管圖像分類任務(wù)持續(xù)取得進(jìn)步,諸如物體檢測和語義分割等下游應(yīng)用在選擇骨干網(wǎng)絡(luò)時(shí)仍然大量采用resnet及其變體,因?yàn)閞esnet簡單且模塊化的結(jié)構(gòu)。本文提出了一個(gè)模塊化的分離-注意力模塊(split-attention block),實(shí)現(xiàn)在網(wǎng)絡(luò)中對特征圖跨組(feature groups)使用注意力機(jī)制。通過以resnet風(fēng)格對split-attention block進(jìn)行堆疊,我們得到一個(gè)新的resnet變體,稱為ResNeSt。該網(wǎng)絡(luò)可以直接在下游應(yīng)用中即插即用,且不引入額外的計(jì)算成本。

??ResNeSt的性能超過了其他所有計(jì)算量接近的網(wǎng)絡(luò)。以分離任務(wù)為例,該網(wǎng)絡(luò)在224x224的crop size下可達(dá)到81.13的top-1準(zhǔn)確率,比當(dāng)前最好的resnet變體提升了1%。Backbone的提升進(jìn)一步提升了檢測和分割等下游任務(wù)等指標(biāo):僅僅把backbone從ResNet-50替換為ResNeSt-50,就可以將Faster RCNN的在MS-COCO數(shù)據(jù)集上的指標(biāo)從39.3%提升到42.3%,將DeeplabV3在ADE20K數(shù)據(jù)集上的mIoU從42.1%提升到45.1%。

二、介紹

2.1 為什么提出?

答:分類是計(jì)算機(jī)視覺研究領(lǐng)域的基礎(chǔ)任務(wù)。表達(dá)能力更優(yōu)秀的backbone可以提升檢測、分割等多種下游任務(wù)的性能。不過這些任務(wù)在使用backbone時(shí)存在以下問題:

  1. 盡管NAS顯著提升了圖像分類的準(zhǔn)確率,但是NAS-derived model往往并沒有針對訓(xùn)練效率或者通用/消費(fèi)級處理硬件(CPU或GPU)的內(nèi)存使用率上面進(jìn)行優(yōu)化。這使得NAS在其他應(yīng)用上的使用收到限制,尤其是分割等密集預(yù)測的任務(wù)
  2. 多數(shù)下游應(yīng)用目前仍在使用resnet或其變體作為backbone。不過resnet是為分類任務(wù)設(shè)計(jì)的,其他任務(wù)使用時(shí)可能存在sub-optimal的情況:
    • 有限的感受野尺寸
    • lack of cross-channel interaction,未利用上跨通道的信息融合(需要進(jìn)一步理解)
    • 因此不同的視覺任務(wù)往往需要對resnet backbone做針對性的network surgery

因此,能否提出一個(gè)backbone,讓其可以學(xué)習(xí)到豐富的特征表達(dá)進(jìn)而同時(shí)可用于各種下游任務(wù)?作者認(rèn)為這個(gè)backbone實(shí)現(xiàn)的關(guān)鍵在于利用好cross-channel information(相比現(xiàn)有resnet變體以及group/depth-wise based model)


NIN [40] first uses a global average pooling layer to replace the heavy fully connected layers, and adopts 1x1 convolutional layers to learn non-linear combination of the featuremap channels, which is the first kind of featuremap attention mechanism.


三、方法

Key Idea:

  • 將SE-Net和SK-Net中用到的對特征使用跨通道attention的方式進(jìn)一步擴(kuò)展到對特征圖跨group計(jì)算attention,并使用普通CNN操作進(jìn)行模塊化,提出一個(gè)新的split-attention block。


    split-attention
  • 將split-attention block以resnet的方式進(jìn)行堆疊,得到ResNeSt。該網(wǎng)絡(luò)可以直接替換檢測、分割等任務(wù)的backbone并顯著提升指標(biāo)。

Other Idea

  • Auto-Augment is a strategy that augments the training data with transformed images, where the transformations are learned adaptively.

  • 本文使用了很多LiMu論文中的分類網(wǎng)絡(luò)訓(xùn)練技巧:

    • 針對dense prediction任務(wù),在resnet transition block中可以用k=3的average pooling代替strided conv,實(shí)現(xiàn)降采樣
    • ResNet-D的技巧:替換7x7卷積為3x3;shortcut stride=2時(shí)在1x1 conv前加avg pool避免信息丟失
    • Label Smoothing、MixUp、DropBlock等

四、評價(jià)

  1. 本文屬于將Attention機(jī)制用在CNN上的又一大嘗試,在SENet和SKNet基礎(chǔ)上將attention進(jìn)一步推廣到group(cardinality)維度。
  2. 本文進(jìn)一步證明了李沐論文中bag of tricks的有效性。其中一些技巧非常值得借鑒學(xué)習(xí)
  3. Cardinality這個(gè)術(shù)語就是出自本文,后面一些涉及attention的論文將其定義為“一個(gè)卷積層實(shí)現(xiàn)的transform個(gè)數(shù)”,計(jì)算上面等同于group數(shù)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容