閱讀筆記-Less is More: Focus Attention for Efficient DETR

image.png

論文鏈接:http://export.arxiv.org/pdf/2307.12612
代碼鏈接:https://github.com/huawei-noah/noah-research

1.動(dòng)機(jī)

本文主要針對(duì)的是DETR類方法過(guò)高的計(jì)算復(fù)雜度問(wèn)題,具體而言是encoder中所有的位置都作為key帶來(lái)的高計(jì)算代價(jià)。針對(duì)該問(wèn)題,目前已經(jīng)有像sparse detr一類的方法,通過(guò)不同的稀疏策略選擇小部分更具有信息量的token參與計(jì)算,從而降低計(jì)算復(fù)雜度。但作者認(rèn)為這類方法過(guò)于依賴不可靠的模型統(tǒng)計(jì)結(jié)果,且簡(jiǎn)單的減少token的數(shù)目會(huì)很大程度影響檢測(cè)的精度。

這么評(píng)價(jià)sparse detr 是否有失偏頗呢?

sparse detr
Sparse detr的動(dòng)機(jī)是注意到在deformable detr方法中,即使encoder中只有部分token被更新,也不會(huì)導(dǎo)致指標(biāo)出現(xiàn)明顯掉點(diǎn),因此sparse detr選擇在encoder中只更新那些在decoder中更可能被訪問(wèn)到的token,從而降低計(jì)算量。

Sparse detr的結(jié)構(gòu)如下:

image.png

從sparse detr的結(jié)構(gòu)上來(lái)看,scoring network的監(jiān)督gt來(lái)自于decoder輸出,雖然保證了和最終decoder的顯式關(guān)聯(lián),但在訓(xùn)練初期沒(méi)有收斂的情況下確實(shí)會(huì)出現(xiàn)DAM不穩(wěn)定的情況。

2. 方法

針對(duì)于sparse detr scoring network 監(jiān)督不夠穩(wěn)定的問(wèn)題,自然而然的選擇了更直接的gt方式,其結(jié)構(gòu)如下:


image.png

其中top-down score modulation,是利用高語(yǔ)義層提供區(qū)域權(quán)重輔助低語(yǔ)義層更好的區(qū)分前背景。該模塊根據(jù)尺度信息將gt分配給不同層的token監(jiān)督。


image.png

image.png

除此之外,作者還在encoder中額外引入了一個(gè)類別置信度預(yù)測(cè)模塊,其動(dòng)機(jī)是認(rèn)為細(xì)粒度的類別信息能夠進(jìn)一步篩選更強(qiáng)的細(xì)粒度token。(這部分好像沒(méi)有監(jiān)督)

整個(gè)encoder的計(jì)算流程如下, 監(jiān)督loss右圖所示,這里使用了denoising loss,文中沒(méi)有提到這部分,應(yīng)該和dino類似的方式,作用在decoder中。


image.png

image.png

關(guān)于計(jì)算復(fù)雜度分析有點(diǎn)亂,主要結(jié)論就是說(shuō) 細(xì)粒度token增強(qiáng)過(guò)程引入的額外計(jì)算開(kāi)銷微乎其微。

3. 結(jié)果

3.1 訓(xùn)練

  • ImageNet 上預(yù)訓(xùn)練的ResNet-50作為backbone

  • AdamW 優(yōu)化器,backbone 初始學(xué)習(xí)率1e-5, transformer 學(xué)習(xí)率1e-4, wd 1e-4. bs=16

3.2 消融實(shí)驗(yàn)

image.png
  • Foreground token selection過(guò)程,監(jiān)督提升1個(gè)點(diǎn),自頂向下置信度調(diào)制能再增加0.4個(gè)點(diǎn)

  • Cascade 表示encoder layer 送進(jìn)去的fore ground逐層遞減,目的是在開(kāi)始的時(shí)候可以有更大的容錯(cuò)率;

  • 作者認(rèn)為dual attention能引入語(yǔ)義信息?

還對(duì)比了foreground token 的裁剪率的影響,從實(shí)驗(yàn)選擇的參數(shù)來(lái)看,保留的越多整體指標(biāo)越高

image.png

3.3 對(duì)比實(shí)驗(yàn)

image.png
  1. 思考

  • 這一系列其實(shí)還是在強(qiáng)化顯著特征,通過(guò)encoder中不斷更新decoder ref_pts需要訪問(wèn)的區(qū)域,使模型模型更好,在e2e 中因?yàn)閞ef_pts 是由第一階段確定的,其實(shí)可以類似的強(qiáng)化ref_pts 周圍特征的鑒別性。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容