image.png

論文鏈接：http://export.arxiv.org/pdf/2307.12612
代碼鏈接：https://github.com/huawei-noah/noah-research

1.動(dòng)機(jī)

本文主要針對(duì)的是DETR類方法過(guò)高的計(jì)算復(fù)雜度問(wèn)題，具體而言是encoder中所有的位置都作為key帶來(lái)的高計(jì)算代價(jià)。針對(duì)該問(wèn)題，目前已經(jīng)有像sparse detr一類的方法，通過(guò)不同的稀疏策略選擇小部分更具有信息量的token參與計(jì)算，從而降低計(jì)算復(fù)雜度。但作者認(rèn)為這類方法過(guò)于依賴不可靠的模型統(tǒng)計(jì)結(jié)果，且簡(jiǎn)單的減少token的數(shù)目會(huì)很大程度影響檢測(cè)的精度。

這么評(píng)價(jià)sparse detr 是否有失偏頗呢？

sparse detr
Sparse detr的動(dòng)機(jī)是注意到在deformable detr方法中，即使encoder中只有部分token被更新，也不會(huì)導(dǎo)致指標(biāo)出現(xiàn)明顯掉點(diǎn)，因此sparse detr選擇在encoder中只更新那些在decoder中更可能被訪問(wèn)到的token，從而降低計(jì)算量。

Sparse detr的結(jié)構(gòu)如下：

image.png

從sparse detr的結(jié)構(gòu)上來(lái)看，scoring network的監(jiān)督gt來(lái)自于decoder輸出，雖然保證了和最終decoder的顯式關(guān)聯(lián)，但在訓(xùn)練初期沒(méi)有收斂的情況下確實(shí)會(huì)出現(xiàn)DAM不穩(wěn)定的情況。

2. 方法

針對(duì)于sparse detr scoring network 監(jiān)督不夠穩(wěn)定的問(wèn)題，自然而然的選擇了更直接的gt方式，其結(jié)構(gòu)如下：

image.png

其中top-down score modulation，是利用高語(yǔ)義層提供區(qū)域權(quán)重輔助低語(yǔ)義層更好的區(qū)分前背景。該模塊根據(jù)尺度信息將gt分配給不同層的token監(jiān)督。

image.png

除此之外，作者還在encoder中額外引入了一個(gè)類別置信度預(yù)測(cè)模塊，其動(dòng)機(jī)是認(rèn)為細(xì)粒度的類別信息能夠進(jìn)一步篩選更強(qiáng)的細(xì)粒度token。(這部分好像沒(méi)有監(jiān)督)

整個(gè)encoder的計(jì)算流程如下, 監(jiān)督loss右圖所示，這里使用了denoising loss，文中沒(méi)有提到這部分，應(yīng)該和dino類似的方式，作用在decoder中。

image.png

關(guān)于計(jì)算復(fù)雜度分析有點(diǎn)亂，主要結(jié)論就是說(shuō) 細(xì)粒度token增強(qiáng)過(guò)程引入的額外計(jì)算開(kāi)銷微乎其微。

3. 結(jié)果

3.1 訓(xùn)練

ImageNet 上預(yù)訓(xùn)練的ResNet-50作為backbone
AdamW 優(yōu)化器，backbone 初始學(xué)習(xí)率1e-5, transformer 學(xué)習(xí)率1e-4， wd 1e-4. bs=16

3.2 消融實(shí)驗(yàn)

image.png

Foreground token selection過(guò)程，監(jiān)督提升1個(gè)點(diǎn)，自頂向下置信度調(diào)制能再增加0.4個(gè)點(diǎn)
Cascade 表示encoder layer 送進(jìn)去的fore ground逐層遞減，目的是在開(kāi)始的時(shí)候可以有更大的容錯(cuò)率；
作者認(rèn)為dual attention能引入語(yǔ)義信息？

還對(duì)比了foreground token 的裁剪率的影響，從實(shí)驗(yàn)選擇的參數(shù)來(lái)看，保留的越多整體指標(biāo)越高

image.png

3.3 對(duì)比實(shí)驗(yàn)

image.png

思考

這一系列其實(shí)還是在強(qiáng)化顯著特征，通過(guò)encoder中不斷更新decoder ref_pts需要訪問(wèn)的區(qū)域，使模型模型更好，在e2e 中因?yàn)閞ef_pts 是由第一階段確定的，其實(shí)可以類似的強(qiáng)化ref_pts 周圍特征的鑒別性。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

閱讀筆記-Less is More: Focus Attention for Efficient DETR

閱讀筆記-Less is More: Focus Attention for Efficient DETR

1.動(dòng)機(jī)

2. 方法

3. 結(jié)果

3.1 訓(xùn)練

3.2 消融實(shí)驗(yàn)

3.3 對(duì)比實(shí)驗(yàn)

思考

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

閱讀筆記-Less is More: Focus Attention for Efficient DETR

1.動(dòng)機(jī)

2. 方法

3. 結(jié)果

3.1 訓(xùn)練

3.2 消融實(shí)驗(yàn)

3.3 對(duì)比實(shí)驗(yàn)

思考

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av