久久久99网站视屏,麻豆精品视频在线

1、motivation

CNN的優(yōu)勢是平移不變、尺度不變、層次感受野；

transformer應用到CV的優(yōu)勢全局的感受野（計算量很大），可實現(xiàn)平移不變，但無法做到尺度不變，猜測這也是DETR對小目標檢測效果不太好的原因。

鑒于以上分析，Swin transformer (Shifted window transformer, 暫且簡稱SWTR)構造了層次結構網(wǎng)絡、window multi-head self-attention，構造新的CV backbone。

SWTR與ViT的對比：

1、ViT是固定的感受野；SWTR構建層次結構，感受野逐層增大。

2、ViT是全局multi-head self-attention (MSA)；SWTR是Windows內(nèi)部的MSA。

2、網(wǎng)絡結構

輸入圖像：[H, W, 3]

2.1 patch partition

將原始圖像切分為4*4的patch，feature dimension變?yōu)?*4*3=48，得到feature size [H/4, W/4, 48]

實際代碼中采用conv2d(kernal_size=4, stride=4)實現(xiàn)

將每個patch看作token，長度為H/4*W/4的patch序列即可作為經(jīng)典transformer的標準輸入

2.2 linear embedding

乘以嵌入矩陣后patch/token序列size變?yōu)?b>[H/4*W/4, C]

2.3 Swin Transformer Block

Swin Transformer Block = Window MSA (W-MSA) + Shift Window MSA (SW-MSA) + LN + MLP + short-cut

整體結構基本和transformer encoder一致，MSA替換為W-MSA和SW-MSA

2.4 Deeper Stage =?patch merging +?Swin Transformer Block

patch merging

作用和CNN的conv2d(stride=2)或pooling(stride=2)一致，完成feature的下采樣，效果如圖。?

3、attention

3.1 Window Partition/Reverse

假設原始的feature size為[H1, W1, C1]

reshape分窗口后size為[H1*W1/(window_size*window_size), window_size, window_size, C1]

reverse即上述過程反向操作。

3.2 window attention

與標準transformer的self attention基本一致，區(qū)別是增加了相對位置編碼B

3.3 shifted window

在均分2*2 window的基礎上增加3*3 shift window，打破固定的感受野，每個block內(nèi)實現(xiàn)感受野的交叉，提升信息交流融合。

但是3*3 shift window的size不一樣大，無法batch并行處理，因此對3*3 shift window進行特征圖位移cyclic shift，位移后3*3變?yōu)?*2大小，然后按照window attetion的計算方式，再執(zhí)行特征圖反向位移reverse cyclic shift，得到shift window attention結果。