論文解讀地址：Transformer去陰影！北交大&SCSU&中國移動提出CRFormer，依靠從非陰影到陰影的單向注意力來去除圖片中的陰影！

模型假設(shè)前提

測試需要有原始的圖像，同時有陰影的mask圖像，才能進行陰影去除
假設(shè)圖像的陰影區(qū)域和非陰影區(qū)域都是同一和諧場景，也就是圖像背景不會很復雜，這樣可以利用非陰影區(qū)域的像素信息來恢復陰影區(qū)域的像素信息。

主要采用的數(shù)據(jù)集

ISTD、AISTD、SRD和Video Shadow Removal數(shù)據(jù)集

網(wǎng)絡(luò)結(jié)構(gòu)

encoder采用兩個不同的CNN淺層網(wǎng)絡(luò)用于提取淺層信息（因為需要利用非陰影區(qū)域的特征，所以不能太深，不然特征肯定會融合陰影區(qū)域的特征）。一個encoder輸入是原圖，用于提取原圖的特征。一個encoder是原圖和mask圖的concat圖，用于提取mask的信息。
為了減少陰影像素和非陰影像素之間由于更深卷積而產(chǎn)生的干擾，即提取每個區(qū)域內(nèi)的純特征以準確提供感興趣的非陰影區(qū)域特征，頂部編碼器（非陰影路徑）構(gòu)建在僅使用三個卷積的淺子網(wǎng)上，其中包括兩個3×3平均池化卷積，用于對特征映射進行降采樣，以及一個1×1卷積，用于調(diào)整特征映射的維度，以匹配底部編碼器輸出的維度。陰影路徑的底部編碼器是一個更深的編碼器，由幾個卷積和殘差塊組成，其中兩個卷積的步長設(shè)置為2，以對特征圖進行降采樣。

中間層是一個具有區(qū)域感知交叉注意力的Transformer層。(這個后面講）

Transformer層之后是一個解碼器，這個解碼器的輸出是第一次的去陰影圖像.
解碼器的輸出結(jié)合原圖、陰影mask圖像，得到合成圖像：

image.png

M是陰影mask，

\hat{a}

表示解碼器輸出，

I^S

表示原圖。所以這個公式的含義是，對于陰影部分采用decoder的預測像素，對于非陰影部分采用原圖像素。
將

I_C

和

M

作為模型輸入，采用一個U形網(wǎng)絡(luò)作為豬肝，最終得到去除陰影效果的圖像

I_r

。

image.png

詳細展開其中的區(qū)域感知交叉注意力的Transformer層（如下圖所示）。

image.png

主要是右邊的這部分。在這篇文章中， $F_q$ 和 $F_(kv)$ 是不同的特征圖，但是其維度都是 $HW\times C$ （如果相同那就是自注意力機制了。）。
KQ點乘的結(jié)果可以理解為Query和key的相關(guān)度。其結(jié)果 $S_a$ ，大小為 $H\times W$ ，越大表示兩個像素之間的關(guān)聯(lián)越大。
考慮到我們需要非陰影區(qū)域像素提取特征到陰影區(qū)域的，因此對于 $S_a$ 結(jié)果引入了 $M^S$ :