論文地址:https://arxiv.org/abs/2207.01600
論文解讀地址:Transformer去陰影!北交大&SCSU&中國移動提出CRFormer,依靠從非陰影到陰影的單向注意力來去除圖片中的陰影!
模型假設(shè)前提
- 測試需要有原始的圖像,同時有陰影的mask圖像,才能進行陰影去除
- 假設(shè)圖像的陰影區(qū)域和非陰影區(qū)域都是同一和諧場景,也就是圖像背景不會很復雜,這樣可以利用非陰影區(qū)域的像素信息來恢復陰影區(qū)域的像素信息。
主要采用的數(shù)據(jù)集
ISTD、AISTD、SRD和Video Shadow Removal數(shù)據(jù)集
網(wǎng)絡(luò)結(jié)構(gòu)
encoder采用兩個不同的CNN淺層網(wǎng)絡(luò)用于提取淺層信息(因為需要利用非陰影區(qū)域的特征,所以不能太深,不然特征肯定會融合陰影區(qū)域的特征)。一個encoder輸入是原圖,用于提取原圖的特征。一個encoder是原圖和mask圖的concat圖,用于提取mask的信息。
為了減少陰影像素和非陰影像素之間由于更深卷積而產(chǎn)生的干擾,即提取每個區(qū)域內(nèi)的純特征以準確提供感興趣的非陰影區(qū)域特征,頂部編碼器(非陰影路徑)構(gòu)建在僅使用三個卷積的淺子網(wǎng)上,其中包括兩個3×3平均池化卷積,用于對特征映射進行降采樣,以及一個1×1卷積,用于調(diào)整特征映射的維度,以匹配底部編碼器輸出的維度。陰影路徑的底部編碼器是一個更深的編碼器,由幾個卷積和殘差塊組成,其中兩個卷積的步長設(shè)置為2,以對特征圖進行降采樣。
中間層是一個具有區(qū)域感知交叉注意力的Transformer層。(這個后面講)
Transformer層之后是一個解碼器,這個解碼器的輸出是第一次的去陰影圖像.
解碼器的輸出結(jié)合原圖、陰影mask圖像,得到合成圖像:

M是陰影mask,
將

詳細展開其中的區(qū)域感知交叉注意力的Transformer層(如下圖所示)。

主要是右邊的這部分。在這篇文章中,和
是不同的特征圖,但是其維度都是
(如果相同那就是自注意力機制了。)。
KQ點乘的結(jié)果可以理解為Query和key的相關(guān)度。其結(jié)果,大小為
,越大表示兩個像素之間的關(guān)聯(lián)越大。
考慮到我們需要非陰影區(qū)域像素提取特征到陰影區(qū)域的,因此對于結(jié)果引入了
:

1.刪除從陰影區(qū)域到陰影區(qū)域的關(guān)聯(lián)
2.刪除從非陰影區(qū)域到非陰影區(qū)域的關(guān)聯(lián)
3.刪除從陰影區(qū)域到非陰影區(qū)域的相關(guān)度.
這樣就實現(xiàn)了論文中提到的區(qū)域感知交叉注意力.
暫時只能看懂這些,等代碼出來了再去看看實際怎么處理的。