陰影去除模型CRFormer-學習筆記

論文地址:https://arxiv.org/abs/2207.01600

論文解讀地址:Transformer去陰影!北交大&SCSU&中國移動提出CRFormer,依靠從非陰影到陰影的單向注意力來去除圖片中的陰影!

模型假設(shè)前提

  1. 測試需要有原始的圖像,同時有陰影的mask圖像,才能進行陰影去除
  2. 假設(shè)圖像的陰影區(qū)域和非陰影區(qū)域都是同一和諧場景,也就是圖像背景不會很復雜,這樣可以利用非陰影區(qū)域的像素信息來恢復陰影區(qū)域的像素信息。

主要采用的數(shù)據(jù)集

ISTD、AISTD、SRD和Video Shadow Removal數(shù)據(jù)集

網(wǎng)絡(luò)結(jié)構(gòu)

encoder采用兩個不同的CNN淺層網(wǎng)絡(luò)用于提取淺層信息(因為需要利用非陰影區(qū)域的特征,所以不能太深,不然特征肯定會融合陰影區(qū)域的特征)。一個encoder輸入是原圖,用于提取原圖的特征。一個encoder是原圖和mask圖的concat圖,用于提取mask的信息。
為了減少陰影像素和非陰影像素之間由于更深卷積而產(chǎn)生的干擾,即提取每個區(qū)域內(nèi)的純特征以準確提供感興趣的非陰影區(qū)域特征,頂部編碼器(非陰影路徑)構(gòu)建在僅使用三個卷積的淺子網(wǎng)上,其中包括兩個3×3平均池化卷積,用于對特征映射進行降采樣,以及一個1×1卷積,用于調(diào)整特征映射的維度,以匹配底部編碼器輸出的維度。陰影路徑的底部編碼器是一個更深的編碼器,由幾個卷積和殘差塊組成,其中兩個卷積的步長設(shè)置為2,以對特征圖進行降采樣。

中間層是一個具有區(qū)域感知交叉注意力的Transformer層。(這個后面講)

Transformer層之后是一個解碼器,這個解碼器的輸出是第一次的去陰影圖像.
解碼器的輸出結(jié)合原圖、陰影mask圖像,得到合成圖像:

image.png

M是陰影mask,\hat{a}表示解碼器輸出,I^S表示原圖。所以這個公式的含義是,對于陰影部分采用decoder的預測像素,對于非陰影部分采用原圖像素。
I_CM作為模型輸入,采用一個U形網(wǎng)絡(luò)作為豬肝,最終得到去除陰影效果的圖像I_r。
image.png

詳細展開其中的區(qū)域感知交叉注意力的Transformer層(如下圖所示)。


image.png

主要是右邊的這部分。在這篇文章中,F_qF_(kv)是不同的特征圖,但是其維度都是HW\times C(如果相同那就是自注意力機制了。)。
KQ點乘的結(jié)果可以理解為Query和key的相關(guān)度。其結(jié)果S_a,大小為H\times W,越大表示兩個像素之間的關(guān)聯(lián)越大。
考慮到我們需要非陰影區(qū)域像素提取特征到陰影區(qū)域的,因此對于S_a結(jié)果引入了M^S:

image.png

1.刪除從陰影區(qū)域到陰影區(qū)域的關(guān)聯(lián)
2.刪除從非陰影區(qū)域到非陰影區(qū)域的關(guān)聯(lián)
3.刪除從陰影區(qū)域到非陰影區(qū)域的相關(guān)度.
這樣就實現(xiàn)了論文中提到的區(qū)域感知交叉注意力.

暫時只能看懂這些,等代碼出來了再去看看實際怎么處理的。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容