[譯] Adaptive Weighted Attention Network with Camera Spectral Sensitivity Prior for Spectral Recon...

題目:基于相機(jī)光譜靈敏度先驗(yàn)的自適應(yīng)加權(quán)注意力網(wǎng)絡(luò)用于RGB圖像的光譜重建(CVPR2020 workshop)

作者:李嬌嬌Jiaojiao Li(jjli@xidian.edu.cn),Chaoxiong Wu,Rui Song,Yunsong Li,F(xiàn)ei Liu

摘要

最近為光譜重建(SR)做出的有希望努力集中在通過(guò)使用更深和更廣泛的卷積神經(jīng)網(wǎng)絡(luò)(CNN)來(lái)學(xué)習(xí)復(fù)雜的映射。然而,大多數(shù)基于CNN的SR算法忽略了探索相機(jī)光譜靈敏度(CSS)的先驗(yàn)以及中間特征之間的相互依賴性,從而限制了網(wǎng)絡(luò)的表示能力和SR的性能。為了解決這些問題,本文提出了一種用于SR的新型自適應(yīng)加權(quán)注意力網(wǎng)絡(luò)(AWAN),該網(wǎng)絡(luò)的主干上堆疊有多個(gè)雙殘差注意力塊(DRAB),并用長(zhǎng)短跳躍連接進(jìn)行了裝飾,以形成雙重殘差學(xué)習(xí)。具體而言,作者研究了一種自適應(yīng)加權(quán)通道注意力(AWCA)模塊,通過(guò)整合通道之間的相關(guān)性來(lái)重新分配通道特征響應(yīng)。此外,開發(fā)了圖像塊級(jí)的二階非局部(PSNL)模塊以通過(guò)二階非局部操作捕獲遠(yuǎn)距離空間上下文信息,以實(shí)現(xiàn)更強(qiáng)大的特征表示。基于可以通過(guò)重構(gòu)的高光譜圖像(HSI)和給定的CSS函數(shù)映射恢復(fù)的RGB圖像的事實(shí),將RGB圖像和HSI的差異作為更好的約束條件進(jìn)行合并,以實(shí)現(xiàn)更準(zhǔn)確的重構(gòu)。實(shí)驗(yàn)結(jié)果證明,相對(duì)于其他最新SR方法,本文提出的AWAN網(wǎng)絡(luò)在定量比較和感知質(zhì)量方面是有效的。在NTIRE 2020光譜重建挑戰(zhàn)賽中,本文的參賽作品在“Clean”賽道上排名第一,在“Real World”賽道上排名第三??梢詮?a target="_blank">https://github.com/Deep-imagelab/AWAN獲得代碼。

1.簡(jiǎn)介

高光譜成像記錄對(duì)象的反射率或透射率,并且所獲取的高光譜圖像(HSI)通常具有從紅外光譜到紫外線光譜的多個(gè)光譜帶。 豐富的光譜特征已被廣泛用于各種任務(wù),例如面部識(shí)別,圖像分類和異常檢測(cè)[24、20、27]。 然而,由于成像技術(shù)的局限性,捕獲具有高空間/時(shí)間分辨率的包含大量光譜信息的HSI很費(fèi)時(shí)間,因此不可避免地阻礙了HSI的應(yīng)用范圍。

解決此問題的一種方法是開發(fā)基于壓縮傳感和計(jì)算重建的免掃描或快照高光譜設(shè)備,例如,計(jì)算機(jī)斷層掃描成像光譜儀(CTIS)[9],混合RGB-HS系統(tǒng)[19]和孔徑光罩[7]等等。然而,這些采集系統(tǒng)仍然依賴于昂貴的硬件設(shè)備。 另一種有效的方法是通過(guò)從給定的RGB圖像中恢復(fù)丟失的光譜信息來(lái)生成此類HSI,定義為光譜重建(SR)或光譜超分辨率。 但是,由于HSI的數(shù)量可以投射到任何RGB輸入,因此這種逆過(guò)程會(huì)造成嚴(yán)重不適定。 為了解決這個(gè)問題,已經(jīng)提出了大量的SR方法,大致分為兩類:早期的稀疏/淺層學(xué)習(xí)方法[3]和最近基于深度CNN的模型[12,4]。

早期研究人員主要致力于從特定的高光譜先驗(yàn)構(gòu)建稀疏編碼或相對(duì)較淺的學(xué)習(xí)模型[25、3、15、1]以滿足光譜超分辨率重建。然而,由于表達(dá)能力差和通用性有限,這些方法被限制在特定領(lǐng)域的圖像上表現(xiàn)良好。近年來(lái),由于CNN在許多計(jì)算機(jī)視覺任務(wù)中均取得了顯著成功,因此還提出了一系列基于CNN的SR模型,以學(xué)習(xí)從單張RGB圖像到其對(duì)應(yīng)的HSI的映射函數(shù)[16、33、4、26, 28,32]。此外,SR采用了一種用于捕獲遠(yuǎn)距離依賴關(guān)系的自注意力機(jī)制[22]。盡管在SR中已經(jīng)實(shí)現(xiàn)了令人鼓舞的性能,但是基于CNN的現(xiàn)有方法仍然存在一些缺點(diǎn)。大多數(shù)基于CNN的SR方法致力于設(shè)計(jì)更深或更廣的網(wǎng)絡(luò)體系結(jié)構(gòu)以獲取更高級(jí)的特征表示,而缺乏對(duì)豐富上下文信息和中間特征之間相互依賴關(guān)系的探索,因此限制了CNN的判別性學(xué)習(xí)。此外,現(xiàn)有的基于CNN的SR模型總是完成復(fù)雜的RGB到HSI映射功能,很少考慮將相機(jī)光譜靈敏度(CSS)集成到SR中以進(jìn)行更準(zhǔn)確的重建。

為了解決這些問題,本文提出了一種用于SR的新的深度自適應(yīng)加權(quán)注意力網(wǎng)絡(luò)(AWAN)。具體而言,AWAN網(wǎng)絡(luò)的骨干架構(gòu)由多個(gè)雙殘差注意塊(DRAB)組成,其中長(zhǎng)短跳躍連接形成了雙殘差學(xué)習(xí),從而可以繞過(guò)大量的低頻信息以增強(qiáng)特征相關(guān)性學(xué)習(xí)。此外,本文提出了一種可訓(xùn)練的自適應(yīng)加權(quán)通道注意力(AWCA)模塊,用于更好地建模通道相關(guān)性。AWCA模塊通過(guò)利用自適應(yīng)加權(quán)特征統(tǒng)計(jì)量而不是平均池化統(tǒng)計(jì)量來(lái)自適應(yīng)地重新分配通道方式的特征響應(yīng)。此外,為了獲得更強(qiáng)大的特征表示,開發(fā)了patch圖像塊級(jí)的二階非局部(PSNL)模塊,以通過(guò)二階非局部捕獲遠(yuǎn)距離空間上下文信息?;诨謴?fù)的RGB圖像可以通過(guò)使用已知的CSS函數(shù)生成HSI的事實(shí),將RGB圖像和HSI的差異進(jìn)行合并作為更好的約束條件,以進(jìn)行更準(zhǔn)確的重建。如圖1所示,與其他不同的SR方法相比,本文的方法可獲得更精確的HSI和更好的重建質(zhì)量。

本文的主要貢獻(xiàn)可以概括如下:
1.提出了一種新穎的用于SR的深度自適應(yīng)加權(quán)注意力網(wǎng)絡(luò)(AWAN)。 實(shí)驗(yàn)結(jié)果證明了所提出的AWAN在定量比較和感知質(zhì)量方面的有效性。 在NTIRE 2020光譜重建挑戰(zhàn)賽[5]中,參賽作品在“Clean”賽道上獲得第一名,僅比“Real World”賽道上的第一名多1.59106e-4獲得第三名。

2.作者提出了一種自適應(yīng)加權(quán)通道注意力(AWCA)模塊,以通過(guò)利用自適應(yīng)加權(quán)特征統(tǒng)計(jì)信息(而不是平均池化特征統(tǒng)計(jì)信息)來(lái)自適應(yīng)地重新校準(zhǔn)通道特征響應(yīng)。 這樣的AWCA模塊允許網(wǎng)絡(luò)有選擇地強(qiáng)調(diào)信息特征并增強(qiáng)判別能力。

3.作者開發(fā)了圖像塊級(jí)的二階非局部(PSNL)模塊,以通過(guò)二階非局部操作捕獲遠(yuǎn)距離空間上下文信息,以實(shí)現(xiàn)更強(qiáng)大的功能表示。

4.通過(guò)將RGB圖像和HSI的差異作為更好的約束條件,可以將CSS函數(shù)先驗(yàn)集成到SR損失過(guò)程中,以進(jìn)行更準(zhǔn)確的重建。

2.相關(guān)工作

在過(guò)去的幾年中,已經(jīng)提出了越來(lái)越多的SR算法,包括特定的采集系統(tǒng)[19,7],稀疏/淺層學(xué)習(xí)方法[25,3,15,1]和基于CNN的模型[12,33,11,23,4,26,34,28,6,2,18]。 在這里,我們總結(jié)了一些基于CNN的SR工作和注意力機(jī)制,但由于篇幅所限,并未一一列舉。
[12] Silvano Galliani, Charis Lanaras, Dimitrios Marmanis, Emmanuel Baltsavias, and Konrad Schindler. Learned spectral super-resolution. arXiv preprint arXiv:1703.09470, 2017.
[33] Yiqi Yan, Lei Zhang, Jun Li, Wei Wei, and Yanning Zhang. Accurate spectral super-resolution from single rgb image using multi-scale cnn. In Chinese Conference on Pattern Recognition and Computer Vision (PRCV), pages 206–217. Springer, 2018.
[11] Ying Fu, Tao Zhang, Yinqiang Zheng, Debing Zhang, and Hua Huang. Joint camera spectral sensitivity selection and hyperspectral image recovery. In Proceedings of the European Conference on Computer Vision (ECCV), pages 788–804, 2018.
[23] Shijie Nie, Lin Gu, Yinqiang Zheng, Antony Lam, Nobutaka Ono, and Imari Sato. Deeply learned filter response functions for hyperspectral reconstruction. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4767–4776, 2018.
[4] Boaz Arad, Ohad Ben-Shahar, and Radu Timofte. Ntire 2018 challenge on spectral reconstruction from rgb images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pages 929–938, 2018.
[26] Zhan Shi, Chang Chen, Zhiwei Xiong, Dong Liu, and Feng Wu. Hscnn+: Advanced cnn-based hyperspectral recovery from rgb images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pages 939–947, 2018.
[34] Lei Zhang, Zhiqiang Lang, Peng Wang, Wei Wei, Shengcai Liao, Ling Shao, and Yanning Zhang. Pixel-aware deep function-mixture network for spectral super-resolution. arXiv preprint arXiv:1903.10501, 2019.
[28] Tarek Stiebel, Simon Koppers, Philipp Seltsam, and Dorit Merhof. Reconstructing spectral images from rgb-images using a convolutional neural network. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pages 948–953, 2018.
[6] Yigit Baran Can and Radu Timofte. An efficient cnn for spectral reconstruction from rgb images. arXiv preprint arXiv:1804.04647, 2018
[2] Aitor Alvarez-Gila, Joost Van De Weijer, and Estibaliz Garrote. Adversarial networks for spatial context-aware spectral image reconstruction from rgb. In Proceedings of the IEEE International Conference on Computer Vision, pages 480–490, 2017.
[18] Sriharsha Koundinya, Himanshu Sharma, Manoj Sharma,Avinash Upadhyay, Raunak Manekar, Rudrabha Mukhopadhyay, Abhijit Karmakar, and Santanu Chaudhury. 2d-3d cnn based architectures for spectral reconstruction from rgb images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pages 844–851,2018.

基于CNN的SR模型。近年來(lái),基于CNN的SR方法已經(jīng)得到了廣泛的研究和發(fā)展,其中CNN在計(jì)算機(jī)視覺任務(wù)中取得了巨大的成功。通常,這些方法將SR公式化為圖像到圖像的回歸問題,并學(xué)習(xí)從三維RGB像素值到高維高光譜信號(hào)的深度映射函數(shù)。最初,Galliani等[12]和Xiong等人[32]訓(xùn)練了用于SR的端到端CNN,取得了空前的成果。后來(lái),Arad等人[4]組織了NTIRE 2018光譜重建挑戰(zhàn)賽,并提出了許多出色的算法。例如,Shi等人[26]提出了一個(gè)深度殘差網(wǎng)絡(luò)HSCNN-R,它由自適應(yīng)殘差塊組成。為了進(jìn)一步提高性能,他們?cè)O(shè)計(jì)了基于密集連接結(jié)構(gòu)和新穎融合方案的更深層HSCNN-D模型。 Stiebel等人[28]從語(yǔ)義分割中引入了改進(jìn)的U-net來(lái)完成這項(xiàng)任務(wù),并在光譜重建比賽中獲得了第四名。為了增加網(wǎng)絡(luò)學(xué)習(xí)像素映射的靈活性,Zhang等人[34]使用一個(gè)像素感知的深層功能混合網(wǎng)絡(luò)完成了RGB到HSI的映射,該網(wǎng)絡(luò)由幾個(gè)功能混合塊組成。

注意力機(jī)制。總的來(lái)說(shuō),注意力機(jī)制可以看作是重新分配可用信息并關(guān)注圖像的顯著成分的工具[29],它在當(dāng)前的計(jì)算機(jī)視覺社會(huì)中已經(jīng)發(fā)揮了重要作用,例如視頻分類,超分辨率以及場(chǎng)景分割[30,8,10]等。尤其是Xia等人[31]提出了一種新的空間域關(guān)注模塊,該模塊將非局部操作與CNN中的二階統(tǒng)計(jì)信息相結(jié)合,以直接提取上下文相關(guān)性以進(jìn)行行人重識(shí)別并獲得出色的性能。由于在整個(gè)圖像中實(shí)現(xiàn)非局部操作非常耗時(shí),因此我們開發(fā)了圖像塊級(jí)的二階非局部(PSNL)模塊來(lái)減輕計(jì)算負(fù)擔(dān)。 Hu等人[14]提出了一種在通道域中的提取和激勵(lì)(SE)塊,以對(duì)通道級(jí)特征相關(guān)性進(jìn)行建模用于圖像分類。但是,此注意模塊通過(guò)利用全局平均池統(tǒng)計(jì)信息來(lái)自適應(yīng)地重新分配通道方式的特征響應(yīng),表明它在不考慮空間重要性程度不同的情況下,在空間位置上均等對(duì)待,從而阻礙了CNN的表示能力。因此,我們通過(guò)探索自適應(yīng)加權(quán)特征統(tǒng)計(jì)量以獲得更強(qiáng)的特征表示,提出了一種新型的深度自適應(yīng)加權(quán)注意網(wǎng)絡(luò)(AWAN)。

3.本文所提方法

3.1 網(wǎng)絡(luò)結(jié)構(gòu)

所提出的AWAN的總體架構(gòu)如圖2所示。首先,我們使用一個(gè)單獨(dú)的卷積層從RGB輸入中提取淺層特征。然后,我們堆疊M個(gè)雙重殘差注意力塊(DRAB),以形成用于深度特征提取的深度網(wǎng)絡(luò)。為了消除非常深的網(wǎng)絡(luò)中的梯度消失和爆炸問題,采用了全局殘余連接。每個(gè)DRAB都由一個(gè)基本殘差模塊[13]和具有大(5×5)和小尺寸(3×3)內(nèi)核的附加成對(duì)卷積運(yùn)算組成,其中長(zhǎng)短跳躍連接在該塊中形成雙重殘差學(xué)習(xí)。這種殘差結(jié)構(gòu)中的殘差類型通過(guò)增加基本殘差塊之間的交互來(lái)充分利用成對(duì)操作的潛力。而且,這樣的模塊可以允許原始RGB圖像的豐富的低頻信息被繞開并被充分利用,這極大地增強(qiáng)了特征相關(guān)性學(xué)習(xí)。與工作[21]不同,本文未應(yīng)用批量歸一化,因?yàn)闅w一化限制了網(wǎng)絡(luò)的強(qiáng)度,無(wú)法學(xué)習(xí)光譜分布與SR任務(wù)的局部空間強(qiáng)度之間的相關(guān)性,這會(huì)進(jìn)一步降低其對(duì)在恒指的強(qiáng)度范圍內(nèi)變化的魯棒性。此外,我們選擇參數(shù)整流線性單位(PReLU)而不是ReLU作為激活函數(shù),以引入更多的非線性并加速收斂。


圖2.png

3.2 Adaptive Weighted Channel Attention (AWCA)

提取中間特征之間的相互依賴關(guān)系對(duì)于增強(qiáng)CNN的判別學(xué)習(xí)能力是必不可少的。 提出的SE塊[14]通過(guò)顯式建模通道之間的相互依賴性來(lái)自適應(yīng)地重新校準(zhǔn)通道級(jí)的特征響應(yīng)。然而,它通過(guò)在壓縮過(guò)程中利用全局平均池化統(tǒng)計(jì)信息,平等地對(duì)待空間位置,從而阻止了CNN的表示能力。為了獲得更強(qiáng)大的特征相關(guān)學(xué)習(xí),提出了一種自適應(yīng)加權(quán)通道注意力(AWCA)模塊,通過(guò)探索自適應(yīng)加權(quán)特征統(tǒng)計(jì)信息來(lái)選擇性地強(qiáng)調(diào)信息特征。

中間層特征圖組為F=[f_1,f_2,...,f_3],包含通道C個(gè)H\times W大小的特征圖并且重塑FR^{C\times(H\times W)}。我們利用一個(gè)權(quán)重矩陣Y=R^{(H\times W)\times 1}。然后采用一個(gè)softmax層將Y歸一化并且與F相乘,即自適應(yīng)權(quán)重池化H_{AWP}(\cdot),得到Z=H_{AWP}(F),其中Z=[z1,z2,...,z_c](Z\in R^{C\times 1})是通道級(jí)的描述子。隨后設(shè)下降比為t,經(jīng)過(guò)W_1權(quán)重輸出大小為R^{(c/t)\times 1\times 1},經(jīng)過(guò)W_2權(quán)重輸出大小為R^{C\times 1\times 1},最終通道映射圖計(jì)算為V=\delta(W_2(\sigma(W_1(Z)))),其中\delta(\cdot)和\sigma(\cdot)分別代表Sigmoid和ReLU激活函數(shù),然后我們分配通道特征圖V=[v_1,v_2,...,v_c]重新調(diào)整輸入F,v_c和f_c是縮放因子和c層的特征通道,E=[e1,...,e_c]是AWAC模塊的輸出特征圖。AWCA模塊嵌入到所提出的DRAB模塊中,可以調(diào)整逐通道特征自適應(yīng)地重新校準(zhǔn),以增強(qiáng)網(wǎng)絡(luò)的代表性學(xué)習(xí)。

AWAN

3.3 圖像塊級(jí)的二階非局部(PSNL)塊

本文提出了非局部神經(jīng)網(wǎng)絡(luò)模塊[30]來(lái)捕獲整個(gè)圖像的遠(yuǎn)距離依賴性。 同時(shí),最近的工作[8,31]指出,二階統(tǒng)計(jì)量是一種用于CNN更具區(qū)別性表達(dá)的有效工具。 但是,非局部操作需要巨大的計(jì)算負(fù)荷。 為了同時(shí)降低計(jì)算成本和建模遠(yuǎn)距離關(guān)系,開發(fā)了圖片塊級(jí)的二階非局部(PSNL)模塊。 圖4描述了PSNL模塊。 給定一個(gè)特征圖F\in R^{C\times H\times W},將其分為四個(gè)子特征圖F_k\in R^{C\times h\times w}(k = 1,2,3,4; h = H / 2; w = W / 2) 空間維度,每個(gè)維度都由后續(xù)的PSNL模塊處理。

圖4

獲得的新特征圖S_k = \phi(U_k)+F_k包含豐富的空間上下文信息。將PSNL模塊加載AWAN的尾部。

3.4 相機(jī)光譜靈敏度先驗(yàn)

先前已有的基于CNN的SR模型始終適合于蠻力RGB到HSI的映射,并且?guī)缀醪豢紤]將相機(jī)光譜靈敏度(CSS)集成到SR中以進(jìn)行更準(zhǔn)確的重建。 基于可以通過(guò)將給定的CSS函數(shù)應(yīng)用于重構(gòu)的HSI來(lái)創(chuàng)建恢復(fù)的RGB圖像的事實(shí),我們將RGB圖像的差異和HSI的差異作為更好的約束條件。 因此,我們的損失函數(shù)是兩項(xiàng)的線性組合:
l=l_h+\tau l_r
l_h=\frac{1}{N}\sum_{p=1}^{N}(|I_{HSI}^{(p)}-I_{SR}^{(p)}|/I_{HSI}^{(p)})
l_r=\frac{1}{N}\sum_{p=1}^{N}(\Phi(|I_{HSI}^{(p)})-\Phi(I_{SR}^{(p)}))
其中\tau是均衡參數(shù)取10,其中I_{HSI}^{(p)}I_{SR}^{(p)}代表第p個(gè)像素值,\Phi代表相機(jī)光譜靈敏度函數(shù),N是像素總數(shù)。

4.實(shí)驗(yàn)

4.1 高光譜數(shù)據(jù)集

本文在兩個(gè)具有挑戰(zhàn)性的光譜重建挑戰(zhàn)賽數(shù)據(jù)集上評(píng)估了AWAN網(wǎng)絡(luò):NTIRE2018 [4]和NTIRE2020 [5]。這兩個(gè)挑戰(zhàn)賽都分為兩個(gè)軌道:“Clean”和“Real World”。 “Clean”賽道旨在從已知CSS函數(shù)獲得的無(wú)噪聲RGB圖像中恢復(fù)HSI,而“Clean”軌道要求參賽者從未知相機(jī)響應(yīng)函數(shù)創(chuàng)建的JPEG壓縮RGB圖像中重建HSI。請(qǐng)注意,相同賽道的CSS函數(shù)也不同。因此,在這兩個(gè)挑戰(zhàn)中,總共有四個(gè)已建立的SR基準(zhǔn)。 NTIRE2018數(shù)據(jù)集包含256個(gè)用于訓(xùn)練的自然HSI和5 + 10個(gè)用于驗(yàn)證和測(cè)試的額外圖像。所有圖像的空間大小均為1392×1300,并具有31個(gè)光譜帶(400-700nm,大約以10nm的增量遞增)。 NTIRE2020數(shù)據(jù)集包含450幅用于訓(xùn)練的圖像,10幅用于驗(yàn)證的圖像和20幅用于測(cè)試的圖像,其空間分辨率為512×482,光譜帶數(shù)也是31。

評(píng)估指標(biāo)。 為了客觀地評(píng)估本文提出的方法在NTIRE2020和NTIRE2018數(shù)據(jù)集上的性能,根據(jù)挑戰(zhàn)賽提供的評(píng)分腳本,將均方根誤差(RMSE)和平均相對(duì)絕對(duì)誤差(MRAE)用作評(píng)估指標(biāo)。 選擇MRAE作為排名標(biāo)準(zhǔn),而不是RMSE,以避免在測(cè)試圖像的較高亮度區(qū)域中出現(xiàn)過(guò)重錯(cuò)誤。

實(shí)現(xiàn)細(xì)節(jié)。 我們?cè)O(shè)計(jì)DRAB數(shù)量M = 8,輸出通道數(shù)200。在訓(xùn)練過(guò)程中,我們從原始數(shù)據(jù)集中設(shè)置了64×64 RGB和HSI樣本對(duì)。 我們模型的批量大小為32,參數(shù)優(yōu)化算法選擇Adam [17],其β1= 0.9,β2= 0.99和\epsilon= 10^{-8}。 AWCA模塊的縮減比t值為16,PSNL模塊的r值為8。將學(xué)習(xí)率初始化為0.0001,并將多項(xiàng)式函數(shù)設(shè)置為冪= 1.5的衰減策略,在100個(gè)epoch停止網(wǎng)絡(luò)訓(xùn)練。 本文提出的AWAN網(wǎng)絡(luò)已在Pytorch框架上實(shí)現(xiàn),并且在2個(gè)NVIDIA 2080Ti GPU上的培訓(xùn)時(shí)間約為36小時(shí)。

4.2 消融實(shí)驗(yàn)

為了驗(yàn)證不同模塊的效果,本文對(duì)NTIRE2020“Clean”和“Real World”軌道進(jìn)行了消融研究。 表1列出了詳細(xì)的實(shí)驗(yàn)結(jié)果。Ea和Ef指的是堆疊有8個(gè)DRAB的基線網(wǎng)絡(luò),該網(wǎng)絡(luò)僅包含大量普通的卷積層。

圖像塊級(jí)的二階非局部(PSNL)。 從表1中可以看出,基線結(jié)果分別在兩個(gè)賽道上達(dá)到MRAE = 0.0359和MRAE = 0.0687。 如第3.3節(jié)所述,提出的AWAN的尾部附加PSNL模塊,以通過(guò)二階非局部操作獲取遠(yuǎn)距離依賴關(guān)系。 與基線結(jié)果相比,Eb和Eg證明了建模遠(yuǎn)距離關(guān)系的有效性。

自適應(yīng)加權(quán)通道注意力(AWCA)。 在基線網(wǎng)絡(luò)的基礎(chǔ)上,我們進(jìn)行了另一個(gè)實(shí)驗(yàn)來(lái)檢查AWCA模塊的效果。 Ec和Eh的結(jié)果使MRAE指標(biāo)比NTIRE2020 “Clean”和“Real World”賽道的基線結(jié)果分別降低了5.0%和2.2%。 主要原因在于,AWCA模塊自適應(yīng)集成了通道方式的相互依賴關(guān)系,以實(shí)現(xiàn)更強(qiáng)大的功能關(guān)聯(lián)學(xué)習(xí)。 之后將PSNL和AWCA模塊結(jié)合在一起,以進(jìn)一步加強(qiáng)網(wǎng)絡(luò)的判別式學(xué)習(xí)。 Ed和Ei的實(shí)驗(yàn)結(jié)果表明,使用這兩個(gè)模塊可以實(shí)現(xiàn)更出色的性能。

相機(jī)光譜靈敏度(CSS)先驗(yàn)。 Ea至Ed的實(shí)驗(yàn)和Ef至Ei的實(shí)驗(yàn)均通過(guò)隨機(jī)梯度下降算法(第3.4節(jié)中的單個(gè)MRAE損失項(xiàng)為1h)進(jìn)行了優(yōu)化。 由于CSS功能在“Clean”賽道中是已知的,而在“Real World”賽道中是未知的,因此我們只能在“Clean”軌道中將CSS事先引入AWAN網(wǎng)絡(luò)中。 Ee意味著我們將MRAE損失項(xiàng)lh和CSS約束lr的線性組合用作最終損失函數(shù),并表明CSS先驗(yàn)的合并對(duì)提高頻譜重建的準(zhǔn)確性很有用。

結(jié)果

為了測(cè)試本文提出的網(wǎng)絡(luò)的優(yōu)越性,將算法與六種最新方法進(jìn)行了比較,包括Arad [3],Galliani [12],Yan [33],Stiebel [28],HSCNNR [26],和HSCNN-D [26]。表2和表3列出了NTIRE2020和NTIRE2018“Clean”和“Real World”賽道的驗(yàn)證集的數(shù)值結(jié)果。和[26]中一樣,我們還采用表示為AWCA +的多模型集成方法。對(duì)于NTIRE2020“Clean”賽道,還訓(xùn)練了另外三種模型,其中一種模型具有8個(gè)DRAB和200個(gè)輸出通道,而兩個(gè)模型具有20個(gè)DRAB和128個(gè)輸出通道。對(duì)于NTIRE2020“Real World”賽道,首先對(duì)單個(gè)AWAN網(wǎng)絡(luò)采用自集成方法,將RGB輸入上/下翻轉(zhuǎn)以獲取鏡像輸出,然后將鏡像輸出和原始輸出平均為目標(biāo)結(jié)果。訓(xùn)練了另外兩個(gè)具有8個(gè)DRAB和200個(gè)輸出通道的模型以及一個(gè)具有10個(gè)DRAB和180個(gè)輸出通道的模型以進(jìn)行多模型集成訓(xùn)練。對(duì)于NTIRE2018數(shù)據(jù)集,執(zhí)行與NTIRE2020“Real World”賽道相似的自集合方法。另外,“Clean”軌道上還有另外兩個(gè)具有8個(gè)DRAB和200個(gè)輸出通道的模型,另外兩個(gè)模型是“Real World”上的具有10個(gè)DRAB和200個(gè)輸出通道的模型。從表2和表3中可以看出,我們的單個(gè)模型優(yōu)于其他比較方法,并且我們的方法通過(guò)模型集成策略進(jìn)一步提高了SR的性能。最后,我們的參賽算法在“Clean”軌道的官方測(cè)試集上獲得第一名,僅比NTIRE 2020光譜重建挑戰(zhàn)賽中“Real World”軌道上的第一名多1.59106e-4(請(qǐng)參閱表4和表5)。應(yīng)該注意的是,我們僅列出了前5種方法。

[3] Boaz Arad and Ohad Ben-Shahar. Sparse recovery of hyperspectral signal from natural rgb images. In European Conference on Computer Vision, pages 19–34. Springer, 2016.
[12] Silvano Galliani, Charis Lanaras, Dimitrios Marmanis, Emmanuel Baltsavias, and Konrad Schindler. Learned spectral super-resolution. arXiv preprint arXiv:1703.09470, 2017.
[33] Yiqi Yan, Lei Zhang, Jun Li, Wei Wei, and Yanning Zhang.Accurate spectral super-resolution from single rgb imageusing multi-scale cnn. In Chinese Conference on Pattern Recognition and Computer Vision (PRCV), pages 206–217.Springer, 2018.
[28] Tarek Stiebel, Simon Koppers, Philipp Seltsam, and Dorit Merhof. Reconstructing spectral images from rgb-images using a convolutional neural network. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pages 948–953, 2018.
[26] Zhan Shi, Chang Chen, Zhiwei Xiong, Dong Liu, and Feng Wu. Hscnn+: Advanced cnn-based hyperspectral recovery from rgb images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pages 939–947, 2018.

視覺結(jié)果。 為了評(píng)估SR結(jié)果的感知質(zhì)量,本文在圖5,圖6和圖7中顯示了一些視覺重建的HSI和不同方法的相應(yīng)誤差圖。從這些圖中可以看到本文方法相比于其他方法產(chǎn)生了更好的恢復(fù)結(jié)果和更高的重建保真度。 另外還繪制了圖8中的光譜響應(yīng)曲線。顯然本文提出的方法的結(jié)果更準(zhǔn)確,更接近于真值HSI。

結(jié)論

在本文中提出了一種用于SR的深度自適應(yīng)加權(quán)注意力網(wǎng)絡(luò)(AWAN)。 具體來(lái)說(shuō),提出了一個(gè)圖像塊級(jí)的二階非局部(PSNL)模塊,以通過(guò)二階非局部操作捕獲遠(yuǎn)距離區(qū)域相關(guān)性。 此外,提出了一種可訓(xùn)練的自適應(yīng)加權(quán)通道注意(AWCA)模塊,通過(guò)利用自適應(yīng)加權(quán)特征統(tǒng)計(jì)量來(lái)自適應(yīng)地重新校準(zhǔn)逐通道特征響應(yīng)。 為了進(jìn)一步提高SR的準(zhǔn)確性,本文先介紹了相機(jī)光譜靈敏度(CSS),并將RGB圖像和HSI的差異作為更好的約束條件。 具有挑戰(zhàn)性的基準(zhǔn)測(cè)試結(jié)果證明了我們的AWAN網(wǎng)絡(luò)在數(shù)值和視覺結(jié)果方面的優(yōu)越性。

論文筆記:

  1. 論文背景

本文屬于解決問題型論文,關(guān)于從RGB圖像中進(jìn)行高光譜圖像重建。由于成像技術(shù)所限,捕獲高光譜圖像很費(fèi)時(shí)間,實(shí)時(shí)系統(tǒng)設(shè)備昂貴,因此有效的方法是從RGB圖像中重建高光譜圖。目前很多方法忽略了相機(jī)光譜靈敏度先驗(yàn)(CSS)限制了SR效果。

現(xiàn)有的CNN方法致力于設(shè)計(jì)更深和更廣的網(wǎng)絡(luò)體系結(jié)構(gòu)以獲取更高級(jí)的特征表示,缺乏對(duì)豐富的上下文信息和中間特征間相互依賴關(guān)系進(jìn)行探索,不能有效捕獲遠(yuǎn)距離空間上下文信息,限制了CNN學(xué)習(xí)和表征能力。目前已提出的non-local非局部模塊用于通過(guò)全圖捕獲遠(yuǎn)距離依賴關(guān)系,但是計(jì)算量較大。

  1. 論文貢獻(xiàn)

本文所提出的網(wǎng)絡(luò)結(jié)構(gòu)AWAN由M個(gè)雙殘差注意力塊DRAB堆疊組成,每個(gè)DRAB由基本殘差模塊和conv 3x3和conv 5x5組成,形成了模塊內(nèi)雙殘差連接。這種形式的殘差結(jié)構(gòu)充分利用了成對(duì)操作的潛力增強(qiáng)基本殘差塊的相互作用。

提出自適應(yīng)加權(quán)通道注意力AWCA模塊,通過(guò)利用自適應(yīng)加權(quán)特征統(tǒng)計(jì)量,建模通道間的相關(guān)性,自適應(yīng)地重新分配通道方式。輸入特征F經(jīng)過(guò)conv 1x1重塑reshape為R^{(H\times W)\times 1}然后歸一化Normalize得到Y并與F相乘,這一過(guò)程為自適應(yīng)權(quán)重池化過(guò)程H_{AWP}。采用簡(jiǎn)單的門運(yùn)算機(jī)制將得到的feature特征經(jīng)過(guò)2個(gè)conv 1x1 W_1W_2,得到V=\delta(W_2(\sigma(W1(Z))))。用重組得到的channel attention map重新調(diào)節(jié)輸入F,得到最后的輸出e_c = v_c \times f_c。將AWCA嵌入到所提出的DRAB模塊可以重新校準(zhǔn)通道級(jí)channel-wise特征,增強(qiáng)網(wǎng)絡(luò)的特征學(xué)習(xí)能力。

為降低模型計(jì)算量同時(shí)建模遠(yuǎn)距離聯(lián)系,本文提出了圖像塊級(jí)patch-level二階非局部模塊,加在AWAN網(wǎng)絡(luò)結(jié)構(gòu)的尾部。輸入特征圖F分成4塊,F_k\in R^{C\times h\times w},分別經(jīng)過(guò)兩個(gè)conv 1x1,輸出通道為C/r的卷積層,轉(zhuǎn)置得到R^{(h\times w)\times C/r},從B卷積得到結(jié)果需要進(jìn)行矩陣運(yùn)算X=B\overline{I}B^T,其中I為單位矩陣,得到的X即為空間注意力圖。B和D通道特征進(jìn)行矩陣相乘運(yùn)算U_k=softmax(X_k)D_k,最后得到結(jié)果為S_k=\phi(U_k)+F_k。

根據(jù)已有的RGB可以由CSS重建得到HSI這一事實(shí),避免了RGB-HSI暴力映射的方法,損失函數(shù)由兩項(xiàng)組成,l=l_h+\tau l_r,\tau為權(quán)重系數(shù)。

  1. 論文實(shí)驗(yàn)

使用了NTIRE2018和NTIRE2020數(shù)據(jù)集,450張圖像用于訓(xùn)練,10張圖像用于驗(yàn)證,20張圖像用于測(cè)試,圖像大小為512 x 482。測(cè)試指標(biāo)為平均相對(duì)絕對(duì)誤差MRAE,參考指標(biāo)為RMSE。

表1消融實(shí)驗(yàn)說(shuō)明,在baseline的8個(gè)DRAB基礎(chǔ)上增加額外模塊的有效性,同時(shí)加入PSNL,AWAC和CSS時(shí)MRAE指標(biāo)最好。表2和表3證明了本文提出的方法比目前最好的5種方法效果更好。

圖5,圖6,圖7是將第22層,15層,24層光譜帶的HSI重建錯(cuò)誤的可視化結(jié)果。熱力圖代表真值和重建HSI結(jié)果之間的MRAE。

圖8是繪制的光譜響應(yīng)曲線,由此可見所提方法重建準(zhǔn)確度更高。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容