Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network論文翻譯——中文版

文章作者:Tyan
博客:noahsnail.com ?|? CSDN ?|? 簡書

聲明:作者翻譯論文僅為學(xué)習(xí),如有侵權(quán)請聯(lián)系作者刪除博文,謝謝!

翻譯論文匯總:https://github.com/SnailTyan/deep-learning-papers-translation

Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

摘要

盡管使用更快更深的卷積神經(jīng)網(wǎng)絡(luò)在單圖像超分辨率的準(zhǔn)確性和速度方面取得了突破,但仍有一個(gè)主要問題尚未解決:當(dāng)使用大的上采樣系數(shù)進(jìn)行超分辨率時(shí),我們怎樣來恢復(fù)更精細(xì)的紋理細(xì)節(jié)?;趦?yōu)化的超分辨率方法的行為主要由目標(biāo)函數(shù)的選擇來決定。最近的工作主要專注于最小化均方重構(gòu)誤差。由此得出的評估結(jié)果具有很高的峰值信噪比,但它們通常缺乏高頻細(xì)節(jié),并且在感知上是不令人滿意的,在某種意義上,它們在較高分辨率上沒有滿足期望的保真度。在本文中,我們提出了SRGAN,一種用于圖像超分辨率(SR)的生成對抗網(wǎng)絡(luò)(GAN)。據(jù)我們所知,這是第一個(gè)對于4倍上采樣系數(shù),能推斷逼真自然圖像的框架。為此,我們提出了一種感知損失函數(shù),其由對抗損失和內(nèi)容損失組成。對抗損失使用判別器網(wǎng)絡(luò)將我們的解推向自然圖像流形,判別器網(wǎng)絡(luò)經(jīng)過訓(xùn)練用以區(qū)分超分辨率圖像和原始的逼真圖像。此外,我們使用由感知相似性而不是像素空間相似性引起的內(nèi)容損失。在公開的基準(zhǔn)數(shù)據(jù)集上,我們的深度殘差網(wǎng)絡(luò)能從過度下采樣圖像中恢復(fù)出逼真的紋理。廣泛的平均主觀得分(MOS)測試顯示,使用SRGAN可以顯著提高感知質(zhì)量。與任何最新方法獲得的MOS得分相比,使用SRGAN獲得的MOS得分更接近于原始高分辨率圖像的MOS得分。

1. 引言

從低分辨率(LR)圖像來估計(jì)其對應(yīng)高分辨率(HR)圖像的高挑戰(zhàn)性任務(wù)被稱作超分辨率(SR)。SR在計(jì)算機(jī)視覺研究領(lǐng)域受到了廣泛的關(guān)注并有大量應(yīng)用[62, 70, 42]。

欠定SR問題的不適定特性對于大的上采樣系數(shù)尤其顯著,重建的SR圖像中通常缺少紋理細(xì)節(jié)。有監(jiān)督SR算法的優(yōu)化目標(biāo)通常是最小化恢復(fù)的HR圖像和真實(shí)圖像之間的均方誤差(MSE)。最小化MSE即最大化峰值信噪比(PSNR)是方便的,這是用來評估和比較SR算法的常用方法[60]。然而,MSE(和PSNR)捕獲感知相對差異(例如高級紋理細(xì)節(jié))的能力是非常有限的,因?yàn)樗鼈兪腔谙袼丶増D像差異[59, 57, 25]定義的。這在圖2中進(jìn)行了說明,其中最高的PSNR不一定能反映出感知上更好的SR結(jié)果。超分辨率圖像和原始圖像之間的感知差異意味著恢復(fù)圖像不如Ferwerda[15]中定義的逼真。

Figure 2

圖2:從左到右:雙三次插值,優(yōu)化MSE的深度殘差網(wǎng)絡(luò),優(yōu)化人感知更敏感損失的深度殘差生成對抗網(wǎng)絡(luò),原始HR圖像。對應(yīng)的PSNR和SSIM顯示在括號中。[4倍上采樣]

在這項(xiàng)工作中我們提出了一種超分辨率生成對抗網(wǎng)絡(luò)(SRGAN),為此我們采用了具有跳躍連接的深度殘差網(wǎng)絡(luò)并舍棄了作為唯一優(yōu)化目標(biāo)的MSE。不同于以前的工作,我們定義了一種新的使用VGG網(wǎng)絡(luò)[48, 32, 4]高級特征映射與判別器結(jié)合的感知損失,判別器會(huì)鼓勵(lì)感知上更難與HR參考圖像區(qū)分的解。圖1中展示了一張示例逼真圖像,其使用4倍上采樣系數(shù)進(jìn)行超分辨率。

Figure 1

圖1:超分辨率圖像(左)是最難與原始圖像(右)區(qū)分的. [4倍上采樣]

1.1. 相關(guān)工作

1.1.1 圖像超分辨率

最近的圖像SR綜述文章,包括Nasrollahi和Moeslund[42]或Yang等[60]。這里,我們將專注于單圖像超分辨率(SISR),不會(huì)進(jìn)一步討論從多張圖像恢復(fù)HR圖像的方法[3, 14]。

基于預(yù)測的方法是解決SISR的首批方法之一。雖然這些濾波方法可能非???,例如線性,雙三次或Lanczos[13]濾波,但它們簡化了SISR問題,通常會(huì)產(chǎn)生紋理過于平滑的解。特別關(guān)注邊緣保留的方法已經(jīng)被提出[1, 38]。

更強(qiáng)大的方法旨在在低分辨率圖像和高分辨率圖像之間建立一個(gè)復(fù)雜映射,并且通常依賴于訓(xùn)練數(shù)據(jù)。許多基于樣本對的方法依賴于LR訓(xùn)練圖像塊,其對應(yīng)的HR圖像塊是已知的。早期的工作由Freeman等[17, 16]提出。與SR相關(guān)的方法起源于壓縮感知[61, 11, 68]。在Glasner等[20]中作者利用圖像內(nèi)跨尺度圖像塊冗余來推動(dòng)SR。Huang等[30]也采用了這種自相似范式,通過進(jìn)一步允許小的變換和形狀變化擴(kuò)展了自字典。Gu等[24]提出了一種卷積稀疏編碼方法通過處理整張圖像而不是重疊圖像塊提高了一致性。

為了重建逼真的紋理細(xì)節(jié)同時(shí)避免邊緣偽影,Tai等[51]將基于梯度輪廓先驗(yàn)[49]的邊緣導(dǎo)向SR算法和基于學(xué)習(xí)的細(xì)節(jié)合成的優(yōu)勢相結(jié)合。張等[69]提出了一種多尺度字典來捕獲不同尺度下相似圖像塊的冗余性。為了對地標(biāo)圖像進(jìn)行超分辨率,Yue等[66]從網(wǎng)上采集了具有相似內(nèi)容的相關(guān)HR圖像,并提出了用于對齊的結(jié)構(gòu)感知匹配標(biāo)準(zhǔn)。

鄰域嵌入方法通過在低維流形中查找相似的LR訓(xùn)練圖像塊并結(jié)合它們對應(yīng)的用于重建的HR圖像塊對LR圖像塊進(jìn)行上采樣[53, 54]。在Kim和Kwon[34]中,作者強(qiáng)調(diào)了鄰域方法過擬合的趨勢,并使用核嶺回歸構(gòu)建了樣本對的更通用映射?;貧w問題也可以通過高斯過程回歸[26],樹[45]或隨機(jī)森林[46]來解決。戴等[5]學(xué)習(xí)了大量特定圖像塊的回歸器,并在測試中選擇最合適的回歸器。

最近基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的SR算法已經(jīng)展現(xiàn)出了出色的性能。在Wang等[58]中,作者基于學(xué)習(xí)的迭代收縮和閾值算法(LISTA)將稀疏表示先驗(yàn)編碼到他們的前饋神經(jīng)架構(gòu)中[22]。Dong等[8, 9]使用雙三次插值對輸入圖像進(jìn)行上采樣,并端到端地訓(xùn)練了一個(gè)三層的全卷積網(wǎng)絡(luò),取得了最佳的SR性能。之后的研究表明網(wǎng)絡(luò)可以直接學(xué)習(xí)到上采樣濾波器,并可以在準(zhǔn)確性和速度方面進(jìn)一步提高性能[10, 47, 56]。借助深度循環(huán)神經(jīng)網(wǎng)絡(luò)(DRCN),Kim等[33]提出了一種高性能架構(gòu),在考慮長期像素依賴的同時(shí)保持了較少的模型參數(shù)數(shù)量。與本文特別相關(guān)的是約翰遜等[32]和Bruna等[4]的工作,其依賴于更接近于感知相似的損失函數(shù)來恢復(fù)視覺上更具說服力的HR圖像。

1.1.2 卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)

隨著Krizhevsky等[36]工作取得成功的同時(shí),專門設(shè)計(jì)的CNN架構(gòu)設(shè)置了許多計(jì)算機(jī)視覺問題的最新技術(shù)。

研究表明,更深的網(wǎng)絡(luò)架構(gòu)更難訓(xùn)練,但具有大幅提高網(wǎng)絡(luò)準(zhǔn)確性的潛力,因?yàn)槠湓试S建模非常復(fù)雜的映射[48, 50]。為了有效訓(xùn)練這些更深的網(wǎng)絡(luò)架構(gòu),批歸一化[31]通常用來抵消內(nèi)部協(xié)變量轉(zhuǎn)移。對于SISR,更深的網(wǎng)絡(luò)架構(gòu)已經(jīng)表現(xiàn)出了性能提高,例如,Kim等[33]構(gòu)建了一個(gè)循環(huán)CNN并介紹了最新的結(jié)果。緩解深度CNN訓(xùn)練的另一種強(qiáng)大設(shè)計(jì)選擇是最近介紹的殘差塊[28]和跳躍連接[29, 33]概念。跳躍連接減輕了建模恒等映射的網(wǎng)絡(luò)架構(gòu),本質(zhì)上恒等映射是不重要的,然而對于卷積核表示而言,這可能是有意義的。

SISR的背景下,研究表明學(xué)習(xí)上采樣濾波器對于準(zhǔn)確性和速度是有益的[10, 47, 56]。這是一種對Dong等[9]的改進(jìn),其中在將圖片輸入到CNN之前,采用雙三次插值對LR觀測進(jìn)行上采樣。

1.1.3 損失函數(shù)

逐像素的損失函數(shù)(例如MSE)在努力處理恢復(fù)損失的高頻細(xì)節(jié)(例如紋理)中的內(nèi)在不確定性:最小化MSE鼓勵(lì)尋找合理解的逐像素平均,這通常是過平滑的,因此會(huì)得到較差的感知質(zhì)量[41, 32, 12, 4]。圖2中以相應(yīng)的PSNR為例說明了不同感知質(zhì)量的重建。我們在圖3中說明了最小化MSE的問題,其中對多個(gè)具有高級紋理細(xì)節(jié)的潛在解進(jìn)行平均從而創(chuàng)建一個(gè)平滑的重建。

Figure 3

圖3:自然圖像流形圖像塊(紅),由MSE獲得的超分辨率圖像塊(藍(lán))以及由GAN獲得的超分辨率圖像塊(橙)。由于像素空間中可能解的逐像素平均,基于MSE的解似乎更平滑,而GAN將重建推向自然圖像流形,產(chǎn)生了感知上更具說服力的解。

在Mathieu等[41]和Denton等[6]中,作者通過采用圖像生成應(yīng)用生成對抗網(wǎng)絡(luò)(GANs)來解決這個(gè)問題。Yu和Porikli[65]通過判別器損失增大了逐像素的MSE損失來訓(xùn)練網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)使用較大的上采樣系數(shù)(8×)·對人臉圖像進(jìn)行超分辨率。在Radford等[43]中GAN也用來進(jìn)行無監(jiān)督表示學(xué)習(xí)。Li和Wand[37]的風(fēng)格轉(zhuǎn)換以及Yeh等[63]的圖像修復(fù)都描述了使用GAN學(xué)習(xí)一個(gè)流形到另一個(gè)流形映射的想法。Bruna等[4]在VGG19[48]特征空間以及散射網(wǎng)絡(luò)中都最小化了方差。

Dosovitskiy和Brox使用基于神經(jīng)網(wǎng)絡(luò)特征空間中計(jì)算的歐式距離損失函數(shù)與對抗訓(xùn)練相結(jié)合。結(jié)果表明,提出的損失能夠生成視覺上更好的圖像并且可以用來解決解碼非線性特征表示的不適定逆問題。與這個(gè)工作類似,Johnson等[32]和Bruna等[4]提出使用從預(yù)訓(xùn)練VGG網(wǎng)絡(luò)中提取的特征來代替低級逐像素誤差度量。具體來說,作者基于VGG19[48]網(wǎng)絡(luò)提取的特征映射之間的歐式距離來構(gòu)建損失函數(shù)。在超分辨率和藝術(shù)風(fēng)格轉(zhuǎn)換[18, 19]方面,都獲得了感知上更具說服力的結(jié)果。最近,Li和Wand[37]還研究了在像素或VGG特征空間中對比和混合圖像塊的效果。

1.2. 貢獻(xiàn)

GAN提供了一種強(qiáng)大的框架,其可以生成看起來真實(shí)、具有高感知質(zhì)量的自然圖像。GAN過程鼓勵(lì)重建朝向有很大可能包含逼真圖像的搜索空間區(qū)域,因此更接近圖3中所示的自然圖像流形。

本文中我們描述了第一個(gè)很深的ResNet[28, 29]架構(gòu),使用GAN概念形成了逼真SISR的感知損失函數(shù)。我們的主要貢獻(xiàn)如下:

? 我們在大的上采樣系數(shù)下(4×)為圖像SR設(shè)置了最新的技術(shù)水平,并用PSNR、結(jié)構(gòu)相似性(SSIM)以及MSE進(jìn)行了度量,使用了為MSE優(yōu)化的16塊深度ResNet(SRResNet)。

? 我們提出了SRGAN,一種為新感知損失優(yōu)化的基于GAN的網(wǎng)絡(luò)。這里我們將基于MSE的內(nèi)容損失替換為在VGG網(wǎng)絡(luò)特征映射上計(jì)算的損失,其對于像素空間[37]的變化更具有不變性。

? 我們通過在三個(gè)公開基準(zhǔn)數(shù)據(jù)集的圖像上進(jìn)行大量的平均主觀得分(MOS)測試,確認(rèn)了SRGAN是最新的技術(shù),在使用較大的上采樣系數(shù)(4×)進(jìn)行逼真SR圖像評估上具有很大優(yōu)勢。

我們將在第二節(jié)中描述網(wǎng)絡(luò)架構(gòu)和感知損失。第三節(jié)中提供在公開基準(zhǔn)數(shù)據(jù)集上的定量評估和視覺插圖。本文在第4節(jié)中進(jìn)行了討論,并在第5節(jié)中作了總結(jié)。

2. 方法

SISR的目標(biāo)是根據(jù)低分辨率輸入圖像I^{LR}來估計(jì)高分辨率、超分辨率圖像I^{SR}。這里I^{HR}是高分辨率圖像,I^{LR}是其對應(yīng)的低分辨率版本。高分辨率圖像僅在訓(xùn)練中可獲得。訓(xùn)練中,I^{LR}可以通過對I^{HR}應(yīng)用高斯濾波,然后執(zhí)行下采樣系數(shù)為r的下采樣操作得到。對于有C個(gè)顏色通道的圖像,我們分別用大小為W × H × C的實(shí)值張量描述I^{LR},用大小為rW × rH × C的實(shí)值張量描述I^{HR}、I^{SR}。

我們的最終目標(biāo)是訓(xùn)練一個(gè)生成函數(shù)G,用來估算給定LR輸入圖像的對應(yīng)HR圖像。為此,我們訓(xùn)練了一個(gè)生成網(wǎng)絡(luò),參數(shù)為\theta _G的前饋CNNG_{\theta_G}。其中\theta_G = {W_{1:L} ; b_{1:L} }表示一個(gè)L層深度網(wǎng)絡(luò)的權(quán)重和偏置,可以通過優(yōu)化SR特定損失函數(shù)l^{SR}獲得。對于訓(xùn)練圖像I^{HR}_nn = 1, ..., N_n,及其對應(yīng)的I^{LR}_n,n = 1, ..., N_n,求解:

\hat\theta_G=\mathop{argmin}\limits_{\theta_G}\frac{1}{N}\sum^{N}_{n=1}l^{SR}(G_{\theta_G}(I^{LR}_n),I^{HR}_n) \tag{1}

在這項(xiàng)工作中,我們將專門設(shè)計(jì)一個(gè)感知損失l^{SR}作為幾種損失分量的加權(quán)組合,這些損失分量對恢復(fù)的SR圖像的不同要求特性進(jìn)行建模。單個(gè)損失函數(shù)在2.2節(jié)中有更詳細(xì)的描述。

2.1. 對抗網(wǎng)絡(luò)架構(gòu)

按照Goodfellow等[21],我們進(jìn)一步定義了一個(gè)判別器網(wǎng)絡(luò)D_{\theta_D},我們對其與G_{\theta_G}進(jìn)行交替優(yōu)化來解決對抗最小-最大問題:

\mathop{min}\limits_{\theta_G}\mathop{max}\limits_{\theta_D}\mathbb{E}_{I^{HR}\sim p_{train}(I^{HR})}[logD_{\theta_D}(I^{HR})] + \mathbb{E}_{I^{LR}\sim p_{G}(I^{LR})}[log(1-D_{\theta_D}(G_{\theta_G}(I^{LR})))] \tag{2}

這個(gè)公式的總體思想是,它允許訓(xùn)練生成模型G,生成模型目的是欺騙具有辨別能力的判別器D,判別器被訓(xùn)練用來區(qū)分超分辨圖像與真實(shí)圖像。通過這種方法,我們的生成器可以學(xué)習(xí)創(chuàng)建與真實(shí)圖像高度相似的解,因此很難被D分類。這鼓勵(lì)了位于自然圖像子空間,流形中的感知上更優(yōu)的解。這與通過最小化逐像素的誤差測量(例如MSE)獲得的SR解形成鮮明的對比。

如圖4所示,我們的深度生成器網(wǎng)絡(luò)G的中心是B個(gè)含有恒等設(shè)計(jì)的殘差塊。受Johnson等[32]啟發(fā),我們采用了Gross和Wilber[23]提出的塊設(shè)計(jì)。具體來說,我們使用了兩個(gè)卷積層,其核大小為3×3,具有64層特征映射,其后是批歸一化層[31],使用ParametricReLU[27]作為激活函數(shù)。如Shi等[47]的提議,我們使用兩個(gè)訓(xùn)練好的子像素卷積層來增加輸入圖像的分辨率。

Figure 4

圖4:生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)的架構(gòu),每個(gè)卷積層表明了對應(yīng)的卷積核大小(k),特征映射數(shù)量(n)和步長(s)。

為了從生成的SR樣本中區(qū)分出真實(shí)的HR圖像,我們訓(xùn)練了一個(gè)判別器網(wǎng)絡(luò)。架構(gòu)如圖4所示。我們遵循Radford等[43]總結(jié)的架構(gòu)指南,使用LeakyReLU激活(α=0.2),在整個(gè)網(wǎng)絡(luò)中避免使用最大池化。訓(xùn)練的判別器網(wǎng)絡(luò)用來解決等式2中的最大化問題。它包含8個(gè)卷積層,其中3×3濾波器核的數(shù)量逐漸增加,與VGG網(wǎng)絡(luò)一樣[48],從64個(gè)濾波器核增加到512個(gè),增加了2倍。在每次特征數(shù)量加倍時(shí),步長卷積用來降低圖像分辨率。生成的512個(gè)特征映射之后是兩個(gè)稠密層,最后的sigmoid激活用來獲得樣本分類的概率。

2.2. 感知損失函數(shù)

感知損失函數(shù)l^{SR}的定義對于我們的生成器網(wǎng)絡(luò)性能非常關(guān)鍵。雖然l^{SR}通常是基于MSE[9, 47]建模的,但我們在Johnson等[32]和Bruna等[4]的基礎(chǔ)上進(jìn)行了改進(jìn),設(shè)計(jì)了一個(gè)損失函數(shù)用來評估在感知相關(guān)特性方面的解。我們將感知損失構(gòu)建為內(nèi)容損失l^{SR}_X和對抗損失的加權(quán)和:

l^{SR}=\underbrace{\underbrace{l^{SR}_X}_{content\ loss} + \underbrace{10^{-3}l^{SR}_{Gen}}_{adversarial\ loss}}_{perceptual\ loss(for\ VGG\ based\ content\ loss)} \tag{3}

接下來我們描述內(nèi)容損失l^{SR}_X和對抗損失l^{SR}_{Gen}的可能選擇。

2.2.1 內(nèi)容損失

逐像素的MSE損失計(jì)算如下:

l^{SR}_{MSE}=\frac {1} {r^2WH} \sum^{rW}_{x=1} \sum^{rH}_{y=1}(I^{HR}_{x,y} - G_{\theta_G}(I^{LR})_{x,y})^2 \tag{4}

對于圖像SR,這是應(yīng)用最廣泛的優(yōu)化目標(biāo),許多最新技術(shù)都依賴該目標(biāo)[9, 47]。然而,雖然取得了特別高的PSNR,但MSE優(yōu)化問題的解通常缺少高頻內(nèi)容,這會(huì)導(dǎo)致具有過于平滑紋理的解在感知上不令人滿意(對比圖2)。

在基于Gatys等[18],Bruna等[4]和Johnson等[32]想法的基礎(chǔ)上,我們構(gòu)建并使用了更接近于感知相似性的損失函數(shù),而不是依賴于逐像素?fù)p失。我們在Simonyan和Zisserman[48]中描述的預(yù)訓(xùn)練19層VGG網(wǎng)絡(luò)的ReLU激活層的基礎(chǔ)上定義了VGG損失。在給定的的VGG19網(wǎng)絡(luò)中,我們用\phi_{i,j}指代在第i層池化層之前的第j層卷積(激活之后)獲得的特征映射。我們使用重建圖像G_{\theta_G}(I^{LR})的特征表示和參照圖像I^{HR}之間的歐式距離來定義VGG損失:

l^{SR}_{VGG/i,j}=\frac {1} {W_{i,j}H_{i,j}}\sum^{W_{i,j}}_{x=1}\sum^{H_{i,j}}_{y=1}(\phi_{i,j}(I^{HR})_{x,y}-\phi_{i,j}(G_{\theta_G}(I^{HR}))_{x,y})^2 \tag{5}

這里W_{i,j}H_{i,j}描述了VGG網(wǎng)絡(luò)中各個(gè)特征映射的維度。

2.2.2 對抗損失

除了目前為止描述的內(nèi)容損失之外,我們也將GAN的生成組件添加到了感知損失中。通過設(shè)法欺騙判別器網(wǎng)絡(luò),這鼓勵(lì)我們的網(wǎng)絡(luò)支持位于自然圖像流行上的解?;谂袆e器D_{\theta_D}(G_{\theta_G}(I^{LR}))在所有訓(xùn)練樣本上的概率,生成損失l^{SR}_{Gen}定義為:

l^{SR}_{Gen}=\sum^N_{n=1}-logD_{\theta_D}(G_{\theta_G}(I^{LR})) \tag{6}

這里,D_{\theta_D}(G_{\theta_G}(I^{LR}))是重建圖像G_{\theta_G}(I^{LR})為自然HR圖像的概率。為了得到更好的梯度行為,我們對-logD_{\theta_D}(G_{\theta_G}(I^{LR}))進(jìn)行最小化,而不是log[1-logD_{\theta_D}(G_{\theta_G}(I^{LR}))] [21]。

3. 實(shí)驗(yàn)

3.1. 數(shù)據(jù)和相似性度量

我們在三個(gè)廣泛使用的基準(zhǔn)數(shù)據(jù)集Set5[2],Set14[68]和BSD300的測試集BSD100[40]上進(jìn)行實(shí)驗(yàn)。所有實(shí)驗(yàn)都在低分辨率和高分辨率圖像之間以4倍的尺度因子執(zhí)行。圖像像素對應(yīng)減少16倍。為了公平比較,所有報(bào)告的PSNR[dB]和SSIM[57]度量使用daala軟件包,在中心裁剪的圖像的y通道上進(jìn)行計(jì)算,圖像每個(gè)邊界移除了4個(gè)像素寬的圖像條。參考方法包括最近鄰居,雙三次,SRCNN[8]和SelfExSR[30]的超分辨圖像是從Huang等[30]和Kim等的DRCN[33]的在線補(bǔ)充材料中獲得的 。SRResNet(損失:l^{SR}_{MSE}l^{SR}_{VGG/2.2})和SRGAN變體得到的結(jié)果可在線獲得。統(tǒng)計(jì)測試以成對的雙側(cè)威爾科克森符號秩檢驗(yàn)和顯著性檢驗(yàn)進(jìn)行,顯著性水平為p<0.05

讀者可能還對GitHub上獨(dú)立開發(fā)的基于GAN的解決方案感興趣。然而,它只能提供一組有限人臉圖像上的實(shí)驗(yàn)結(jié)果,這是一個(gè)更受限且更輕松的任務(wù)。

3.2. 訓(xùn)練細(xì)節(jié)和參數(shù)

我們使用NVIDIA Tesla M40 GPU訓(xùn)練所有的網(wǎng)絡(luò),訓(xùn)練數(shù)據(jù)來自ImageNet數(shù)據(jù)集[44]中隨機(jī)采樣的35萬張圖像。這些圖片不同于測試圖片。我們使用雙三次核對HR圖像(BGR, C=3)進(jìn)行下采樣得到LR圖像,下采樣系數(shù)為r=4。對于每一份小批量數(shù)據(jù),我們對不同的訓(xùn)練圖像裁剪16個(gè)隨機(jī)的96×96的HR子圖像。注意我們可以對任意大小的圖像應(yīng)用生成器模型,因?yàn)樗侨矸e的。我們使用Adam[35],\beta_{1}=0.9來進(jìn)行優(yōu)化。SRResNet網(wǎng)絡(luò)使用10^{?4}的學(xué)習(xí)率進(jìn)行訓(xùn)練,更新迭代次數(shù)10^6。在訓(xùn)練實(shí)際的GAN時(shí),為了避免不必要的局部最優(yōu)值,我們采用預(yù)訓(xùn)練的基于MSE的SRResNet網(wǎng)絡(luò)對生成器進(jìn)行初始化。所有的SRGAN變種都以10^{?4}的學(xué)習(xí)率訓(xùn)練10^5次迭代,然后以10^{?5}的學(xué)習(xí)率再訓(xùn)練10^5次迭代。我們交替更新生成器和判別器網(wǎng)絡(luò),這等價(jià)于Goodfellow等[21]的k=1。我們的生成器網(wǎng)絡(luò)有16個(gè)恒等(B=16)殘差塊。測試期間,為了獲得確定性地只依賴輸入的輸出,我們關(guān)閉了批歸一化更新。我們的實(shí)現(xiàn)基于Theano[52]和Lasagne[7]。

3.3. 平均主觀得分(MOS)測試

為了量化不同方法重建感知上令人信服的圖像的能力,我們進(jìn)行了MOS測試。具體來說,我們讓26個(gè)評分員使用整數(shù)分1(質(zhì)量差)到5(質(zhì)量極好)對超分辨率圖像進(jìn)行打分。評分員對Set5,Set14和BSD100數(shù)據(jù)集上的每一張圖像的12個(gè)版本進(jìn)行了評分:最近鄰(NN),雙三次,SRCNN[8],SelfExSR[30],DRCN[33],ESPCN[47],SRResNet-MSE,SRResNet-VGG22^* (*沒有在BSD100上評分),SRGAN-MSE^*,SRGAN-VGG22^*,SRGAN-VGG54和原始HR圖像。因此每一個(gè)評分員對隨機(jī)呈現(xiàn)的1128個(gè)實(shí)例(19張圖像的12個(gè)版本加上100張圖像的9個(gè)版本)進(jìn)行了評估。評分員對BSD300訓(xùn)練集的20張圖像的NN(得分1)和HR(5)版本上進(jìn)行了校準(zhǔn)。在初步研究中,通過兩次添加方法圖像到更大的測試集中,我們評估了26個(gè)評分員在BSD100的10張圖像子集上的校準(zhǔn)程序和重測信度。我們發(fā)現(xiàn)了良好的可靠性,在相同圖像的評分之間沒有顯著差異。評分員非常一致地將NN插值測試圖像評分為1,原始HR圖像評分為5(參加圖5)。

Figure 5

圖5:BSD100上MOS得分的顏色編碼分布。每一種方法使用2600個(gè)樣本(100張圖片×26個(gè)評估者)評估。均值顯示為紅色標(biāo)記,bin以值i為中心(4倍上采樣)。

進(jìn)行的MOS測試的實(shí)驗(yàn)結(jié)果總結(jié)在表1,表2和圖5中。

表1:SRResNet不同損失函數(shù)的性能和對抗網(wǎng)絡(luò)在Set5和Set14上的基準(zhǔn)數(shù)據(jù)。MOS得分明顯比其它損失在對應(yīng)類別上更高(p<0.05)。[4×上采樣]

Table 1

表2:NN,雙三次,SRCNN[8],SelfExSR[30],DRCN[33],ESPCN[47],SRResNet,SRGAN-VGG54和原始HR在基準(zhǔn)數(shù)據(jù)上的比較. 最高的度量(PSNR[dB],SSIM,MOS)以粗體顯示。[4×上采樣]

Table 2

3.4. 內(nèi)容損失研究

對于基于GAN的網(wǎng)絡(luò),我們研究了感知損失中不同內(nèi)容損失選擇的影響。具體來說,對于下面的內(nèi)容損失l^{SR}_X,我們研究了l^{SR}=l^{SR}_X+10^{-3}l^{SR}_{Gen}

? SRGAN-MSE:l^{SR}_{MSE},以標(biāo)準(zhǔn)MSE作為內(nèi)容損失來研究對抗網(wǎng)絡(luò)。

? SRGAN-VGG22:具有\phi_{2,2}l^{SR}_{VGG/2.2},表示更底層特征[67]的特征映射上定義的損失。

? SRGAN-VGG54:具有\phi_{5,4}l^{SR}_{VGG/5.4},來自較深網(wǎng)絡(luò)層的更高層特征的特征映射上定義的損失,更可能集中在圖像內(nèi)容上[67, 64, 39]。在下文中,我們將此網(wǎng)絡(luò)稱為SRGAN。

對于兩個(gè)損失l^{SR}_{MSE}(SRResNet-MSE)和l^{SR}_{VGG/2.2}(SRResNet-VGG22),我們也對沒有對抗組件的生成器網(wǎng)絡(luò)性能進(jìn)行了評估。我們將SRResNet-MSE稱為SRResNet。在表1中總結(jié)了定量結(jié)果,圖6中提供了直觀的示例。即使結(jié)合對抗損失,MSE仍然提供了具有最高PSNR值的解,與視覺感知更敏感的損失組件取得的結(jié)果相比,其在感知上更平滑,更不令人信服。這是由基于MSE的內(nèi)容損失和對抗損失之間的競爭引起的。我們進(jìn)一步將少量基于SRGAN-MSE的重構(gòu)中觀測到的那些較小的重構(gòu)結(jié)果,歸因于那些相互競爭的目標(biāo)。關(guān)于Set5上的MOS得分,我們不能確定一個(gè)對于SRResNet或SRGAN明顯最好的損失函數(shù)。但是,考慮到Set14上的MOS得分,SRGAN-VGG54顯著優(yōu)于其它SRGAN和SRResNet變種。我們觀察到一種趨勢,與\phi_{2,2}相比,使用更高層的VGG特征映射\phi_{5,4}得到了更好的紋理細(xì)節(jié),參見圖6。

Figure 6

圖6:SRResNet(左:a,b),SRGAN-MSE(左中:c,d),SRGAN-VGG2.2(中:e,f)和SRGAN-VGG54(右中:g,h)的重建結(jié)果以及相應(yīng)的參考HR圖像(右:i,j)。 [4倍上采樣]

3.5. 最終網(wǎng)絡(luò)的性能

我們比較了SRResNet、SRGAN、NN、雙三次插值和四種最新方法的性能。定量結(jié)果總結(jié)在表2中,證實(shí)了SRResNet(考慮PSNR/SSIM)在三個(gè)基準(zhǔn)數(shù)據(jù)集上確立了最新的技術(shù)水平。請注意,我們使用了一個(gè)公開可獲得的框架進(jìn)行評估,(參加3.1節(jié)),因此報(bào)告的值可能會(huì)與原始論文中報(bào)告的值略有不同。

我們進(jìn)一步獲得了BSD100數(shù)據(jù)集上SRGAN和所有其他方法的MOS評分。表2中展示的結(jié)果證實(shí)了SRGAN大幅度優(yōu)于所有的參考方法,并為逼真圖像SR確立了最新的技術(shù)水平。除了SRCNN和SelfExSR之外,BSD100上的MOS得分差異(參加表2)是非常顯著的。所有收集的MOS得分分布總結(jié)在圖5中。

4. 討論和未來工作

我們使用MOS測試證實(shí)了SRGAN優(yōu)秀的感知性能。我們進(jìn)一步表明,對于人類視覺系統(tǒng)[55],標(biāo)準(zhǔn)的定量度量,例如PSNR和SSIM,不能捕獲并準(zhǔn)確評估的圖像質(zhì)量。這項(xiàng)工作的重點(diǎn)是超分辨率的感知質(zhì)量而不是計(jì)算效率。與Shi等[47]相反,提出的模型未針對實(shí)時(shí)視頻SR進(jìn)行優(yōu)化。然而,網(wǎng)絡(luò)架構(gòu)的初步試驗(yàn)表明,更窄的網(wǎng)絡(luò)有可能在質(zhì)量性能降低的情況下提供非常有效的替代方案。與Dong等[9]相反,我們發(fā)現(xiàn)更深的網(wǎng)絡(luò)架構(gòu)是有益的。我們推測ResNet設(shè)計(jì)對更深網(wǎng)絡(luò)的性能有實(shí)質(zhì)性影響。我們發(fā)現(xiàn)更深的網(wǎng)絡(luò)(B>16)可以進(jìn)一步提升SRResNet的性能,但是以更長的訓(xùn)練和測試時(shí)間為代價(jià)。我們發(fā)現(xiàn)由于高頻偽影的出現(xiàn),更深網(wǎng)絡(luò)的SRGAN變種越來越難訓(xùn)練。

當(dāng)針對SR問題的逼真解決方案時(shí),內(nèi)容損失的選擇是非常重要的,如圖6所示。在這項(xiàng)工作中,我們發(fā)現(xiàn)l^{SR}_{VGG/5.4}取得了感知上最令人信服的結(jié)果,這歸因于更深的網(wǎng)絡(luò)層可能表示遠(yuǎn)離像素空間的更加抽象[67, 64, 39]特征。我們推測這些深層的特征映射單純的注重內(nèi)容而剩下的對抗損失注重紋理細(xì)節(jié),這是沒有對抗損失的超分辨率圖像和逼真圖像之間的主要差異。我們也注意到理想的損失函數(shù)取決于應(yīng)用。例如,虛幻的更精細(xì)的細(xì)節(jié)可能不適合醫(yī)療引用或監(jiān)控。感知上令人信服的文本或結(jié)構(gòu)化場景[30]重建是具有挑戰(zhàn)性的,是未來工作的一部分。內(nèi)容損失函數(shù)的開發(fā)描述了圖像空間內(nèi)容,但對像素空間變化的不變性將進(jìn)一步改善逼真的圖像SR結(jié)果。

5. 結(jié)論

我們描述了一個(gè)深度殘差網(wǎng)絡(luò)SRResNet,當(dāng)廣泛使用PSNR度量進(jìn)行評估時(shí),其在公共基準(zhǔn)數(shù)據(jù)集上樹立了最新的技術(shù)水平。我們強(qiáng)調(diào)了以PSNR為中心的超分辨率的一些限制,引入了SRGAN,其通過訓(xùn)練GAN增加了具有對抗損失的內(nèi)容損失函數(shù)。使用廣泛的MOS測試,我們證實(shí)了對于大的上采樣系數(shù)(4×),SRGAN重構(gòu)比最新的參考方法得到的重構(gòu)更逼真。

References

[1] J. Allebach and P. W. Wong. Edge-directed interpolation. In Proceedings of International Conference on Image Processing, volume 3, pages 707–710, 1996.

[2] M. Bevilacqua, A. Roumy, C. Guillemot, and M. L. Alberi-Morel. Low-complexity single-image super-resolution based on nonnegative neighbor embedding. BMVC, 2012.

[3] S. Borman and R. L. Stevenson. Super-Resolution from Image Sequences - A Review. Midwest Symposium on Circuits and Systems, pages 374–378, 1998.

[4] J. Bruna, P. Sprechmann, and Y. LeCun. Super-resolution with deep convolutional sufficient statistics. In International Conference on Learning Representations (ICLR), 2016.

[5] D. Dai, R. Timofte, and L. Van Gool. Jointly optimized regressors for image super-resolution. In Computer Graphics Forum, volume 34, pages 95–104, 2015.

[6] E. Denton, S. Chintala, A. Szlam, and R. Fergus. Deep generative image models using a laplacian pyramid of adversarial networks. In Advances in Neural Information Processing Systems (NIPS), pages 1486–1494, 2015.

[7] S. Dieleman, J. Schluter, C. Raffel, E. Olson, S. K. Snderby, ¨D. Nouri, D. Maturana, M. Thoma, E. Battenberg, J. Kelly, J. D. Fauw, M. Heilman, diogo149, B. McFee, H. Weideman, takacsg84, peterderivaz, Jon, instagibbs, D. K. Rasul, CongLiu, Britefury, and J. Degrave. Lasagne: First release., 2015.

[8] C. Dong, C. C. Loy, K. He, and X. Tang. Learning a deep convolutional network for image super-resolution. In European Conference on Computer Vision (ECCV), pages 184–199. Springer, 2014.

[9] C. Dong, C. C. Loy, K. He, and X. Tang. Image super-resolution using deep convolutional networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 38(2):295–307, 2016.

[10] C. Dong, C. C. Loy, and X. Tang. Accelerating the super-resolution convolutional neural network. In European Conference on Computer Vision (ECCV), pages 391–407. Springer, 2016.

[11] W. Dong, L. Zhang, G. Shi, and X. Wu. Image deblurring and superresolution by adaptive sparse domain selection and adaptive regularization. IEEE Transactions on Image Processing, 20(7):1838–1857, 2011.

[12] A. Dosovitskiy and T. Brox. Generating images with perceptual similarity metrics based on deep networks. In Advances in Neural Information Processing Systems (NIPS), pages 658–666, 2016.

[13] C. E. Duchon. Lanczos Filtering in One and Two Dimensions. In Journal of Applied Meteorology, volume 18, pages 1016–1022. 1979.

[14] S. Farsiu, M. D. Robinson, M. Elad, and P. Milanfar. Fast and robust multiframe super resolution. IEEE Transactions on Image Processing, 13(10):1327–1344, 2004.

[15] J. A. Ferwerda. Three varieties of realism in computer graphics. In Electronic Imaging, pages 290–297. International Society for Optics and Photonics, 2003.

[16] W. T. Freeman, T. R. Jones, and E. C. Pasztor. Example-based superresolution. IEEE Computer Graphics and Applications, 22(2):56–65, 2002.

[17] W. T. Freeman, E. C. Pasztor, and O. T. Carmichael. Learning lowlevel vision. International Journal of Computer Vision, 40(1):25–47, 2000.

[18] L. A. Gatys, A. S. Ecker, and M. Bethge. Texture synthesis using convolutional neural networks. In Advances in Neural Information Processing Systems (NIPS), pages 262–270, 2015.

[19] L. A. Gatys, A. S. Ecker, and M. Bethge. Image Style Transfer Using Convolutional Neural Networks. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2414–2423, 2016.

[20] D. Glasner, S. Bagon, and M. Irani. Super-resolution from a single image. In IEEE International Conference on Computer Vision (ICCV), pages 349–356, 2009.

[21] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio. Generative adversarial nets. In Advances in Neural Information Processing Systems (NIPS), pages 2672–2680, 2014.

[22] K. Gregor and Y. LeCun. Learning fast approximations of sparse coding. In Proceedings of the 27th International Conference on Machine Learning (ICML-10), pages 399–406, 2010.

[23] S. Gross and M. Wilber. Training and investigating residual nets, online at http://torch.ch/blog/2016/02/04/resnets. html. 2016.

[24] S. Gu, W. Zuo, Q. Xie, D. Meng, X. Feng, and L. Zhang. Convolutional sparse coding for image super-resolution. In IEEE International Conference on Computer Vision (ICCV), pages 1823–1831. 2015.

[25] P. Gupta, P. Srivastava, S. Bhardwaj, and V. Bhateja. A modified psnr metric based on hvs for quality assessment of color images. In IEEE International Conference on Communication and Industrial Application (ICCIA), pages 1–4, 2011.

[26] H. He and W.-C. Siu. Single image super-resolution using gaussian process regression. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 449–456, 2011.

[27] K. He, X. Zhang, S. Ren, and J. Sun. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. In IEEE International Conference on Computer Vision (ICCV), pages 1026–1034, 2015.

[28] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 770–778, 2016.

[29] K. He, X. Zhang, S. Ren, and J. Sun. Identity mappings in deep residual networks. In European Conference on Computer Vision (ECCV), pages 630–645. Springer, 2016.

[30] J. B. Huang, A. Singh, and N. Ahuja. Single image super-resolution from transformed self-exemplars. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 5197–5206, 2015.

[31] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In Proceedings of The 32nd International Conference on Machine Learning (ICML), pages 448–456, 2015.

[32] J. Johnson, A. Alahi, and F. Li. Perceptual losses for real-time style transfer and super-resolution. In European Conference on Computer Vision (ECCV), pages 694–711. Springer, 2016.

[33] J. Kim, J. K. Lee, and K. M. Lee. Deeply-recursive convolutional network for image super-resolution. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.

[34] K. I. Kim and Y. Kwon. Single-image super-resolution using sparse regression and natural image prior. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32(6):1127–1133, 2010.

[35] D. Kingma and J. Ba. Adam: A method for stochastic optimization. In International Conference on Learning Representations (ICLR), 2015.

[36] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In Advances in Neural Information Processing Systems (NIPS), pages 1097–1105, 2012.

[37] C. Li and M. Wand. Combining Markov Random Fields and Convolutional Neural Networks for Image Synthesis. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2479–2486, 2016.

[38] X. Li and M. T. Orchard. New edge-directed interpolation. IEEE Transactions on Image Processing, 10(10):1521–1527, 2001.

[39] A. Mahendran and A. Vedaldi. Visualizing deep convolutional neural networks using natural pre-images. International Journal of Computer Vision, pages 1–23, 2016.

[40] D. Martin, C. Fowlkes, D. Tal, and J. Malik. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics. In IEEE International Conference on Computer Vision (ICCV), volume 2, pages 416–423, 2001.

[41] M. Mathieu, C. Couprie, and Y. LeCun. Deep multi-scale video prediction beyond mean square error. In International Conference on Learning Representations (ICLR), 2016.

[42] K. Nasrollahi and T. B. Moeslund. Super-resolution: A comprehensive survey. In Machine Vision and Applications, volume 25, pages 1423–1468. 2014.

[43] A. Radford, L. Metz, and S. Chintala. Unsupervised representation learning with deep convolutional generative adversarial networks. In International Conference on Learning Representations (ICLR), 2016.

[44] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, et al. Imagenet large scale visual recognition challenge. International Journal of Computer Vision, pages 1–42, 2014.

[45] J. Salvador and E. Perez-Pellitero. Naive bayes super-resolution ′forest. In IEEE International Conference on Computer Vision (ICCV), pages 325–333. 2015.

[46] S. Schulter, C. Leistner, and H. Bischof. Fast and accurate image upscaling with super-resolution forests. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 3791–3799, 2015.

[47] W. Shi, J. Caballero, F. Huszar, J. Totz, A. P. Aitken, R. Bishop, D. Rueckert, and Z. Wang. Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1874–1883, 2016.

[48] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In International Conference on Learning Representations (ICLR), 2015.

[49] J. Sun, J. Sun, Z. Xu, and H.-Y. Shum. Image super-resolution using gradient profile prior. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1–8, 2008.

[50] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1–9, 2015.

[51] Y.-W. Tai, S. Liu, M. S. Brown, and S. Lin. Super Resolution using Edge Prior and Single Image Detail Synthesis. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2400–2407, 2010.

[52] Theano Development Team. Theano: A Python framework for fast computation of mathematical expressions. arXiv preprint arXiv:1605.02688, 2016.

[53] R. Timofte, V. De, and L. Van Gool. Anchored neighborhood regression for fast example-based super-resolution. In IEEE International Conference on Computer Vision (ICCV), pages 1920–1927, 2013.

[54] R. Timofte, V. De Smet, and L. Van Gool. A+: Adjusted anchored neighborhood regression for fast super-resolution. In Asian Conference on Computer Vision (ACCV), pages 111–126. Springer, 2014.

[55] G. Toderici, D. Vincent, N. Johnston, S. J. Hwang, D. Minnen, J. Shor, and M. Covell. Full Resolution Image Compression with Recurrent Neural Networks. arXiv preprint arXiv:1608.05148, 2016.

[56] Y. Wang, L. Wang, H. Wang, and P. Li. End-to-End Image SuperResolution via Deep and Shallow Convolutional Networks. arXiv preprint arXiv:1607.07680, 2016.

[57] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli. Image quality assessment: From error visibility to structural similarity. IEEE Transactions on Image Processing, 13(4):600–612, 2004.

[58] Z. Wang, D. Liu, J. Yang, W. Han, and T. Huang. Deep networks for image super-resolution with sparse prior. In IEEE International Conference on Computer Vision (ICCV), pages 370–378, 2015.

[59] Z. Wang, E. P. Simoncelli, and A. C. Bovik. Multi-scale structural imilarity for image quality assessment. In IEEE Asilomar Conference on Signals, Systems and Computers, volume 2, pages 9–13, 2003.

[60] C.-Y. Yang, C. Ma, and M.-H. Yang. Single-image super-resolution: A benchmark. In European Conference on Computer Vision (ECCV), pages 372–386. Springer, 2014.

[61] J. Yang, J. Wright, T. Huang, and Y. Ma. Image super-resolution as sparse representation of raw image patches. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1–8, 2008.

[62] Q. Yang, R. Yang, J. Davis, and D. Nister. Spatial-depth super resolution for range images. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1–8, 2007.

[63] R. Yeh, C. Chen, T. Y. Lim, M. Hasegawa-Johnson, and M. N. Do. Semantic Image Inpainting with Perceptual and Contextual Losses. arXiv preprint arXiv:1607.07539, 2016.

[64] J. Yosinski, J. Clune, A. Nguyen, T. Fuchs, and H. Lipson. Understanding Neural Networks Through Deep Visualization. In International Conference on Machine Learning - Deep Learning Workshop 2015, page 12, 2015.

[65] X. Yu and F. Porikli. Ultra-resolving face images by discriminative generative networks. In European Conference on Computer Vision (ECCV), pages 318–333. 2016.

[66] H. Yue, X. Sun, J. Yang, and F. Wu. Landmark image superresolution by retrieving web images. IEEE Transactions on Image Processing, 22(12):4865–4878, 2013.

[67] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. In European Conference on Computer Vision (ECCV), pages 818–833. Springer, 2014.

[68] R. Zeyde, M. Elad, and M. Protter. On single image scale-up using sparse-representations. In Curves and Surfaces, pages 711–730. Springer, 2012.

[69] K. Zhang, X. Gao, D. Tao, and X. Li. Multi-scale dictionary for single image super-resolution. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1114–1121, 2012.

[70] W. Zou and P. C. Yuen. Very Low Resolution Face Recognition in Parallel Environment . IEEE Transactions on Image Processing, 21:327–340, 2012.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容