論文筆記 |《Detail-revealing Deep Video Super-resolution》

論文地址:https://arxiv.org/abs/1704.02738


多幀SR與單幀相比,最主要的兩個問題:
(1) 如何對齊多個幀以構(gòu)造精確的對應(yīng)關(guān)系;
(2) 如何有效地融合圖像細節(jié)以獲得高質(zhì)量的輸出。

1 亞像素運動補償(SPMC)

如果想要把圖像a warp到圖像b上面去,則需要b到a的光流。因為要對b進行遍歷,去a里面找插值的數(shù)據(jù)。

圖像的降質(zhì)模型(由第0幀HR變換到第i幀LR):

上述公式是從第0幀warp到第i幀,需要的是從i到0的光流;然而大多數(shù)方法是把圖像從第i幀對齊到第0幀,應(yīng)該使用0到i的光流。

后面一堆公式還沒看懂是啥意思……

2 Method

方法框架分為三個部分:
(1) 運動估計:估計幀與幀之間的運動場;
(2) 運動補償:通過運動補償對齊幀;
(3) 細節(jié)融合:放大圖像尺寸、增加圖像細節(jié)。

2.1 運動估計
輸入兩幀LR圖像,輸出一個運動場:

其中,運動估計(ME)網(wǎng)絡(luò)使用的是VESPCN
中的MCT模型。

2.2 SPMC層
同時實現(xiàn)亞像素運動補償和分辨率增強。

(1) 采樣網(wǎng)格生成器

相當(dāng)于構(gòu)建了一個坐標(biāo)的對應(yīng)關(guān)系。對于原圖中第p個像素而言,(xp, yp)是它在原圖中的坐標(biāo),(up, vp)是它的位移,即光流估計的結(jié)果,a是放大倍數(shù),(xsp, ysp)是它在結(jié)果圖中對應(yīng)的坐標(biāo)。

(2) 對網(wǎng)格進行填充

遍歷網(wǎng)格中的像素,像素值為LR圖像中像素的加權(quán)和,權(quán)值由像素之間的距離決定。M(·)函數(shù)可?。ㄔ谝槐椴┛椭锌吹降?,相當(dāng)于雙線性插值):

2.3 細節(jié)融合網(wǎng)絡(luò)
網(wǎng)絡(luò)的設(shè)計考慮到以下幾點:
(1) 輸入圖像JiH是HR尺度,需要考慮計算量的問題;
(2) JiH圖像很稀疏,大多數(shù)是用0填充的,所以需要網(wǎng)絡(luò)有足夠大的感受野;
(3) 生成的HR圖像需要與第0幀的結(jié)構(gòu)保持一致,但是過度強調(diào)第0幀可能會導(dǎo)致沒有利用到其他幀中的信息。

針對上述前兩點設(shè)計了編解碼的結(jié)構(gòu),網(wǎng)絡(luò)的結(jié)構(gòu)為:編碼->LSTM模塊->解碼。

網(wǎng)絡(luò)結(jié)構(gòu)

2.4 訓(xùn)練步驟

  1. 先訓(xùn)預(yù)練運動估計(ME)網(wǎng)絡(luò),運動估計損失:
  1. 再預(yù)訓(xùn)練SR網(wǎng)絡(luò),SR損失:

3.最后聯(lián)合訓(xùn)練整體網(wǎng)絡(luò),總損失:

3 Experiment

從六個方面實驗證明了方法的有效性:

  1. SPMC層的有效性:SPMC層 vs. 先warp在bicubic插值
  2. 細節(jié)融合的有效性:3張同樣的輸入 vs. 3張不同的輸入
  3. 細節(jié)融合網(wǎng)絡(luò)的輸入:輸入JiH vs. 輸入JiH 加 I0L的bicubic(或0填充上采樣)
  4. 和其他視頻SR方法比較
  5. 和其他單幀SR方法比較
  6. 真實世界視頻實例
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容