論文地址:https://arxiv.org/abs/1704.02738
多幀SR與單幀相比,最主要的兩個問題:
(1) 如何對齊多個幀以構(gòu)造精確的對應(yīng)關(guān)系;
(2) 如何有效地融合圖像細節(jié)以獲得高質(zhì)量的輸出。
1 亞像素運動補償(SPMC)
如果想要把圖像a warp到圖像b上面去,則需要b到a的光流。因為要對b進行遍歷,去a里面找插值的數(shù)據(jù)。
圖像的降質(zhì)模型(由第0幀HR變換到第i幀LR):

上述公式是從第0幀warp到第i幀,需要的是從i到0的光流;然而大多數(shù)方法是把圖像從第i幀對齊到第0幀,應(yīng)該使用0到i的光流。
后面一堆公式還沒看懂是啥意思……
2 Method
方法框架分為三個部分:
(1) 運動估計:估計幀與幀之間的運動場;
(2) 運動補償:通過運動補償對齊幀;
(3) 細節(jié)融合:放大圖像尺寸、增加圖像細節(jié)。
2.1 運動估計
輸入兩幀LR圖像,輸出一個運動場:


其中,運動估計(ME)網(wǎng)絡(luò)使用的是VESPCN
中的MCT模型。
2.2 SPMC層
同時實現(xiàn)亞像素運動補償和分辨率增強。

(1) 采樣網(wǎng)格生成器

相當(dāng)于構(gòu)建了一個坐標(biāo)的對應(yīng)關(guān)系。對于原圖中第p個像素而言,(xp, yp)是它在原圖中的坐標(biāo),(up, vp)是它的位移,即光流估計的結(jié)果,a是放大倍數(shù),(xsp, ysp)是它在結(jié)果圖中對應(yīng)的坐標(biāo)。
(2) 對網(wǎng)格進行填充

遍歷網(wǎng)格中的像素,像素值為LR圖像中像素的加權(quán)和,權(quán)值由像素之間的距離決定。M(·)函數(shù)可?。ㄔ谝槐椴┛椭锌吹降?,相當(dāng)于雙線性插值):

2.3 細節(jié)融合網(wǎng)絡(luò)
網(wǎng)絡(luò)的設(shè)計考慮到以下幾點:
(1) 輸入圖像JiH是HR尺度,需要考慮計算量的問題;
(2) JiH圖像很稀疏,大多數(shù)是用0填充的,所以需要網(wǎng)絡(luò)有足夠大的感受野;
(3) 生成的HR圖像需要與第0幀的結(jié)構(gòu)保持一致,但是過度強調(diào)第0幀可能會導(dǎo)致沒有利用到其他幀中的信息。
針對上述前兩點設(shè)計了編解碼的結(jié)構(gòu),網(wǎng)絡(luò)的結(jié)構(gòu)為:編碼->LSTM模塊->解碼。

2.4 訓(xùn)練步驟
- 先訓(xùn)預(yù)練運動估計(ME)網(wǎng)絡(luò),運動估計損失:

- 再預(yù)訓(xùn)練SR網(wǎng)絡(luò),SR損失:

3.最后聯(lián)合訓(xùn)練整體網(wǎng)絡(luò),總損失:

3 Experiment
從六個方面實驗證明了方法的有效性:
- SPMC層的有效性:SPMC層 vs. 先warp在bicubic插值
- 細節(jié)融合的有效性:3張同樣的輸入 vs. 3張不同的輸入
- 細節(jié)融合網(wǎng)絡(luò)的輸入:輸入JiH vs. 輸入JiH 加 I0L的bicubic(或0填充上采樣)
- 和其他視頻SR方法比較
- 和其他單幀SR方法比較
- 真實世界視頻實例