論文: Convolutional Neural Networks for No-Reference Image Quality Assessment
作者 :Le kang, Peng Ye, Yi Li and David Doermann
時間 :發(fā)表2014
代碼鏈接:代碼
名詞解析:MOS/DMOS、SROCC 、LCC
MOS值:平均主觀得分, MOS值越大,圖像質(zhì)量越高;DMOS值:平均主觀得分差異, DMOS值越大,圖像質(zhì)量越低。
SROCC:通過單調(diào)性衡量算法性能;LCC:通過相關(guān)性和準(zhǔn)確性衡量算法性能。除此之外,還有RMSE計算絕對誤差衡量準(zhǔn)確性、KROCC、OR等衡量指標(biāo)。
數(shù)據(jù)庫:LIVE、TID2008作為常用數(shù)據(jù)庫,初次之外還有CSIQ、IVC等。其中LIVE于2006年美國德克薩斯大學(xué)建立。包含圖像 29幅,分辨率438*634-512*768。失真5種,失真圖像779張。指標(biāo)為DMOS(0-100分制)。TID于2008年烏克蘭國家航空航天大學(xué)建立。包含圖像 25幅,分辨率384*512。失真17種,失真圖像1700張。指標(biāo)MOS(0-9分制)
論文內(nèi)容:用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)無參考圖像的質(zhì)量評價。CNN尚未應(yīng)用于通用的無參考圖像質(zhì)量評價,因?yàn)樵嫉腃NN并不是專門用于獲取圖像質(zhì)量特征,而是用于獲取用于物體識別的局部不變特征。因此作者修改了網(wǎng)絡(luò)結(jié)構(gòu),使其可以更有效的學(xué)習(xí)圖像質(zhì)量特征。將特征提取和回歸集成到常規(guī)的CNN框架,一來加深的網(wǎng)絡(luò)深度,提高其學(xué)習(xí)能力,如:實(shí)驗(yàn)表面使用比CORNIA方法更少的濾波器達(dá)到更好的效果;二來,網(wǎng)絡(luò)作為一個整體,可以使用反向傳播等簡單方法對整個網(wǎng)絡(luò)訓(xùn)練,比較方便地結(jié)合用于改善學(xué)習(xí)的技術(shù),如dropout和 ReLU,因向所有層應(yīng)用dropout會顯著增加達(dá)到收斂的時間, 作者僅在第二個全連接層使用dropout,同時最小池化會保留負(fù)值信息,因此在卷積和池化層之后不使用ReLU。
網(wǎng)絡(luò)輸入為32*32的圖像塊,輸出為一個數(shù)作為量化的圖像質(zhì)量。網(wǎng)絡(luò)結(jié)構(gòu):第一層是一個卷積層,50個內(nèi)核,每個大小為7×7的對輸入進(jìn)行濾波,步長為1;接著是最大最小池化;兩個全鏈接層;最后一層是一個簡單的線性回歸。如圖所示:

提取特征:基于NSS自然場景統(tǒng)計。傳統(tǒng)的提取基于NSS的特征是使用小波變化或者DCT,因?yàn)閳D像轉(zhuǎn)化代價大,因此速度很慢。CORNIA和BRISQUE方法提出從空域提取特征,減少時間花費(fèi)。同時CORNIA表明,可以直接從原始圖像中學(xué)習(xí)判別圖像特征。在這之前,也有用神經(jīng)網(wǎng)絡(luò)做無參考的圖像質(zhì)量評價,采用一般回歸神經(jīng)網(wǎng)絡(luò)作為輸入感知特征,包括相位一致性,熵和圖像梯度或者結(jié)合多個特定失真的測量方法。這些方法需要預(yù)先提取手工特征,并且只使用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)回歸函數(shù)。
論文方法特點(diǎn):文章的方法無需手工特征,直接從規(guī)范化的原始圖像中學(xué)習(xí)判別特征。且效果好于上面提到的ORNIA和BRISQUE方法。且文中提出的框架允許學(xué)習(xí)和預(yù)測局部圖像質(zhì)量。本文著重關(guān)注由圖像降級引起的失真,例如模糊,壓縮和加性噪聲。對于對比度和亮度變化引起的質(zhì)量差異不作為失真。
過程:
1)給定灰度圖,作對比度歸一化(局部,不同于識別中的全局歸一化)
2)對歸一化的圖像作不重疊采用
3)使用CNN估計每個圖像patch的質(zhì)量
4)對patch質(zhì)量平均得到整幅圖像的質(zhì)量
訓(xùn)練:
損失函數(shù):L1范式
更新權(quán)重:

其中,learning rate=0.1,learning rate decay (d) = 0.9,starting momentums(rs)=0.9,ending momentums(re)=0.5,T=10
訓(xùn)練集:60%,測試集:20%; 驗(yàn)證集:20%。論文數(shù)據(jù)來自100次迭代訓(xùn)練測試
CNN設(shè)計中涉及的參數(shù):
1)卷積核數(shù)量:實(shí)驗(yàn)顯示,使用更多的卷積核會帶來更好的性能,(測試從5個到5個)但是當(dāng)內(nèi)核數(shù)量超過40時,獲得的性能增長很少。
2)卷積核的尺寸:從文中實(shí)驗(yàn)得出,(測試了5*5, 7*7, 9*9)所有測試的卷積核大小都表現(xiàn)出相似的性能。 建議的網(wǎng)絡(luò)對核大小不敏感。
3)圖像塊尺寸:為圖像塊尺寸越大,數(shù)量則越少的情況,實(shí)驗(yàn)允許重疊采樣并固定步長。這樣當(dāng)圖像塊尺寸變化時,每幅圖像的塊數(shù)量大體不變。實(shí)驗(yàn)顯示尺寸越大,性能越好。不過較大的圖像塊會導(dǎo)致處理時間增加,降低空間質(zhì)量分辨率(測試了16*16, )。
4)采樣步長:較大的步幅通常導(dǎo)致較低的性能,因?yàn)檩^少的圖像信息用于整體估計。但是在步長達(dá)到128時,依然維持了不錯的性能。
關(guān)于局部質(zhì)量平均實(shí)驗(yàn):該CNN測量小圖像塊的質(zhì)量,因此可用于檢測低/高質(zhì)量的局部區(qū)域,并為整個圖像提供全局評分。驗(yàn)證方法如下:從TID2008中選擇一個未失真的參考圖像,并將其分為四個垂直部分。 然后用三種不同等級的失真版本替換第二部分到第四部分。然后使用模型進(jìn)行評價。結(jié)果表面模型可以準(zhǔn)確定位失真區(qū)域。