文章地址。[1907.00516] Learning to Blindly Assess Image Quality in the Laboratory and Wild
這篇主要解決的問(wèn)題是不同dataset之間subjected-rate的評(píng)價(jià)scale不一致的問(wèn)題,眾所周知圖像質(zhì)量評(píng)價(jià)的數(shù)據(jù)庫(kù)一般是由[圖像-主觀評(píng)價(jià)標(biāo)簽]這種形式構(gòu)成的,主觀評(píng)價(jià)標(biāo)簽一般是MQS(mean quality score),大概操作方法可能就是搞了很多人來(lái)給圖片打分最后取個(gè)平均分啥的,但是由于不同數(shù)據(jù)庫(kù)構(gòu)建的時(shí)候采取的打分標(biāo)準(zhǔn)不一樣,比如有的是百分制,有的是五分制啦,或者告訴參與者的打分標(biāo)準(zhǔn)不一樣,這些數(shù)據(jù)不能一起用于訓(xùn)練。本來(lái)圖片質(zhì)量評(píng)估這塊數(shù)據(jù)就少,train的效果和dataset又息息相關(guān)。
主要思路也很簡(jiǎn)單,拋棄原來(lái)的scores,只保留ranking信息,對(duì)j個(gè)數(shù)據(jù)庫(kù)分別做pairs sampling,用二值標(biāo)簽標(biāo)記這些pairs來(lái)表明rank。就是說(shuō)雖然原來(lái)做的那些subjected test有不同的scale,我們不能采用他們打的分,但是rank信息卻是可靠的,一個(gè)pairs里哪張圖好哪張圖不好我們是可以確定的。我們現(xiàn)在需要做的是,尋找一個(gè)依賴于參數(shù)組ω的函數(shù)Fω(x),它把輸入圖片x轉(zhuǎn)化成一個(gè)表示標(biāo)準(zhǔn)感知質(zhì)量的scalar,而且根據(jù)這個(gè)函數(shù)的轉(zhuǎn)化結(jié)果與我們不同pairs里面的ranking標(biāo)簽有最大似然。在這個(gè)圖片→感知質(zhì)量轉(zhuǎn)化器之下,最有可能實(shí)現(xiàn)我們的這些ranking分布。
核心想法就是不直接利用主觀評(píng)價(jià)的分?jǐn)?shù),而是利用主觀評(píng)價(jià)的ranking,這樣就可以利用不同dataset里的數(shù)據(jù)。
網(wǎng)絡(luò)結(jié)構(gòu)也很簡(jiǎn)單。輸入結(jié)構(gòu)是(x,y,r),同一個(gè)數(shù)據(jù)庫(kù)里的兩張圖片以及他們的二值ranking。網(wǎng)絡(luò)框架是ResNet-34,優(yōu)化方法是Adam(其實(shí)就是Momentum+RMSProp的結(jié)合,然后再修正其偏差。?),Loss函數(shù)用的是交叉熵。
