文章來(lái)源:CVPR? 2018
下載鏈接:Paper Download
解決的問(wèn)題:
無(wú)約束條件下的低分辨率的人臉檢測(cè)(即小人臉檢測(cè))
文章內(nèi)容
目前人臉檢測(cè)主要面臨的挑戰(zhàn)是:
?(1) 低分辨率的人臉缺乏詳細(xì)的細(xì)節(jié)信息,以及圖像模糊等問(wèn)題。
?(2) 目前CNN模型卷積核步長(zhǎng)太長(zhǎng),對(duì)于低分辨率人臉識(shí)別容易丟失大部分信息。
?本文算法的創(chuàng)新點(diǎn):
(1) 提出一種新的人臉檢測(cè)的統(tǒng)一端到端卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),采用超分辨率和細(xì)化網(wǎng)絡(luò)生成真實(shí)清晰的高分辨率圖像,并引入判別網(wǎng)絡(luò)對(duì)人臉與非人臉進(jìn)行分類。
(2) 引入新的判別器loss。
?本文算法的核心思想:
本文方法主要是針對(duì)實(shí)際應(yīng)用而提出的人臉檢測(cè)算法,由于在無(wú)約束的環(huán)境下,人臉可能會(huì)以模糊、側(cè)臉、低分辨率等方式呈現(xiàn)。針對(duì)該問(wèn)題,作者通過(guò)采用生成對(duì)抗網(wǎng)絡(luò)(GAN)直接從模糊的低分辨率人臉中生成清晰的高分辨率人臉,然后進(jìn)行人臉檢測(cè)。對(duì)于生成的超分辨率圖像,可能是非人臉,因此作者在鑒別器網(wǎng)絡(luò)中加入分類分支來(lái)判斷生成圖像是人臉還是非人臉,從而增強(qiáng)人臉檢測(cè)算法的魯棒性。下圖為本文算法的網(wǎng)絡(luò)結(jié)構(gòu)圖。

對(duì)于本文的GAN網(wǎng)絡(luò),生成器包含兩個(gè)子網(wǎng)絡(luò):超分辨率網(wǎng)絡(luò)和細(xì)化網(wǎng)絡(luò);判別器中加入分支網(wǎng)絡(luò),用于區(qū)分人臉、非人臉和生成圖片、真實(shí)圖片。超分辨率網(wǎng)絡(luò)(SRN)對(duì)小人臉進(jìn)行小尺度上采樣,在較大尺度上減小偽影,提高上采樣圖像質(zhì)量。細(xì)化網(wǎng)絡(luò)(network, RN)可以恢復(fù)上采樣圖像中缺失的一些細(xì)節(jié),生成清晰的高分辨率圖像進(jìn)行分類。鑒別子網(wǎng)絡(luò)利用一種新的損失函數(shù),使鑒別器網(wǎng)絡(luò)同時(shí)區(qū)分real/fake face 和 face/non-face(即區(qū)分是生成器合成的圖像還是ground truth圖像,以及是人臉還是非人臉)。該算法的損失函數(shù)主要包括三部分,分別為:
??(1)?Pixel-wise loss:MSE loss,通過(guò)像素級(jí)的MSE損失來(lái)強(qiáng)制生成器的輸出接近超分辨率的ground truth值,具體公式如圖2所示。?
???(2)?Adversarial loss:促進(jìn)生成器生成更逼真的圖片,具體公式如圖2所示。?
????(3)?Classification loss:其作用是為了使生成網(wǎng)絡(luò)重構(gòu)的圖像更易于分類,同時(shí)抑制非人臉轉(zhuǎn)變?yōu)槿四樀倪^(guò)程,(如,將模糊桌子轉(zhuǎn)變成人臉的過(guò)程),具體公式如圖2所示 。

圖2中Classification loss存在一個(gè)問(wèn)題,文章介紹yn=1表示人臉,而yn=0表示非人臉。那么,當(dāng)yi=0時(shí),log(yi-Dθ(IiHR))該如何取值,文中未對(duì)此進(jìn)行說(shuō)明(或許本人理解錯(cuò)誤,此文僅供參考)。
最終將上圖中三個(gè)損失函數(shù)相結(jié)合,得到最終的objective function,其公式如圖3所示:

圖4中給出了本文GAN網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì)表。其中Generator網(wǎng)絡(luò)使用deep CNN, batch-normalization, ReLU,而Discriminator使用VGG19網(wǎng)絡(luò)。

實(shí)驗(yàn)結(jié)果
本文算法在WIDER FACE和FDDB兩個(gè)公開(kāi)的人臉檢測(cè)數(shù)據(jù)集上進(jìn)行訓(xùn)練以及測(cè)試。Trade-off weights α = 0.001 and β = 0.01。另外,圖1中的MB-FCN detector是17年提出的一種人臉檢測(cè)算法,知乎上有關(guān)于其的詳細(xì)介紹,本文中僅使用它在數(shù)據(jù)集中隨機(jī)截取人臉圖片和非人臉圖片,用于訓(xùn)練網(wǎng)絡(luò)的輸入。其中,訓(xùn)練使用的low-resolution images通過(guò)下采樣生成,high-resolution images使用雙三次插值生成。實(shí)驗(yàn)結(jié)果如下圖所示。

文中還對(duì)各個(gè)損失函數(shù)的性能進(jìn)行了驗(yàn)證,即Ablation Studies, 其性能對(duì)比結(jié)果如下圖。

本文方法與state-of-the-art方法對(duì)比的實(shí)驗(yàn)結(jié)果如下圖。

本文方法性能提升的原因
(1)本文方法主要是針對(duì)無(wú)約束、低分辨率的人臉進(jìn)行檢測(cè),而這種情況下的人臉大部分是模糊不清晰的。既然這些人臉?lè)直媛实?,所以作者就通過(guò)所設(shè)計(jì)的網(wǎng)絡(luò)(超分辨率網(wǎng)絡(luò)SRN)將其分辨率變大,這樣得到的圖像可能是不清晰的,因此作者就通過(guò)細(xì)化網(wǎng)絡(luò)將其變清晰,從而使生成的圖像含有詳細(xì)的細(xì)節(jié)信息,以便于人臉和非人臉的判別?;谶@樣的思路,網(wǎng)絡(luò)均可將輸入的低分辨率人臉合成高分辨率的人臉,同時(shí)也可以準(zhǔn)確鑒別合成圖像是否是人臉。
(2)本文方法在鑒別器網(wǎng)絡(luò)中加入了分類分支,這可以抑制低分辨率的非人臉圖像向人臉圖像轉(zhuǎn)化。GAN網(wǎng)絡(luò)本來(lái)就是用來(lái)生成我們所期望輸出的圖像,這樣鑒別器同樣可以引導(dǎo)非人臉圖像向人臉圖像轉(zhuǎn)化(如GAN網(wǎng)格可以將低分辨率模糊的桌子引導(dǎo)生成至清晰人臉),所以為了阻止該過(guò)程的發(fā)生,作者引入了Classification loss,當(dāng)生成初步可判斷的非人臉圖像時(shí),網(wǎng)絡(luò)就可以直接阻止生成網(wǎng)絡(luò)將其合成至人臉圖像。
相關(guān)參考:Finding Tiny Faces in the Wild with Generative Adversarial Network、Finding Tiny Faces in the Wild with Generative Adversarial Network 論文學(xué)習(xí)?
內(nèi)容說(shuō)明:
博客:論文筆記 | 低分辨率人臉識(shí)別:Finding Tiny Faces in the Wild with Generative Adversarial Network(AI_ISCAS)同為本人所寫(xiě),兩者之間所涉及的內(nèi)容幾乎相同。
上述內(nèi)容僅個(gè)人的點(diǎn)滴粗見(jiàn),如有不當(dāng)之處,請(qǐng)同行批評(píng)指正。