論文筆記 Finding Tiny Faces in the Wild with Generative Adversarial Network

文章來(lái)源:CVPR? 2018

下載鏈接:Paper Download


解決的問(wèn)題:

無(wú)約束條件下的低分辨率的人臉檢測(cè)(即小人臉檢測(cè))


文章內(nèi)容

目前人臉檢測(cè)主要面臨的挑戰(zhàn)是:

?(1) 低分辨率的人臉缺乏詳細(xì)的細(xì)節(jié)信息,以及圖像模糊等問(wèn)題。

?(2) 目前CNN模型卷積核步長(zhǎng)太長(zhǎng),對(duì)于低分辨率人臉識(shí)別容易丟失大部分信息。

?本文算法的創(chuàng)新點(diǎn):

(1) 提出一種新的人臉檢測(cè)的統(tǒng)一端到端卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),采用超分辨率和細(xì)化網(wǎng)絡(luò)生成真實(shí)清晰的高分辨率圖像,并引入判別網(wǎng)絡(luò)對(duì)人臉與非人臉進(jìn)行分類。

(2) 引入新的判別器loss。

?本文算法的核心思想:

本文方法主要是針對(duì)實(shí)際應(yīng)用而提出的人臉檢測(cè)算法,由于在無(wú)約束的環(huán)境下,人臉可能會(huì)以模糊、側(cè)臉、低分辨率等方式呈現(xiàn)。針對(duì)該問(wèn)題,作者通過(guò)采用生成對(duì)抗網(wǎng)絡(luò)(GAN)直接從模糊的低分辨率人臉中生成清晰的高分辨率人臉,然后進(jìn)行人臉檢測(cè)。對(duì)于生成的超分辨率圖像,可能是非人臉,因此作者在鑒別器網(wǎng)絡(luò)中加入分類分支來(lái)判斷生成圖像是人臉還是非人臉,從而增強(qiáng)人臉檢測(cè)算法的魯棒性。下圖為本文算法的網(wǎng)絡(luò)結(jié)構(gòu)圖。

Figure 1. The pipeline of the proposed tiny face detector system.

對(duì)于本文的GAN網(wǎng)絡(luò),生成器包含兩個(gè)子網(wǎng)絡(luò):超分辨率網(wǎng)絡(luò)和細(xì)化網(wǎng)絡(luò);判別器中加入分支網(wǎng)絡(luò),用于區(qū)分人臉、非人臉和生成圖片、真實(shí)圖片。超分辨率網(wǎng)絡(luò)(SRN)對(duì)小人臉進(jìn)行小尺度上采樣,在較大尺度上減小偽影,提高上采樣圖像質(zhì)量。細(xì)化網(wǎng)絡(luò)(network, RN)可以恢復(fù)上采樣圖像中缺失的一些細(xì)節(jié),生成清晰的高分辨率圖像進(jìn)行分類。鑒別子網(wǎng)絡(luò)利用一種新的損失函數(shù),使鑒別器網(wǎng)絡(luò)同時(shí)區(qū)分real/fake face 和 face/non-face(即區(qū)分是生成器合成的圖像還是ground truth圖像,以及是人臉還是非人臉)。該算法的損失函數(shù)主要包括三部分,分別為:

??(1)?Pixel-wise loss:MSE loss,通過(guò)像素級(jí)的MSE損失來(lái)強(qiáng)制生成器的輸出接近超分辨率的ground truth值,具體公式如圖2所示。?

???(2)?Adversarial loss:促進(jìn)生成器生成更逼真的圖片,具體公式如圖2所示。?

????(3)?Classification loss:其作用是為了使生成網(wǎng)絡(luò)重構(gòu)的圖像更易于分類,同時(shí)抑制非人臉轉(zhuǎn)變?yōu)槿四樀倪^(guò)程,(如,將模糊桌子轉(zhuǎn)變成人臉的過(guò)程),具體公式如圖2所示 。

圖2 本文算法所用的損失函數(shù)

圖2中Classification loss存在一個(gè)問(wèn)題,文章介紹yn=1表示人臉,而yn=0表示非人臉。那么,當(dāng)yi=0時(shí),log(yi-Dθ(IiHR))該如何取值,文中未對(duì)此進(jìn)行說(shuō)明(或許本人理解錯(cuò)誤,此文僅供參考)。

最終將上圖中三個(gè)損失函數(shù)相結(jié)合,得到最終的objective function,其公式如圖3所示:

圖3?objective function

圖4中給出了本文GAN網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì)表。其中Generator網(wǎng)絡(luò)使用deep CNN, batch-normalization, ReLU,而Discriminator使用VGG19網(wǎng)絡(luò)。

Figure 4. Architecture of the generator and discriminator network. “conv” represents a convolutional layer, “x8” denotes a residual block which has 8 convolutional layers, “de-conv” means a fractionally-stride convolutional layer, “2x” denotes up-sampling by a factor of 2, and “fc” indicates a fully connected layer.

實(shí)驗(yàn)結(jié)果

本文算法在WIDER FACE和FDDB兩個(gè)公開(kāi)的人臉檢測(cè)數(shù)據(jù)集上進(jìn)行訓(xùn)練以及測(cè)試。Trade-off weights α = 0.001 and β = 0.01。另外,圖1中的MB-FCN detector是17年提出的一種人臉檢測(cè)算法,知乎上有關(guān)于其的詳細(xì)介紹,本文中僅使用它在數(shù)據(jù)集中隨機(jī)截取人臉圖片和非人臉圖片,用于訓(xùn)練網(wǎng)絡(luò)的輸入。其中,訓(xùn)練使用的low-resolution images通過(guò)下采樣生成,high-resolution images使用雙三次插值生成。實(shí)驗(yàn)結(jié)果如下圖所示。

Figure 5. Qualitative detection results of our proposed method. Green bounding boxes are ground truth annotations and red bounding boxes are the results from our method. Best seen on the computer, in color and zoomed in.

文中還對(duì)各個(gè)損失函數(shù)的性能進(jìn)行了驗(yàn)證,即Ablation Studies, 其性能對(duì)比結(jié)果如下圖。

Figure 6. Performance of the baseline model trained with and without GAN, refinement network, adversarial loss and classification loss on the WIDER FACE invalidation set.

本文方法與state-of-the-art方法對(duì)比的實(shí)驗(yàn)結(jié)果如下圖。

Figure 7. On the WIDER FACE validation set, we compare our method with several state-of-the-art methods: MSCNN[31], MTTCNN[33], CMS-RCNN[37], HR[10], SSH[19], SFD[35]. The average precision (AP) is reported in the legend. Best viewed in color.

本文方法性能提升的原因

(1)本文方法主要是針對(duì)無(wú)約束、低分辨率的人臉進(jìn)行檢測(cè),而這種情況下的人臉大部分是模糊不清晰的。既然這些人臉?lè)直媛实?,所以作者就通過(guò)所設(shè)計(jì)的網(wǎng)絡(luò)(超分辨率網(wǎng)絡(luò)SRN)將其分辨率變大,這樣得到的圖像可能是不清晰的,因此作者就通過(guò)細(xì)化網(wǎng)絡(luò)將其變清晰,從而使生成的圖像含有詳細(xì)的細(xì)節(jié)信息,以便于人臉和非人臉的判別?;谶@樣的思路,網(wǎng)絡(luò)均可將輸入的低分辨率人臉合成高分辨率的人臉,同時(shí)也可以準(zhǔn)確鑒別合成圖像是否是人臉。

(2)本文方法在鑒別器網(wǎng)絡(luò)中加入了分類分支,這可以抑制低分辨率的非人臉圖像向人臉圖像轉(zhuǎn)化。GAN網(wǎng)絡(luò)本來(lái)就是用來(lái)生成我們所期望輸出的圖像,這樣鑒別器同樣可以引導(dǎo)非人臉圖像向人臉圖像轉(zhuǎn)化(如GAN網(wǎng)格可以將低分辨率模糊的桌子引導(dǎo)生成至清晰人臉),所以為了阻止該過(guò)程的發(fā)生,作者引入了Classification loss,當(dāng)生成初步可判斷的非人臉圖像時(shí),網(wǎng)絡(luò)就可以直接阻止生成網(wǎng)絡(luò)將其合成至人臉圖像。


相關(guān)參考:Finding Tiny Faces in the Wild with Generative Adversarial Network、Finding Tiny Faces in the Wild with Generative Adversarial Network 論文學(xué)習(xí)?


內(nèi)容說(shuō)明:

博客:論文筆記 | 低分辨率人臉識(shí)別:Finding Tiny Faces in the Wild with Generative Adversarial Network(AI_ISCAS)同為本人所寫(xiě),兩者之間所涉及的內(nèi)容幾乎相同。

上述內(nèi)容僅個(gè)人的點(diǎn)滴粗見(jiàn),如有不當(dāng)之處,請(qǐng)同行批評(píng)指正。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容