原論文鏈接:https://arxiv.org/abs/1701.07174
Towards End-to-End Face Recognition through Alignment Learning
通過對齊學(xué)習(xí)實現(xiàn)端到端的人臉識別
YuanyiZhong,JianshengChen,BoHuang,DepartmentofElectronicEngineering,TsinghuaUniversity
摘要
近十年來,人們提出了許多有效的人臉識別方法。雖然這些方法在許多方面是不同的,他們通常的做法是要求在人臉特征提取之前,根據(jù)人臉結(jié)構(gòu)的先驗知識對人臉區(qū)域進(jìn)行對齊。在大多數(shù)系統(tǒng)中,人臉對齊模塊是獨立實現(xiàn)的。這導(dǎo)致了端到端的人臉識別模型的訓(xùn)練和設(shè)計十分困難。在本文中,我們研究了通過對齊學(xué)習(xí)實現(xiàn)端到端的人臉識別的可能性,既不需要先驗知識,也不需要人工定義的幾何變換。具體來說,在卷積神經(jīng)網(wǎng)絡(luò)(CNN)中將一個空間變換層插入到特征提取層之前的人臉識別。只通過人類的身份線索來驅(qū)動神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)對于識別任務(wù)來說最合適的幾何變換和最合適的面部區(qū)域。為確??芍貜?fù)性,我們的模型進(jìn)行訓(xùn)練只在公開的CASIA webface數(shù)據(jù)集,測試是在LFW數(shù)據(jù)集。我們已經(jīng)實現(xiàn)了99.08%的驗證精度,與目前最先進(jìn)的基于模型的方法相媲美。
1?介紹
在過去的幾年中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)的引入大大提高了現(xiàn)有計算機(jī)視覺任務(wù)的性能,包括面部識別和驗證[ 25, 23, 24,30, 22, 19,33 ]。代替?zhèn)鹘y(tǒng)的通過手工標(biāo)記特征來構(gòu)建分類模型,深度學(xué)習(xí)通過數(shù)據(jù)驅(qū)動成功提高了面部特征的魯棒性。因此,受過良好訓(xùn)練的CNN網(wǎng)絡(luò)能夠較好的處理人臉圖像的姿勢、遮擋和光照變化[ 22, 19, 8 ]。
然而,現(xiàn)實生活場景中的大姿態(tài)變化仍然是人臉識別系統(tǒng)在實際應(yīng)用中面臨的挑戰(zhàn)。一般有兩種方法來處理這個問題:一種方法是建立姿勢感知或基于部分的模型來處理特定姿勢的人臉圖像[ 17, 15 ]。另一種更常用的方法是在人臉識別的特征提取前引入一個明確的面部對齊過程[ 23, 10, 30,8 ]。以往的研究已經(jīng)證實,[ 22, 19 ]加入人臉對齊步驟,特別是在測試階段,能有效地提高識別性能。因此,一個典型的人臉識別過程通常包括四個階段:(1)從圖像中檢測人臉,(2)特征點定位和通過二維或三維幾何變換對齊檢測人臉,(3)特征提取,(4)基于可能的特征模板識別個人身份。最近的研究表明,雖然3D對齊似乎優(yōu)于2D,但在CNN中對于提取面部特征并沒有顯示出明顯優(yōu)勢[ 1 ]。

Figure 1:在AFW [ 44 ]數(shù)據(jù)集上結(jié)果對比。綠色矩形是人臉檢測結(jié)果,紅色矩形顯示模型預(yù)測投影變換的對齊面孔。
對于這樣一個框架,有兩個主要的問題:人臉對齊和面部特征提取是獨立執(zhí)行的。首先,大多數(shù)的人臉對齊方法[ 36, 20, 7,40 ]依靠準(zhǔn)確的人臉特征點定位、視覺的問題,這可能是比人臉識別更難得任務(wù),考慮到面部特征人工標(biāo)注比收集個人身份信息更費力、更昂貴。的確,面部標(biāo)志可以用于其他有趣的應(yīng)用,如人臉合成和動作單元分析。我們在這里所說的是,可能沒有必要將定位面部基點作為人臉識別的一個先決條件。更重要的是,這樣一個框架下,面部基點的重新定義和重新標(biāo)記訓(xùn)練數(shù)據(jù)對于其他的細(xì)粒度的分類任務(wù)如動物識別[ 42, 41 ]是不可避免的。第二,幾何變換的原則通常在人臉對齊中人為定義。例如,一種廣泛使用的策略是通過非反射相似變換將眼睛和嘴巴周圍的基點對齊。然而,現(xiàn)在并不清楚基于其他特征點的二維變換,后續(xù)的人臉特征提取是否能從中獲益尚不清楚。
因此,一個重要的問題是面部特征識別可以成功地用數(shù)據(jù)驅(qū)動的方式來學(xué)習(xí),那么為什么不能數(shù)據(jù)驅(qū)動面部對齊呢?畢竟,其他階段都可以通過數(shù)據(jù)驅(qū)動訓(xùn)練的時候,在校準(zhǔn)過程中仍然要依靠人工先驗知識會顯得格格不入。因此,在本文中,我們提出一個深度學(xué)習(xí)的人臉識別模型,用一個空間變換模塊[ 12 ]來完成人臉對齊的過程,使人臉的對齊和識別可以統(tǒng)一到同一個類型的框架。該模型具有端到端的可訓(xùn)練性該模型是端到端的可訓(xùn)練性,它不需要任何明確的關(guān)于人臉特征的知識和人為定義的對齊規(guī)則。在訓(xùn)練過程中,該模型通過自動學(xué)習(xí)一致地對齊每個人臉圖像,從而更適合進(jìn)行下一步的面部識別,而且只利用基于身份的線索。
我們通過實驗觀察到該模型一般傾向于將人臉矯正到一個正面垂直的標(biāo)準(zhǔn)位置,就像人們現(xiàn)有的試探過方法[ 23, 38 ]。這并不奇怪,因為大多數(shù)人臉在現(xiàn)實生活中的形象幾乎是垂直的。圖1顯示了我們的模型預(yù)測的人臉大姿態(tài)變化下的投影變換。有趣的是在模型訓(xùn)練中從未使用過底層真值轉(zhuǎn)換的監(jiān)督信號的情況下。模型預(yù)測與底層的真值轉(zhuǎn)換符合度很高。
本文所提出的方法有很多優(yōu)點。通過一個端到端的學(xué)習(xí),人臉對齊和面部特征提取可以相互作用,從而在識別任務(wù)中實現(xiàn)聯(lián)合優(yōu)化。增強(qiáng)了人臉識別對環(huán)境的適應(yīng)能力和捕捉設(shè)備的變化能力。更重要的是,學(xué)習(xí)轉(zhuǎn)化以及中間過程的面部圖像可以很容易地用于其他目的。例如,垂直歸一化人臉圖像可能有助于更精確的人臉屬性預(yù)測和基點定位。此外,該模型可以很容易地擴(kuò)展到其他細(xì)粒度的圖像分類問題。這項工作的主要貢獻(xiàn)可概括如下:
(1)提出了一個既不需要獨立的人臉對齊過程,也不需要先驗知識的人臉識別系統(tǒng)。
(2)我們表明,本文提出的端到端的人臉識別模型可通過標(biāo)準(zhǔn)的SGD訓(xùn)練。
(3)我們揭示了人臉識別不需要先驗知識!這表明盡管神經(jīng)科學(xué)證實的功人的面部感知是由許多功能構(gòu)成的[ 14 ],但是關(guān)于人臉是否以及如何感知不同于一般細(xì)粒度的物體仍然是一個懸而未決的問題。
論文的組織如下:在第2節(jié)我們簡要地介紹了幾個現(xiàn)有的相關(guān)的工作。在第3節(jié)中,我們將描述我們的模型體系結(jié)構(gòu)的細(xì)節(jié)。在在第4節(jié)描述在LFW [ 11 ]數(shù)據(jù)集和YTF [ 34 ]數(shù)據(jù)集上的實驗結(jié)果。第5節(jié)總結(jié)本文的工作。
2相關(guān)的工作
近年來,深度學(xué)習(xí)模型的引入極大地促進(jìn)了人臉識別技術(shù)的發(fā)展。自Facebook的DeepFace系統(tǒng)[ 30 ]顯示數(shù)據(jù)驅(qū)動的人臉識別的深度學(xué)習(xí)范式更有效,基于主流的人臉識別基準(zhǔn)的識別率頻繁被刷新。大量的深度模型被提出用于人臉識別,尤其是CNNs。例如DeepID [ 23, 27, 24 ],F(xiàn)aceNet [ 22。相比于傳統(tǒng)的手工標(biāo)注特征點也已被廣泛接受,如高維LBP特征[ 5 ]、通過人工設(shè)計的約束進(jìn)行特征學(xué)習(xí)例如Bayesian face以及Gaussian-Face,基于個人身份進(jìn)行自動學(xué)習(xí)無論是在識別能力還是魯棒性方面都更具優(yōu)勢。
在大多數(shù)基于學(xué)習(xí)的人臉識別方法中,在訓(xùn)練和測試過程中,深度模型的輸入都是對齊的人臉圖像。通常,通過在檢測到的面部標(biāo)志和特定預(yù)定義面部基準(zhǔn)點之間進(jìn)行二維或三維[ 10, 30 ]幾何變換來進(jìn)行對齊。研究表明,正確的對齊方式對識別性能至關(guān)重要。Parkhi et. Al.證實了在LFW數(shù)據(jù)集上測試,對人臉進(jìn)行對齊后提高了1%的識別精度時。同時表明,在識別率方面,3D對準(zhǔn)與簡單的2D對齊并沒有明顯優(yōu)勢。因此,本文只關(guān)注二維圖像對齊問題。
……
事實上,其他計算機(jī)視覺任務(wù)中已經(jīng)對學(xué)習(xí)幾何變換進(jìn)行了研究,例如手寫數(shù)字識別和鳥類分類[ 12 ]。更具體地說,Jaderberg et. Al.引入一個可導(dǎo)的叫做空間轉(zhuǎn)換的CNN組件,其目的是提高CNN對變換、縮放、旋轉(zhuǎn)甚至更一般的圖像扭曲結(jié)構(gòu)的魯棒性[ 12 ]。由于其可微性,空間轉(zhuǎn)換器可以通過反向傳播針對特定的任務(wù)基于具體的feature map進(jìn)行訓(xùn)練,學(xué)習(xí)最優(yōu)的變換參數(shù)。最近,Chen et. Al.成功地利用空間轉(zhuǎn)換器以監(jiān)督的方式提高了人臉檢測的性能[ 6 ]。在這項工作的啟發(fā)下,我們建議使用空間轉(zhuǎn)換器,同時進(jìn)行最佳人臉對齊與面部特征提取的人臉識別學(xué)習(xí)。以前的工作類似于我們的建議是[ 29 ],其中一個神經(jīng)網(wǎng)絡(luò)被用來預(yù)測轉(zhuǎn)換參數(shù),以方便在嵌入式平臺上進(jìn)行人臉識別。然而,這種神經(jīng)網(wǎng)絡(luò)在監(jiān)督方式采用人工定義轉(zhuǎn)換參數(shù)作為真值訓(xùn)練。雖然我們的目標(biāo)是使自動學(xué)習(xí)的最佳幾何變換的人臉識別只通過個人身份線索驅(qū)動。因此,將不再需要人工定義轉(zhuǎn)換形式,并且可以方便地進(jìn)行面部識別模型的端到端訓(xùn)練。
3方法
本節(jié)介紹了擬議的端到端人臉識別系統(tǒng)的總體設(shè)計。首先描述了我們的系統(tǒng)的總體架構(gòu)。重點討論了用于預(yù)測幾何變換參數(shù)的定位網(wǎng)絡(luò)的設(shè)計方案。為了確保本文的完整性和可重復(fù)性,我們詳細(xì)闡述了不同變換類型的空間轉(zhuǎn)換層[12]的細(xì)節(jié)。還考察了變換類型的選擇對人臉識別性能的影響。
3.1系統(tǒng)的體系結(jié)構(gòu)
一般來說,一個典型的人臉識別系統(tǒng)是以攝像機(jī)捕獲的圖像或視頻序列作為輸入,并將定位到的人臉身份作為輸出。目前,人臉識別系統(tǒng)一般分為三個主要組成部分:檢測、對準(zhǔn)和識別。這三個組件通常是分開設(shè)計和訓(xùn)練的。這種情況的一個可能的歷史原因是,在傳統(tǒng)的技術(shù)框架下,不同的結(jié)構(gòu)的數(shù)學(xué)模型適合于這三個不同的計算機(jī)視覺任務(wù)。將這些模型結(jié)合與統(tǒng)一是比較困難的。
然而,最近的研究結(jié)果已經(jīng)證實,CNN在人臉檢測[ 40 ]、面部基點標(biāo)記[ 43 ] [ 23, 30 ]和識別有很好的效果。更有趣的是,這些不同的任務(wù)中使用的CNN網(wǎng)絡(luò)結(jié)構(gòu)可以彼此相似。這實際上使得端到端人臉識別模型的設(shè)計和實現(xiàn)在技術(shù)上成為可能。理想情況下,應(yīng)該使用輸入圖像中的標(biāo)識線索作為監(jiān)督信息,以完全的端到端方式對模型進(jìn)行訓(xùn)練。因此將最佳的圖像區(qū)域以及對它們的最佳變換同時學(xué)習(xí),將有利于個人身份識別。但這種模式的培訓(xùn)也非常困難。為了簡化這一問題,我們將人臉檢測作為一項獨立的任務(wù),只關(guān)注于端對端的設(shè)計和實現(xiàn),如圖2所示。這樣的設(shè)計與認(rèn)知神經(jīng)科學(xué)的假設(shè)相一致,即人臉檢測和識別可能在人腦中使用獨立的專用資源和機(jī)制[ 31 ]。

對人臉檢測的任務(wù),我們在googlenet[ 28 ]第二個模塊后加了兩個額外的層來做人臉的顯著性圖預(yù)測和面部邊框回歸,在公開的WIDER數(shù)據(jù)集[ 37 ]上微調(diào)googlenet模型的初始化權(quán)值。類似的方法已在Unitbox方法[ 39 ]中采用,微調(diào)VGG網(wǎng)代替的googlenet。這種簡單明了的方法的性能相當(dāng)令人滿意。在FDDB [ 13 ]數(shù)據(jù)集上達(dá)到200誤報83%的召回率。示例人臉檢測結(jié)果也如圖1所示。實際上,任何現(xiàn)成的人臉檢測系統(tǒng),如經(jīng)典的多層前饋神經(jīng)網(wǎng)絡(luò)(MTCNN)[ 40 ]都可以用在我們的系統(tǒng)中。我們已經(jīng)通過實驗證明,人臉檢測精度對最終的識別結(jié)果的影響的是微乎其微的。這主要是因為定位網(wǎng)絡(luò)可以成功地學(xué)習(xí)合適的方法來提高檢測框的精確度和穩(wěn)定性。
對于定位和識別任務(wù),我們設(shè)計了一個端到端的網(wǎng)絡(luò)主要包括三部分:基于下采樣的輸入人臉圖像預(yù)測的二維轉(zhuǎn)換參數(shù)的定位網(wǎng)絡(luò);一個采樣器,扭曲的人臉圖像根據(jù)預(yù)測的轉(zhuǎn)換參數(shù)和深刻的面部特征提取網(wǎng)絡(luò)識別。該網(wǎng)絡(luò)的數(shù)據(jù)流和中間結(jié)果如圖2所示。
在訓(xùn)練階段,檢測到的人臉邊框和個人身份信息用于監(jiān)督。更具體地說,根據(jù)檢測的邊界框初次裁剪面部區(qū)域,然后這些crops作為輸入傳到網(wǎng)絡(luò)上后被重新調(diào)整為128*128像素。對于定位網(wǎng)絡(luò),我們采用了3個卷積層的神經(jīng)網(wǎng)絡(luò),它們的內(nèi)核大小分別為5*5, 3*3和3*3。在每個卷基層之后使用PReLU和2*2的池化層。之后將一個64全連接層放在幾何變換參數(shù)回歸層(投影變換的是8個參數(shù),仿射變換是6個,相似變換是4個)之前。輸入的crops在被送入定位網(wǎng)絡(luò)之前經(jīng)過下采樣到64*64像素,因為我們觀察到在計算變換參數(shù)時通常沒必要使用高分辨率圖像。受到[ 33 ]的啟發(fā),ResNet針對視覺識別的各種問題都具有較高的泛化能力,我們使用深度殘差網(wǎng)絡(luò)(ResNet)[ 9 ]來識別特征提取和表示學(xué)習(xí)。殘差網(wǎng)絡(luò)由9個殘差模塊,24個卷積層組成,輸出512維特征向量,來捕捉內(nèi)在變化。在[ 33 ]中提出的CenterLoss函數(shù)和SoftMax一起使用,用與識別過程學(xué)習(xí)判別特征。
3.2、定位網(wǎng)絡(luò)
定位網(wǎng)絡(luò)的設(shè)計實質(zhì)上是對結(jié)構(gòu)復(fù)雜度與預(yù)測精度之間的權(quán)衡。為了方便端到端的訓(xùn)練,只要保證足夠的預(yù)測精度,結(jié)構(gòu)越簡單越有利。因此,我們進(jìn)行了實驗,以確定最佳的定位網(wǎng)絡(luò)體系結(jié)構(gòu)。我們首先通過適應(yīng)在CASIA webface [ 38 ]圖像集和LFW圖像集上以傳統(tǒng)方式預(yù)定義的面部基點位置來計算仿射變換參數(shù)。然后在結(jié)構(gòu)的復(fù)雜性增加的同時保持參數(shù)的總數(shù)是大致相同的情況下,用webface圖像集來訓(xùn)練一系列的轉(zhuǎn)換網(wǎng)絡(luò)。我們在LFW圖像集上測試了所訓(xùn)練的網(wǎng)絡(luò)結(jié)構(gòu)的泛化能力。最終采用較小的擬合誤差和復(fù)雜度適當(dāng)?shù)木W(wǎng)絡(luò)體系結(jié)構(gòu)。網(wǎng)絡(luò)的細(xì)節(jié)設(shè)計以及擬合誤差如表1所示。通過對比結(jié)果,我們選擇了網(wǎng)絡(luò)組成方式為:3個卷基層和1個全連接層,并在每層后加入一個PReLU層。
3.3空間變換網(wǎng)絡(luò)
根據(jù)原DeepMind文章[ 12 ],空間變換網(wǎng)絡(luò)可通過參數(shù)的變換用于執(zhí)行任何包括平移、縮放、仿射變換、投影,甚至薄板樣條變換。在傳統(tǒng)的人臉對齊中一般采用相似變換。然而Wagner et.al.證明了在人臉識別中處理大姿態(tài)變化采用投影變換的穩(wěn)健性和有效性[ 32 ]。為了保證嚴(yán)謹(jǐn)性,我們研究了三種齊次變換,即相似、仿射、和投射。考慮到Jaderberg et. Al在[12]中僅詳細(xì)介紹了仿射變換的具體實現(xiàn),我們只簡要的回顧了空間轉(zhuǎn)換網(wǎng)絡(luò)的結(jié)構(gòu),并以投影
變換和相似變換為例具體闡述它們的前后向計算。
…….
正如引言部分所提到的,被廣泛使用在人臉識別對齊方案是非反射相似變換。然而,目前還不清楚不同類型的2D轉(zhuǎn)換會如何影響人臉識別性能。為了探索最適合人臉識別的變換類型,我們將訓(xùn)練四個模型,它們分別是全等、相似、仿射和投影四種不同的變換,同時保持訓(xùn)練集和其余網(wǎng)絡(luò)結(jié)構(gòu)不變。對于同一變換,將檢測到的人臉區(qū)域直接裁剪在中心進(jìn)行識別,不進(jìn)行實質(zhì)性變換。在LFW和YTF的相應(yīng)結(jié)果和人臉準(zhǔn)確度將在第4.1節(jié)呈現(xiàn)。
3.4討論
事實上,基于我們提出的框架實現(xiàn)一個完全的端到端人臉識別系統(tǒng)是可行的。面部檢測階段實際上可以作為區(qū)域建議網(wǎng)絡(luò)[ 21 ]或一個注意力模型]來預(yù)測候選面部區(qū)域,以便能夠容易地與前面提到的對齊和識別網(wǎng)絡(luò)結(jié)合起來。此外,雖然空間轉(zhuǎn)換網(wǎng)絡(luò)是可導(dǎo)的,但梯度下降法并不是訓(xùn)練它們的唯一方法。強(qiáng)化學(xué)習(xí)[ 3 ]為基礎(chǔ)的方法用來訓(xùn)練網(wǎng)絡(luò)可能更加高效。
4實驗結(jié)果
這一節(jié)描述了兩組實驗來證明該方法的有效性。首先,識別實驗,在LFW和YTF的數(shù)據(jù)集進(jìn)行。以前的工作已經(jīng)證實,可以通過增加訓(xùn)練集的大小[ 22 ]或通過多個深層模型的集成來有效地提高人臉識別的準(zhǔn)確性[ 24 ]。然而,在這項工作中,我們主要研究端到端架構(gòu)的可行性,以及不同的轉(zhuǎn)換類型進(jìn)行人臉對齊對識別結(jié)果的影響。因此我們使用不同的轉(zhuǎn)換
參數(shù)類型在CASIA webface圖像集來訓(xùn)練對齊網(wǎng)絡(luò),并且只使用單一的深度模型進(jìn)行識別。這也確保了這項工作的可重復(fù)性。第二,我們測試了使用該型預(yù)測變換來提高現(xiàn)有算法面部基點定位精度的有效性。
4.1識別實驗
我們訓(xùn)練我們提出的端到端的網(wǎng)絡(luò)在純凈版的CISIA-WebFace數(shù)據(jù)集,它包含10K個人的460K圖像。水平翻轉(zhuǎn)圖像用于訓(xùn)練過程中的數(shù)據(jù)增強(qiáng)。對于每個WebFace圖像,都使用在第三節(jié)描述的人臉檢測器來定位面部區(qū)域。然后使用檢測邊框的略微放大的版本裁剪原始圖像。裁剪后的圖像被用作端到端對齊和識別網(wǎng)絡(luò)的訓(xùn)練輸入。若未能檢測到人臉我們裁剪固定大小中心的原始圖像。
我們將設(shè)置每個訓(xùn)練迭代為100個圖像。同時使用cenrerloss和softmax損失函數(shù)。這相對于Softmax損失中心損失系數(shù)設(shè)置為0.008,如[ 33 ]推薦。識別網(wǎng)絡(luò)的學(xué)習(xí)率設(shè)置為0.01,每10000次迭代后衰減。我們在實驗中觀察到,當(dāng)定位網(wǎng)絡(luò)的學(xué)習(xí)率比識別網(wǎng)絡(luò)小10到100倍時,達(dá)到最好的訓(xùn)練結(jié)果。這可以理解為考慮到識別網(wǎng)絡(luò)的損失值在實際中比變換參數(shù)的值大近1到2個數(shù)量級。訓(xùn)練過程花了大約8小時在NVIDIA titanx GPU,100000次迭代之后。

Figure 3對不同轉(zhuǎn)換類型的模型預(yù)測變化和提取Jennifer
Aniston的臉部特征進(jìn)行比較。自上而下分別是恒等的、相似的、仿射的和投影的變化。綠色的矩形是人臉檢測結(jié)果、紅色的四邊形顯示預(yù)測的轉(zhuǎn)換。右邊顯示所提取的特征向量的前64個主成分及其相應(yīng)的相關(guān)系數(shù)(余弦相似性)。
雖然提出的網(wǎng)絡(luò)以端到端方式的訓(xùn)練,我們發(fā)現(xiàn)在識別網(wǎng)絡(luò)的訓(xùn)練過程中它有助于隨機(jī)重新
初始化網(wǎng)絡(luò)參數(shù)。這可能是由于定位網(wǎng)絡(luò)與識別網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜度的巨大差異所造成的。由于其相對簡單的結(jié)構(gòu),在訓(xùn)練的初期,通常很容易使定位網(wǎng)絡(luò)在其全局最優(yōu)值附近穩(wěn)定下來。相反,由于識別網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,在定位網(wǎng)絡(luò)穩(wěn)定之前識別陷入局部最優(yōu)的機(jī)會很高。因此,重新初始化的為網(wǎng)絡(luò)識別提供了一個機(jī)會,讓它跳出局部最優(yōu)。?
我們在兩種廣泛使用的無約束人臉識別基準(zhǔn)數(shù)據(jù)集上測試我們的模型,即LFW和YTF。LFW集包含5749人的13233幅人像,需要驗證6000對人臉;YTF包含1595人的3425個視頻
,要求驗證5000視頻對。這兩個數(shù)據(jù)集都允許10次交叉驗證,根據(jù)unrestricted with labeled outside data協(xié)議標(biāo)準(zhǔn)。我們將計算的每個測試圖像兩個特征向量的均值及其鏡像版本作為深度特征表示。利用PCA降維后,利用特征向量之間的余弦距離計算一對圖像之間的相似度。我們訓(xùn)練PCA并根據(jù)9個訓(xùn)練組選擇最佳分類閾值,然后對剩下的測試組進(jìn)行測試。
表2顯示了驗證性能的數(shù)值結(jié)果。為了公平的比較,我們也獨立訓(xùn)練ResNet識別網(wǎng)絡(luò)上的預(yù)對齊(標(biāo)準(zhǔn)化)的webface數(shù)據(jù)集提供的圖像??梢愿鶕?jù)驗證精度進(jìn)行若干觀察。首先,在四種類型的變換中,恒等變換導(dǎo)致最低的驗證精度(97.68%和92.9%)。這與以前的研究結(jié)果一致,即人臉圖像的顯式對齊可以顯著地提高人臉識別的效率。第二,雖然共享相同的底層識別網(wǎng)絡(luò)結(jié)構(gòu),但在人工標(biāo)注的對齊(98.35%)上訓(xùn)練的模型在驗證精度方面不如經(jīng)
過對齊學(xué)習(xí)的網(wǎng)絡(luò)。這表明了對齊和識別的端到端聯(lián)合訓(xùn)練的優(yōu)點。第三,與相似變換(98.65%)和仿射變換(98.71%)相比,投影變換(99.08%)更適合于人臉識別。這并不奇怪,因為投影變換能更準(zhǔn)確地描述大多數(shù)人臉圖像的攝像機(jī)成像過程。
圖3直觀地說明了不同的變換模式對人臉特征提取的影響。直觀地說,可以觀察到一種趨勢,即更復(fù)雜的變換類型通常會導(dǎo)致提取的人臉特征更高的魯棒性,特別是對于具有大姿態(tài)變化的圖像。圖4和圖5顯示了相應(yīng)的ROC曲線。可以看出,相對于LFW數(shù)據(jù)集,不同的轉(zhuǎn)換類型的驗證精度的影響在YTF數(shù)據(jù)集并不顯著。相似變換和仿射變換的曲線幾乎相互重合。這是預(yù)料之中的,人臉姿勢變換問題很大程度上被從YTF在視頻一系列的幀序列圖像中提取面部特征均值緩解。盡管如此,明確的面部對對齊仍然有幫助。
4.2基點定位實驗
我們的模型預(yù)測的變換可以用來將臉部區(qū)域標(biāo)準(zhǔn)化為接近正面的標(biāo)準(zhǔn)視圖。除了識別,歸一化的人臉圖像可以用來提高其他任務(wù)的準(zhǔn)確性,如性別識別,表達(dá)分類和基點定位。在大多數(shù)現(xiàn)有的人臉識別系統(tǒng)中,基點定位通常是人臉對齊的基礎(chǔ)。然而,我們將在這里演示,面部對齊可以反過來用于提高面部基點定位的準(zhǔn)確性,特別是相對容易產(chǎn)生姿勢變化的方法。
基本思想很簡單,如圖6所示。人臉對齊后,在歸一化的人臉圖像上代替原始圖像進(jìn)行地標(biāo)定位。然后使用幾何變換將點的坐標(biāo)映射到原始圖像以進(jìn)行對齊。我們選擇了基于主動形狀模型(ASM)方法的一個典型實現(xiàn)[ 18 ]作為例子。從圖6中我們可以看到由于面部姿態(tài)變化引起的原始地標(biāo)的明顯不準(zhǔn)確,并且在臉部對齊的幫助下可以得到顯著的改進(jìn)。我們在LFPW[2]數(shù)據(jù)集上測試的地標(biāo)位置精度。位置誤差被測量為16個標(biāo)記和所在地標(biāo)之間的平均距離。這樣的錯誤是由兩眼間距離歸一化。圖7比較了累積誤差分布(CED)和校準(zhǔn)曲線。通過對準(zhǔn)獲得了明顯的改進(jìn)。

Figure 6:利用預(yù)測變換改進(jìn)面部基點位置。第一列:ASM結(jié)果(青色點)對原始圖像和預(yù)測的投影變換(紅色四邊形)。第二列:使用預(yù)測變換和重新定位基點的標(biāo)準(zhǔn)化人臉圖像。第三列:重新定位的基點投射到原始圖像上。

對于更強(qiáng)大的現(xiàn)代方法,如監(jiān)督下降法(SDM)[ 36 ],所提出的方法也可以應(yīng)用于改善他們的困難情況下的表現(xiàn)。圖8顯示了如何在一個包含非常大的姿態(tài)變化的人臉圖像上進(jìn)行人臉對齊。周圍的標(biāo)志物的準(zhǔn)確度有了顯著的提高。
5結(jié)論
我們提出的人臉定位和人臉特征提取可以共同訓(xùn)練,僅使用個人身份作為監(jiān)控信號的端到端的訓(xùn)練框架。因此,人臉識別中不再需要人臉特征和人工定義的幾何變換原理的明確知識。我們的建議實際上為將來實現(xiàn)一個完全的端到端人臉識別系統(tǒng)奠定了基礎(chǔ),該系統(tǒng)實際上可以很容易地擴(kuò)展到其他細(xì)粒度的對象識別任務(wù)。未來的工作是利用更多的訓(xùn)練數(shù)據(jù)和更精心設(shè)計的數(shù)據(jù)增強(qiáng)策略,提高變換預(yù)測對極端姿態(tài)變化和夸張面部表情的魯棒性。