人臉關(guān)鍵點(diǎn)對齊

摘要: 從傳統(tǒng)方法到深度學(xué)習(xí)方法,對人臉關(guān)鍵點(diǎn)定位/人臉對齊的發(fā)展進(jìn)行梳理,對該領(lǐng)域中經(jīng)典的方法,最新成果進(jìn)行匯總,并給出相應(yīng)的paper原文,項目主頁及代碼鏈接。重點(diǎn)介紹深度學(xué)習(xí)的幾種最新方法。

1. Conception

人臉關(guān)鍵點(diǎn)定位(Facial landmark localization): 在人臉檢測的基礎(chǔ)上,根據(jù)輸入的人臉圖像,自動定位出面部關(guān)鍵特征點(diǎn),如眼睛、鼻尖、嘴角點(diǎn)、眉毛以及人臉各部件輪廓點(diǎn)等,輸入為人臉外觀圖像,輸出為人臉的特征點(diǎn)集合,見下圖:

圖1. 人臉對齊處理流程

人臉對齊(Facial alignment): 可以看作在一張人臉圖像搜索人臉預(yù)先定義的點(diǎn)(也叫人臉形狀),通常從一個粗估計的形狀開始,然后通過迭代來細(xì)化形狀的估計。在搜索的過程中,兩種不同的信息被使用,一個是人臉的外觀(Appearance) ,另一個是形狀(Shape)。形狀提供一個搜索空間上的約束條件。

人臉對齊主要將人臉中的 eyes, mouth, nose and chin 檢測出來,用特征點(diǎn)標(biāo)記出來。

人臉對齊是一個中間步驟,首先是人臉檢測,然后是人臉對齊,人臉對齊的結(jié)果可以用于:
人臉驗證, 人臉識別(Face recognition),屬性計算(Attribute computing),表情識別(Expression recognition), 姿態(tài)估計(Pose Estimation) 等。
實際應(yīng)用中人臉的不同尺度,姿態(tài),遮擋,光照,復(fù)雜表情等對人臉對齊具有較大的挑戰(zhàn)性 。

綜合考慮傳統(tǒng)方法和目前最新進(jìn)展,從技術(shù)實現(xiàn)上可將人臉關(guān)鍵點(diǎn)檢測分為2大類:生成式方法(Generative methods) 和 判別式方法(Discriminative methods)。
Generative methods 構(gòu)建人臉shape和appearance的生成模型。這類方法將人臉對齊看作是一個優(yōu)化問題,來尋找最優(yōu)的shape和appearance參數(shù),使得appearance模型能夠最好擬合輸入的人臉。這類方法包括:

  • AAM (Active Appearnce Model)
  • ASM(Active Shape Model)

Discriminative methods直接從appearance推斷目標(biāo)位置。這類方法通常通過學(xué)習(xí)獨(dú)立的局部檢測器或回歸器來定位每個面部關(guān)鍵點(diǎn),然后用一個全局的形狀模型對預(yù)測結(jié)果進(jìn)行調(diào)整,使其規(guī)范化。或者直接學(xué)習(xí)一個向量回歸函數(shù)來推斷整個臉部的形狀。這類方法包括傳統(tǒng)的方法以及最新的深度學(xué)習(xí)方法,具體分為如下幾種經(jīng)典的實現(xiàn)方式:

  • Constrained local models (CLMs)
  • Deformable part models (DPMs)
  • 基于級聯(lián)形狀回歸的方法(Cascaded regression)
  • 基于深度學(xué)習(xí)的方法

從空間維度來考慮,以上這些方法又可分為2D方法,3D方法,稀疏方法和密集方法等。需要指出的是,由于深度學(xué)習(xí)方法可以很好的實現(xiàn)對多任務(wù)的處理,因此有很多新的算法可以同時完成對2D關(guān)鍵點(diǎn)和3D關(guān)鍵點(diǎn)的同時獲取,進(jìn)而可進(jìn)一步支持后續(xù)的多任務(wù)分析,如人臉對齊,3D姿態(tài)分析等。

在人臉關(guān)鍵點(diǎn)定位的發(fā)展史上,具有里程碑式的有如下五種方法:

  • 1995 年,Cootes 的 ASM(Active Shape Model)。
  • 1998 年,Cootes 的 AAM(Active Appearance Model) 算法。
  • 2006 年,Ristinacce 的 CLM(Constrained Local Model)算法。
  • 2010 年,Rollar 的 cascaded Regression 算法。
  • 2013 年,想港中文大學(xué)的湯曉歐和Sun Yi等開創(chuàng)深度學(xué)習(xí)人臉關(guān)鍵點(diǎn)檢測的先河,首次將 CNN 應(yīng)用到人臉關(guān)鍵點(diǎn)定位上。

2. 2D人臉對齊

2.1 AAM(Active Appearance Model)/ASM/Snake

參考文獻(xiàn):An Introduction to Active Shape Models. Constrained Local Model for FaceAlignment. Xiaoguang Yan(2011).
ASM模型起源于snake模型(作為動態(tài)邊緣分割的snake模型),該方法用一條由n個控制點(diǎn)組成的連續(xù)閉合曲線作為snake模型,再用一個能量函數(shù)作為匹配度的評價函數(shù),首先將模型設(shè)定在目標(biāo)對象預(yù)估位置的周圍,再通過不斷迭代使能量函數(shù)最小化,當(dāng)內(nèi)外能量達(dá)到平衡時即得到目標(biāo)對象的邊界與特征。
1989年yuille等人此提出使用參數(shù)化的可變形模板來代替snake模型,可變形模板概念的提出為aam的產(chǎn)生奠定了理論基礎(chǔ)。
1995年cootes等人提出的asm算法是aam的直接前身,asm采用參數(shù)化的采樣形狀來構(gòu)成對象形狀模型,并利用pca方法建立描述形狀的控制點(diǎn)的運(yùn)動模型,最后利用一組參數(shù)組來控制形狀控制點(diǎn)的位置變化從而逼近當(dāng)前對象的形狀,該方法只單純利用對象的形狀,因此準(zhǔn)確率不高。
1998年,cootes等人在asm算法的基礎(chǔ)上首先提出aam,與asm的不同之處是他不僅利用了對象的形狀信息而且利用了對象的紋理信息。

2.2 CLMS(Constrained Local Model)

2.3 級聯(lián)回歸方法(Cascaded regression)

級聯(lián)回歸的方法始于 P Dollar大神在CVPR2010的論文Cascaded pose regression,通過級聯(lián)回歸的方法來預(yù)測物體的形狀。
對于人臉特征點(diǎn)定位,人臉關(guān)鍵點(diǎn)檢測的目的是估計向量(Facial Shape) S=(x_1,y_1, x_2,y_2, ... , x_K, y_K) ,其中K表示關(guān)鍵點(diǎn)的個數(shù),由于每個關(guān)鍵點(diǎn)有橫縱兩個坐標(biāo),所以S的長度為2K。 對于一個輸入 I , 給定一個初始形狀S^0 (通常是在訓(xùn)練集計算得到的平均形狀)。每一級輸出的是根據(jù)輸入圖像得到的偏移估計 ΔS,那么每一級都會更準(zhǔn)確的預(yù)測臉上 Landmark 的位置
S^{t+1}=S^t + r_t(\phi(I, S^t))

其中,S^tS^{t+1} 分別表示第 tt+1級預(yù)測的人臉形狀(即所有關(guān)鍵點(diǎn)集合),r_t表示回歸函數(shù)。
在級聯(lián)形狀回歸的框架下,主要的操作是向量相加,不僅有效而且計算復(fù)雜度較低, 所以近年來得到了廣泛的應(yīng)用,并產(chǎn)生了很多改進(jìn)算法, 其主要不同點(diǎn)在于特征提取方法\phi以及回歸函數(shù)r_t的選擇不同。值得一提的是,級聯(lián)回歸對與正臉或接近正臉的定位精度相對較高,而對于大姿態(tài)下的關(guān)鍵點(diǎn)定位效果相對較差。

  • CPR(Cascaded Pose Regression)
    CPR通過一系列回歸器將一個指定的初始預(yù)測值逐步細(xì)化,每一個回歸器都依靠前一個回歸器的輸出來執(zhí)行簡單的圖像操作,整個系統(tǒng)可自動的從訓(xùn)練樣本中學(xué)習(xí)。
    CPR檢測流程一共有T個階段,在每個階段中首先進(jìn)行特征提取f,這里使用的是shape-indexed features,也可以使用諸如HOG、SIFT等人工設(shè)計的特征,或者其他可學(xué)習(xí)特征(learning based features),然后通過訓(xùn)練得到的回歸器R來估計增量ΔS( update vector),把ΔS加到前一個階段的S上得到新的S,這樣通過不斷的迭代即可以得到最終的S(shape)。
  • ESR(Explicit Shape Regression)
    CVPR 2012微軟亞洲研究院(MSRA)孫劍組的作品。該文章主要提出了3個方法:
    (1) 2層級聯(lián)的boost回歸(two-level boosted regression)
    作者這里的2層boost回歸,第一層有10級,第二層有500級,這樣分層的好處,比單獨(dú)使用一個5000級而只有1層的效果要好很多。其中,第一層中的特征維度不固定,第二層中中的特征維度固定。
    (2) 基于形狀索引的特征(shape-indexed features)
    該形狀索引特征,計算回歸的位置和真實位置之間的像素差,類似于中心差分算梯度,從而得到最終特征向量,并且該特征向量采用了局部坐標(biāo)系,相比全局坐標(biāo)系具有更好的魯棒性。
    (3) 基于相關(guān)系數(shù)的特征選擇方法(correlation-based feature selection method)
    這里,需要從之前提取的400*400個特征中選擇出最右代表性的前f個。簡單的說,就是計算所有特征向量的相關(guān)系數(shù),取前f個系數(shù)最高的作為最終的輸出特征向量。

    github代碼: code

  • ERT(Ensemble of Regression Trees)
    dlib實現(xiàn)人臉關(guān)鍵點(diǎn)定位采用的方法。

  • Face Alignment at 3000 FPS
    cvpr2013, ESR是基礎(chǔ)版本的形狀回歸,ERT將回歸樹修改為GBDT,由原始的直接回歸形狀,改進(jìn)為回歸形狀殘差,而LBF,是加速特征提取,由原來的像素差分特征池,改為隨機(jī)選擇點(diǎn)。該方法主要體現(xiàn)在2個方面:
    (1) LBF特征的提取
    作者通過在特征點(diǎn)附近隨機(jī)選擇點(diǎn)做殘差來學(xué)習(xí)LBF特征,每一個特征點(diǎn)都會學(xué)到由好多隨機(jī)樹組成的隨機(jī)森林,因此,一個特征點(diǎn)就得用一個隨機(jī)森林生成的0,1特征向量來表示,將所有的特征點(diǎn)的隨機(jī)森林都連接到一起,生成一個全局特征,后續(xù)過程就可以使用該全局特征做全局線性回歸了。

image

(2) 基于cascade的級聯(lián)的隨機(jī)森林做全局線性回歸

LBF 采用的回歸方法是線性回歸,令W^t表示線性回歸矩陣,\phi^t表示隨機(jī)森林提取到的特征,每一個stage的回歸目標(biāo)是:

ΔS^t = W^t(\phi^t(I, S^{t-1}))

訓(xùn)練過程,就是學(xué)習(xí)\phi^tW^t的一個過程,測試過程就是用訓(xùn)練好的\phi^tW^t對提取的LBF特征做回歸的過程。 對于每個stage,越往下,所選擇的隨機(jī)點(diǎn)的范圍就越小,特征點(diǎn)定位精度就越好。

image

github代碼: code

  • DAN(Deep Alignment Network: A convolutional neural network for robust face alignment)
    2017cvpr 作品, 是級聯(lián)形狀回歸(Cascaded Shape Regressor)人臉對齊框架的CNN實現(xiàn)。算法級聯(lián)了多級回歸器,每一級的輸出是相對于上一級的偏移量。通過增加人臉關(guān)鍵點(diǎn)熱度圖,可以使得每級的輸入是整個人臉圖像,與之前的局部區(qū)域圖像定位某個關(guān)鍵點(diǎn)的方法相比,增加了人臉的全局信息。另外,第一級的輸入是一個平均形狀(mean shape calculated on trainset),此后每一級的輸入包含3個部分:由上一級回歸的關(guān)鍵點(diǎn)對齊后的輸入圖像,關(guān)鍵點(diǎn)熱度圖以及上一級的最后一層特征圖(featuremap)。每一級的CNN網(wǎng)絡(luò)都是VGG16。另外,作者還開源了theano 代碼

  • 參考
    cpr
    cvpr2012ESR
    ESR代碼
    cvpr2013-3000FPS
    3000FPS-CSDN
    本人DAN 詳細(xì)介紹及tf實現(xiàn)

2.4 CNN 方法

  • DCNN(Deep Convolutional Network Cascade for Facial Point Detection)
    CVPR2013 香港中文大學(xué)湯曉歐,SunYi等人作品,首次將CNN用于人臉關(guān)鍵點(diǎn)檢測??傮w思想是由粗到細(xì),實現(xiàn)5個人臉關(guān)鍵點(diǎn)的精確定位。網(wǎng)絡(luò)結(jié)構(gòu)分為3層:level 1、level 2、level 3。每層都包含多個獨(dú)立的CNN模型,負(fù)責(zé)預(yù)測部分或全部關(guān)鍵點(diǎn)位置,在此基礎(chǔ)上平均來得到該層最終的預(yù)測結(jié)果。
    image.png
  1. level1 粗定位,包含3個CNN
    F1定位所有的5個關(guān)鍵點(diǎn), EN1用于定位:左眼+右眼+鼻子 三個特征點(diǎn), NM1用于定位:左嘴角+右嘴角+鼻子 三個特征點(diǎn)。除輸入圖像大小和輸出維度不同(F1 輸入39x39整個人臉圖像, 輸出5x2個坐標(biāo)點(diǎn);EN1: 輸入31x39 人臉上半部區(qū)域,輸出3x2,NM1:輸入31x39 人臉下半部區(qū)域,輸出3x2)3個CNN的網(wǎng)絡(luò)結(jié)構(gòu),參數(shù)完全一致。3個網(wǎng)絡(luò)輸出,在每個點(diǎn)的預(yù)測結(jié)果上做平均,得到本層的最終輸出
  2. level2精確定位,包含10個CNN
    每兩個CNN負(fù)責(zé)預(yù)測同一個關(guān)鍵點(diǎn),然后取平均得到這一點(diǎn)的精確預(yù)測。輸入為在level1輸出的關(guān)鍵點(diǎn)周圍的局部裁剪圖像。
  3. level3更精確定位
    結(jié)構(gòu)和作用與level2一致,10個CNN,兩兩平均,只是輸入的圖像是在leve2關(guān)鍵點(diǎn)基礎(chǔ)上做了更小的裁剪。

雖然作者沒有明確說這個問題,但是很明顯的是,經(jīng)過level-1,得到了一個相對較好的初始化。
在這方面,face++ 發(fā)表在ICCV-2013的paper(Extensive facial landmark localization with coarse-to-fine convolutional network cascade)同樣有這么個“初始化”的操作。借鑒別的文獻(xiàn)中的idea:局部共享權(quán)值(locally sharing weights),理論聽起來挺有道理的。傳統(tǒng)的權(quán)值共享認(rèn)為某一個特征會圖像的不同位置出現(xiàn),所以采用全局權(quán)值共享。但是人臉是由比較規(guī)范的結(jié)構(gòu),如人眼就是在上部,鼻子就是在中部,嘴就是在下部,因此應(yīng)該采用局部權(quán)值共享。

  • TCNN
  • MTCNN

  • LAB (LAB-Look at Boundary A Boundary-Aware Face Alignment Algorithm )
    CVPR2018清華&商湯作品。借鑒人體姿態(tài)估計,將邊界信息引入關(guān)鍵點(diǎn)回歸上。網(wǎng)絡(luò)包含3個部分:邊界熱度圖估計模塊(Boundary heatmap estimator),基于邊界的關(guān)鍵點(diǎn)定位模塊( Boundary-aware landmarks regressor )和邊界有效性判別模塊(Boundary effectiveness discriminator)

    LAB網(wǎng)絡(luò)結(jié)構(gòu)

  1. 邊界熱度圖估計模塊:采用stacked hourglass network 和 message passing layers。輸入人臉圖像,輸出人臉邊界熱度圖來表示面部的幾何結(jié)構(gòu)。人臉面部的各個器官邊界共構(gòu)成K個邊界。每個stack結(jié)束時,特征圖被分成K個分支,分別送給各個對應(yīng)類型的邊界熱度圖估計。最終生成的熱度圖與輸入原始圖像進(jìn)行融合,作為關(guān)鍵點(diǎn)定位模塊的輸入。
  2. 基于邊界的關(guān)鍵點(diǎn)定位模塊,利用邊界信息,通過4階res-18網(wǎng)絡(luò)來定位關(guān)鍵點(diǎn)
  3. 邊界有效性判別模塊,由于邊界熱度圖在關(guān)鍵點(diǎn)定位中起著非常重要的作用,因此需要對生成的邊界信息的準(zhǔn)確性進(jìn)行評判。該模塊采用對抗網(wǎng)絡(luò),評判邊界熱度圖的有效性。

3. 3D人臉對齊

3D人臉對齊,即檢測人臉的3D面部關(guān)鍵點(diǎn)坐標(biāo),主大部分工作是通過3D人臉建模實現(xiàn),即擬合人臉的3D模型(如3DMM(3D Morphable Model))參數(shù)來實現(xiàn),相關(guān)根據(jù)擬合的方式不同,產(chǎn)生了很多算法。

3.1 3DDFA: Face Alignment Across Large Poses- A 3D Solution

自動化所作品, 解決極端姿態(tài)下(如側(cè)臉),一些特征點(diǎn)變了不可見,不同姿態(tài)下的人臉表觀也存在巨大差異使得關(guān)鍵點(diǎn)定位困難等問題,本文提出一種基于3D人臉形狀的定位方法3DDFA,算法框架為:
(1) 輸入為100x100的RGB圖像和PNCC (Projected Normalized Coordinate Code) 特征,PNCC特征的計算與當(dāng)前形狀相關(guān),可以反映當(dāng)前形狀的信息;算法的輸出為3D人臉形狀模型參數(shù)
(2) 使用卷積神經(jīng)網(wǎng)絡(luò)擬合從輸入到輸出的映射函數(shù),網(wǎng)絡(luò)包含4個卷積層,3個pooling層和2個全連接層
通過級聯(lián)多個卷積神經(jīng)網(wǎng)絡(luò)直至在訓(xùn)練集上收斂,PNCC特征會根據(jù)當(dāng)前預(yù)測的人臉形狀更新,并作為下一級卷積神經(jīng)網(wǎng)絡(luò)的輸入。
(3) 此外,卷積神經(jīng)網(wǎng)絡(luò)的損失函數(shù)也做了精心的設(shè)計,通過引入權(quán)重,讓網(wǎng)絡(luò)優(yōu)先擬合重要的形狀參數(shù),如尺度、旋轉(zhuǎn)和平移;當(dāng)人臉形狀接近ground truth時,再考慮擬合其他形狀參數(shù)
實驗證明該損失函數(shù)可以提升定位模型的精度。由于參數(shù)化形狀模型會限制人臉形狀變形的能力,作者在使用3DDFA擬合之后,抽取HOG特征作為輸入,使用線性回歸來進(jìn)一步提升2D特征點(diǎn)的定位精度。

訓(xùn)練3DDFA模型,需要大量的多姿態(tài)人臉樣本。為此,作者基于已有的數(shù)據(jù)集如300W,利用3D信息虛擬生成不同姿態(tài)下的人臉圖像,核心思想為:先預(yù)測人臉圖像的深度信息,通過3D旋轉(zhuǎn)來生成不同姿態(tài)下的人臉圖像
鏈接(含源碼)

3.2 Large-Pose Face Alignment via CNN-Based Dense 3D Model Fitting

這篇文章是來自密西根州立大學(xué)的Amin Jourabloo和Xiaoming Liu的工作。 和上一篇文章的出發(fā)點(diǎn)一樣,作者試圖使用3D人臉建模解決大姿態(tài)下面部特征點(diǎn)定位問題。
2D的人臉形狀U可以看成是3D人臉形狀A(yù)通過投影變化m得到,如下圖所示: 3D人臉形狀模型可以表示為平均3D人臉形狀 A 0 與若干表征身份、表情的基向量 A id 和 A exp 通過p參數(shù)組合而成
面部特征點(diǎn)定位問題(預(yù)測U)可以轉(zhuǎn)變?yōu)橥瑫r預(yù)測投影矩陣m和3D人臉形狀模型參數(shù)p

算法的整體框架通過級聯(lián)6個卷積神經(jīng)網(wǎng)絡(luò)來完成這一任務(wù):
(1) 首先以整張人臉圖像作為輸入,來預(yù)測投影矩陣的更新
(2) 使用更新后的投影矩陣計算當(dāng)前的2D人臉形狀,基于當(dāng)前的2D人臉形狀抽取塊特征作為下一級卷積神經(jīng)網(wǎng)絡(luò)的輸入,下一級卷積神經(jīng)網(wǎng)絡(luò)用于更新3D人臉形狀
(3) 基于更新后的3D人臉形狀,計算可得當(dāng)前2D人臉形狀的預(yù)測
(4) 根據(jù)新的2D人臉形狀預(yù)測,抽取塊特征輸入到卷積神經(jīng)網(wǎng)絡(luò)中來更新投影矩陣,交替迭代優(yōu)化求解投影矩陣m和3D人臉形狀模型參數(shù)p,直到在訓(xùn)練集收斂

值得一提的是,該方法在預(yù)測3D人臉形狀和投影矩陣的同時也考慮到計算每一個特征點(diǎn)是否可見。如果特征點(diǎn)不可見,則不使用該特征點(diǎn)上的塊特征作為輸入,這是普通2D人臉對齊方法難以實現(xiàn)的
此外,作者提出兩種pose-invariant的特征Piecewise Affine-Warpped Feature (PAWF)和Direct 3D Projected Feature (D3PF),可以進(jìn)一步提升特征點(diǎn)定位的精度

4 密集人臉對齊

4.1 Dense Face Alignment

ICCV2017密西根州立大學(xué)作品。在人臉對齊方法中,以前的算法主要集中在特定數(shù)量的人臉特征點(diǎn)檢測,比如5、34或者68個特征點(diǎn),這些方法都屬于稀疏的人臉對齊算法。在本文中,我們提出了一種針對大角度人臉圖像的一種3D密集人臉對齊算法。在該模型中,我們通過訓(xùn)練CNN模型利用人臉圖像來估計3D人臉shape,利用該shape來fitting相應(yīng)的3D人臉模型,不僅能夠檢測到人臉特征點(diǎn),還能匹配人臉輪廓和SIFT特征點(diǎn)。此外還解決了不同數(shù)據(jù)庫中由于包含不同數(shù)量的特征點(diǎn)(5、34或68)而不能交叉驗證的問題。可以實時運(yùn)行

4.2 DenseReg: Fully Convolutional Dense Shape Regression In-the-Wild

CVPR 2017 作品。論文提出通過完全卷積網(wǎng)絡(luò)學(xué)習(xí)從圖像像素到密集模板網(wǎng)格的映射。我們將此任務(wù)作為一個回歸問題,并利用手動注釋的面部標(biāo)注來訓(xùn)練我們的網(wǎng)絡(luò)。我們使用這樣的標(biāo)注,在三維對象模板和輸入圖像之間,建立密集的對應(yīng)領(lǐng)域,然后作為訓(xùn)練我們的回歸系統(tǒng)的基礎(chǔ)。我們表明,我們可以將來自語義分割的想法與回歸網(wǎng)絡(luò)相結(jié)合,產(chǎn)生高精度的“量化回歸”架構(gòu)。我們的系統(tǒng)叫DenseReg,可以讓我們以全卷積的方式估計密集的圖像到模板的對應(yīng)關(guān)系。因此,我們的網(wǎng)絡(luò)可以提供有用的對應(yīng)信息,而當(dāng)用作統(tǒng)計可變形模型的初始化時,我們獲得了標(biāo)志性的本地化結(jié)果,遠(yuǎn)遠(yuǎn)超過當(dāng)前最具挑戰(zhàn)性的300W基準(zhǔn)的最新技術(shù)。我們對大量面部分析任務(wù)的方法進(jìn)行了全面評估,并且還展示了其用于其他估計任務(wù)的用途,如人耳建模。

4.3 FAN(How far are we from solving the 2D & 3D Face Alignment problem?)

ICCV 2017 諾丁漢大學(xué)作品。在現(xiàn)存2D和3D人臉對齊數(shù)據(jù)集上,本文研究的這個非常深的神經(jīng)網(wǎng)絡(luò)達(dá)到接近飽和性能的程度。本文主要做了5個貢獻(xiàn):(1)結(jié)合最先進(jìn)的人臉特征點(diǎn)定位(landmark localization)架構(gòu)和最先進(jìn)的殘差模塊(residual block),首次構(gòu)建了一個非常強(qiáng)大的基準(zhǔn),在一個超大2D人臉特征點(diǎn)數(shù)據(jù)集(facial landmark dataset)上訓(xùn)練,并在所有其他人臉特征點(diǎn)數(shù)據(jù)集上進(jìn)行評估。(2)我們構(gòu)建一個將2D特征點(diǎn)標(biāo)注轉(zhuǎn)換為3D標(biāo)注,并所有現(xiàn)存數(shù)據(jù)集進(jìn)行統(tǒng)一,構(gòu)建迄今最大、最具有挑戰(zhàn)性的3D人臉特征點(diǎn)數(shù)據(jù)集LS3D-W(約230000張圖像)。(3)然后,訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)來進(jìn)行3D人臉對齊(face alignment),并在新的LS3D-W數(shù)據(jù)集上進(jìn)行評估。(4)本文進(jìn)一步研究影響人臉對齊性能的所有“傳統(tǒng)”因素,例如大姿態(tài)( large pose),初始化和分辨率,并引入一個“新的”因素,即網(wǎng)絡(luò)的大小。(5)本文的測試結(jié)果顯示2D和3D人臉對齊網(wǎng)絡(luò)都實現(xiàn)了非常高的性能,足以證明非??赡芙咏褂玫臄?shù)據(jù)集的飽和性能。訓(xùn)練和測試代碼以及數(shù)據(jù)集可以從 https://www.adrianbulat.com/face-alignment/%20下載。

4.4 Learning Dense Facial Correspondences in Unconstrained Images

原文: ICCV2017

4.5 PRNet(Joint 3D Face Reconstruction and Dense Alignment with Position Map Regression Network)

CVPR2018 上海交通大學(xué)作品。本文提出了一個強(qiáng)有力的方法來同時實現(xiàn)3D人臉重構(gòu)和密集人臉對齊。為實現(xiàn)該目標(biāo),我們設(shè)計了一個UV位置圖,來達(dá)到用2D圖表示UV 空間內(nèi)完整人臉的3D形狀特征。然后訓(xùn)練了一個簡單的CNN來通過單張2D圖像回歸得到UV圖。我們的方法不需要任何先驗人臉模型,就可以重構(gòu)出完整的面部結(jié)構(gòu)。并且開源了tensorflow 測試代碼和預(yù)訓(xùn)練模型,速度9.8ms/幀。

數(shù)據(jù)集【持續(xù)更新】

  • UMDFace

    image.png

  • MTFL(TCDCN所用)

  • [300W-3D]: The fitted 3D Morphable Model (3DMM) parameters of 300W samples.

  • [300W-3D-Face]: The fitted 3D mesh, which is needed if you do not have Basel Face Model (BFM)

300W-3D-Face
  • [300W-LP]: The synthesized large-pose face images from 300W. 300W standardises multiple alignment
    databases with 68 landmarks, including AFW, LFPW, HELEN, IBUG and XM2VTS.
300W-LP
  • [AFLW2000-3D]: The fitted 3D faces of the first 2000 AFLW samples, which can be used for 3D face alignment evaluation.
AFLW2000-3D
名稱 訓(xùn)練集樣本數(shù) 測試集樣本數(shù) 標(biāo)注關(guān)鍵點(diǎn)數(shù) 來源 備注
CelebA 202,599 - 5 港中文湯曉歐組 還標(biāo)注了40二值屬性
COFW 1345 507 29 - 無輪廓點(diǎn)
AFLW 20,000 4386 21 -
AFLW-PIFA 3901 1299 34 10 1.3
UMDFace[靜態(tài)圖部分] 367,888 - 21 - 還標(biāo)注了bbox,pose, gender
UMDFace[視頻序列部分] Over 3.7 million - 21 - 還標(biāo)注了bbox,pose, gender
MTFL 10,000 2995 5 港中文湯曉歐組 還標(biāo)注了gender, smiling, wearing glasses, and head pose
300W 3148 689(普通集554,挑戰(zhàn)集135) 68 10 主要指public部分(afw,lfpw,helen, ibug)
300W-LP 122,450 - 68 中科院自動化所 基于300W的合成數(shù)據(jù)集(大角度變換), mat文件
300W-3D-Face - - 53,215 中科院自動化所 300W 的3DMM擬合mesh
LS3D-W - 3D/68 - 諾丁漢 AFLW, 300VW, FDDB 等的3D擬合
AFLW2000-3D 3 53215/68 - 中科院自動化所 AFLW2000 的3DMM擬合mesh
WFLW 7500 2500 98 商湯 -

6. 人臉對齊值得考慮的幾個問題

  • 數(shù)據(jù)集擴(kuò)增
  • 人臉圖片預(yù)處理
    • 處理尺度變化
    • 擴(kuò)大人臉區(qū)域,在人臉檢測得到的boundingbox基礎(chǔ)上擴(kuò)大30%
  • 形狀初始化
  • 精度和效率的權(quán)衡

評價指標(biāo)

參考

機(jī)器之心
CSDN綜述
Face Alignment In-the-Wild: A Survey
2017-DAN : theano code, CSDN中文
CSDN系列博客

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容