深度學(xué)習(xí)網(wǎng)絡(luò)模型部署——人臉關(guān)鍵點(diǎn)檢測論文詳解(PFLD)

效果圖

一、前言

PFLD全稱A Practical Facial Landmark Detector是一個(gè)精度高,速度快,模型小的人臉關(guān)鍵點(diǎn)檢測模型。在移動(dòng)端達(dá)到了超實(shí)時(shí)的性能(模型大小2.1Mb,在Qualcomm ARM 845 處理器上達(dá)到140fps),作者分別來自武漢大學(xué),天津大學(xué),騰訊AI Lab,美國天普大學(xué),有較大的實(shí)用意義。

二、挑戰(zhàn)

人臉關(guān)鍵點(diǎn)檢測作為人臉相關(guān)應(yīng)用中的一個(gè)基礎(chǔ)任務(wù)面臨了很多挑戰(zhàn),包括檢測精度,處理速度,模型大小這些因素都要考慮到,并且在現(xiàn)實(shí)場景中很難獲取到質(zhì)量非常高的人臉,所以人臉關(guān)鍵點(diǎn)檢測主要面臨下面幾個(gè)挑戰(zhàn):

1,局部變化:現(xiàn)實(shí)場景中人臉的表情,廣告,以及遮擋情況都有較大的變化
2,全局變化:姿態(tài)和成像質(zhì)量是影響圖像中人臉的表征的兩個(gè)主要因素,人臉全局結(jié)構(gòu)的錯(cuò)誤估計(jì)將直接導(dǎo)致定位不準(zhǔn)
3,數(shù)據(jù)不平衡:不平衡的數(shù)據(jù)使得算法模型無法正確表示數(shù)據(jù)的特征
4,模型的性能:由于手機(jī)和嵌入式設(shè)備計(jì)算性能和內(nèi)存資源的限制,必須要求檢測模型的size小處理速度快

三、PFLD網(wǎng)絡(luò)結(jié)構(gòu)

image.png
整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)由兩個(gè)部分組成:predicting landmark主網(wǎng)絡(luò)head pose 輔助網(wǎng)絡(luò)。在主網(wǎng)絡(luò)上采用的是以MobilenetV2輕量型網(wǎng)絡(luò),但又為了增加模型的表達(dá)能力,在MobilenetV2進(jìn)行了結(jié)構(gòu)化修改,通過多尺度融合來增加模型的表達(dá)能力
三個(gè)不同尺度融合
樣本不均衡的問題上,PFLD為其設(shè)計(jì)的損失函數(shù):
image.png
該損失函數(shù)設(shè)計(jì)的目的是,對(duì)于樣本量比較大的數(shù)據(jù)(如正臉,即歐拉角都相對(duì)較小的情況),給予一個(gè)小的權(quán)值,在進(jìn)行梯度的反向傳播的時(shí)候,對(duì)模型訓(xùn)練的貢獻(xiàn)小一些;對(duì)于樣本量比較少的數(shù)據(jù)(側(cè)臉、低頭、抬頭、表情極端),給予一個(gè)較大的權(quán)值,從而使在進(jìn)行梯度的反向傳播的時(shí)候,對(duì)模型訓(xùn)練的貢獻(xiàn)大一些。該模型的損失函數(shù)的設(shè)計(jì),非常巧妙的解決了平衡各類情況訓(xùn)練樣本不均衡的問題。

小知識(shí)點(diǎn):歐拉角
歐拉角也可以描述三維剛體旋轉(zhuǎn),它將剛體繞過原點(diǎn)的軸(i,j,k)旋轉(zhuǎn)θ,分解成三步(藍(lán)色是起始坐標(biāo)系,而紅色的是旋轉(zhuǎn)之后的坐標(biāo)系。)。

image.png

  1. 繞z軸旋轉(zhuǎn)α,使x軸與N軸重合,N軸是旋轉(zhuǎn)前后兩個(gè)坐標(biāo)系x-y平面的交線
  2. 繞x軸(也就是N軸)旋轉(zhuǎn)β,使z軸與旋轉(zhuǎn)后的z軸重合
  3. 繞z軸旋轉(zhuǎn)γ,使坐標(biāo)系與旋轉(zhuǎn)后的完全重合

按照旋轉(zhuǎn)軸的順序,該組歐拉角被稱為是“zxz順規(guī)”的。對(duì)于順規(guī)的次序,學(xué)術(shù)界沒有明確的約定。
歐拉角的旋轉(zhuǎn)矩陣為:Rz(α)?Rx(β)?Rz(γ)

我們知道一般的回歸損失是MSE或者Smooth L1 Loss,但它們都難以應(yīng)對(duì)數(shù)據(jù)不均衡的情況,以MSE Loss為例,損失函數(shù)可以寫成:
image.png

其中M表示人臉樣本的數(shù)量,N表示每張人臉預(yù)設(shè)的需要檢測的特征點(diǎn)數(shù)目,||.||在本文表示L2距離,rn表示不同類型樣本的不同權(quán)重。

四、總結(jié)與感想

總的來說FPLD是一個(gè)idea非常好并且實(shí)用價(jià)值比較大的人臉關(guān)鍵點(diǎn)檢測算法,無論是人臉姿態(tài)估計(jì)子網(wǎng)絡(luò)的引入還是針對(duì)數(shù)據(jù)不平衡重新設(shè)計(jì)損失函數(shù)都是值得借鑒的。

在該篇論文當(dāng)中,提出新的損失函數(shù),能夠有效緩解數(shù)據(jù)不均衡問題。另外,在網(wǎng)絡(luò)結(jié)構(gòu)方面,提出了用一個(gè)輔助網(wǎng)絡(luò)結(jié)構(gòu)去監(jiān)督和輔助關(guān)鍵點(diǎn)檢測。

在idea方面,對(duì)于輕量型網(wǎng)絡(luò),除了Mobilenet Block外,還可以考慮運(yùn)用其它的網(wǎng)絡(luò)結(jié)構(gòu)(例如:Inexception)作為主干網(wǎng)絡(luò)。網(wǎng)絡(luò)構(gòu)造方面,可以就某一特征專門設(shè)計(jì)一個(gè)輔助網(wǎng)絡(luò)結(jié)構(gòu)提取。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容