[人臉檢測]Scale-Aware Face Detection(未完)

https://arxiv.org/pdf/1706.09876.pdf

存疑惑的地方:

1.SPN的輸出怎么利用的,及后面的檢測部分怎么根據(jù)SPN的proposal來縮放的?

2.樣本怎么產(chǎn)生的,是手工標(biāo)注的人臉上五個部位嗎?


摘要

基于CNN的人臉檢測在處理尺度不同的人臉檢測時是非常低效的。They rely on either fitting a large single model to faces across a large scale range or multi-scale testing。(這句話沒看懂表達(dá)什么意思。。。)上面這兩種方法都是計算代價很大的。我們提出了尺度感知的人臉檢測(SAFD),SAFD明確使用CNN處理尺度問題,用更少的計算代價達(dá)到了更好的性能。在進(jìn)行檢測之前,一個高效的CNN預(yù)測人臉的尺度分布直方圖,之后尺度直方圖指引對圖片的縮放。由于人臉縮放后將會在大約統(tǒng)一的尺度,這樣即使是很小的CNN也能精確的檢測到。實際上,通過每張圖少于兩次的縮放AFW中超過99%的人臉可以被覆蓋(這句話表達(dá)的意思不太清楚)。在FDDB,MALF和AFW也進(jìn)行實驗驗證了SAFD的優(yōu)勢。

1.引言

大意:人臉檢測需要能處理尺度位姿和外形的變化。CNN的檢測方法能夠很好的處理位姿和外形的變化,但是對于尺度的變化卻很少考慮到。CNN天然不具有尺度不變性,一個CNN可以通過擴展不同尺度變換的訓(xùn)練,但是需要更多的參數(shù)更復(fù)雜的結(jié)構(gòu),關(guān)注尺度問題的工作很少看到,一個可能的原因就是在學(xué)術(shù)研究里,圖形金字塔上簡單的多尺度測試可以用來避免尺度問題達(dá)到好的精度,然而多尺度測試導(dǎo)致了很大的計算代價,另一種方式是擬合一個CNN模型適應(yīng)多尺度問題,這也會增加模型的尺寸和計算量。

?為了解決這個問題,我們考慮明確的估計尺度,如果我們知道每張圖片中的人臉的尺寸,我們可以resize圖片到最適合CNN檢測器的尺度
,這樣可以不用覆蓋到尺度引起的變化,因此小網(wǎng)絡(luò)也能達(dá)到更好的效果,也避免了在圖像金字塔所有尺度的測試,節(jié)省了計算量。如圖一所示。

這樣,人臉檢測過程可以分解為人臉尺度估計和單尺度檢測。

尺度提取階段通過一個輕量級全卷積網(wǎng)絡(luò)實現(xiàn),叫做scale proposal network(SPN),這個網(wǎng)絡(luò)能夠從一個任意尺寸的輸入圖片生成一個全局人臉尺度直方圖,網(wǎng)絡(luò)最后是一個max-pooling層,因此網(wǎng)絡(luò)的輸出是一個固定長度的向量。直方圖向量編碼了人臉在特定尺度的存在的概率,輸入圖片之后根據(jù)直方圖被resize來保證所有的臉在有效的檢測范圍里,SPN可以用ground truth直方圖向量的圖像級監(jiān)督來進(jìn)行訓(xùn)練,不需要提供人臉的位置信息。

第二階段是單尺度人臉檢測,訓(xùn)練集圖片的人臉尺度已經(jīng)在檢測之前被歸一化到一個narrow的范圍,因此一個覆蓋narrow的尺度范圍的簡單的檢測器可以達(dá)到很高的性能。在所有實驗中,我們使用RPN(region proposal network)作為檢測器,因為RPN簡單速度快而且在人臉檢測的任務(wù)中精度高,只有一個目標(biāo)類別。

通過這種兩個階段的SA-RPN方法,平均計算代價減少性能達(dá)到了state-of-art的性能。原因主要有兩個方面:一方面當(dāng)人臉占據(jù)了一張圖片的大部分的時候,可以被下采樣來節(jié)省檢測的計算量,當(dāng)人臉比最優(yōu)的范圍小的時候,上采樣使得檢測更容易。

Contributions:

1.提出分解人臉檢測問題成為兩個子問題:尺度估計和單尺度檢測,每個子問題都計算量少,整體的計算量降低了卻達(dá)到了和FDDB,MALF和AFW相當(dāng)?shù)膕tate-of-art的性能。

2.我們介紹SPN用于生成細(xì)粒度尺度的proposal,網(wǎng)絡(luò)可以用圖片級 的監(jiān)督方式很簡單的訓(xùn)練。

相關(guān)工作

基于CNN的人臉檢測出現(xiàn)在1990s, 那時候的一些模型仍然廣泛使用,但是雖然他們性能也很好,但是計算代價大,速度慢。

......

大的人臉需要較大的感受野的網(wǎng)絡(luò),較小的人臉需要較小的感受野的網(wǎng)絡(luò)。

3.scale-aware detection pipeline

如圖2所示,我們的方法包含兩個階段:把人臉檢測問題分解成兩個子問題,全局尺度proposal提取和單尺度檢測。

全局尺度提取階段是用來估計圖片中所有出現(xiàn)的人臉的可能的尺寸和為每個尺度proposal分配一個置信度得分。之后圖片根據(jù)尺度proposal來做scale,使用單尺度RPN檢測人臉,如果一張圖片中生成了多中尺度proposal,就會scale和detect多次,combine結(jié)果生成最終的檢測結(jié)果。

3.1Scale proposal network(SPN)

我們定義scale proposal是一系列估計的人臉尺寸和他們的置信度的集合,人臉尺寸的定義在Section4.2討論,在scale proposal階段,scale proposals是通過SPN生成的,SPN是一個特定設(shè)計的卷積神經(jīng)網(wǎng)絡(luò)用最少的人為引入的約束來生成scale直方圖。

SPN是一個全卷積網(wǎng)絡(luò),在最后一個卷積層后面接了一個全局max-pooling層用于從一個任意尺寸的輸入圖片生成固定長度的直方圖向量,figure3展示了SPN的結(jié)構(gòu)。輸入是下采樣的圖片,生成一個尺度響應(yīng)熱度圖(大小w*h*n),在熱度圖的全局max-pooling之后,熱度圖減小為1×1×n的直方圖向量,每一個向量元素對應(yīng)圖片上有該尺寸范圍人臉的概率。直方圖向量可以被解釋成一個scale-vs-probability直方圖,輸出特征的長度等于尺度直方圖的bins個數(shù),直方圖被sigmoid函數(shù)歸一化,從而每一個元素在[0,1]之間,代表著概率值。

尺度直方圖的詳細(xì)解釋如下:對于一個有n個取尺度對數(shù)后相等間隔大小的bin,左邊緣對應(yīng)尺寸為s0的人臉尺寸,右邊緣對應(yīng)人臉尺寸sn,直方圖向量h定義為:


對于以上提到的網(wǎng)絡(luò)結(jié)構(gòu),全局max-pooling層成為一個響應(yīng)聚合器,丟棄了位置信息,從所有的位置提取了每個直方圖bin的最大響應(yīng),這是一個很大的優(yōu)勢,因為他移除了代表標(biāo)準(zhǔn)RPN的位置約束。RPN的訓(xùn)練過程固有假設(shè)如果在輸入圖片的投影位置接近目標(biāo)中心,在分類熱度圖上的響應(yīng)會高。然而,在SPN中人臉的尺度估計響應(yīng)可以在熱度圖的任意位置,忽視位置信息幫助網(wǎng)絡(luò)選擇性的學(xué)習(xí)人臉和內(nèi)容的強代表特征,即使人臉比感受野的尺寸更大或者更小,這樣的安排使得來自多個人臉部分的響應(yīng)獨立的貢獻(xiàn)到尺度估計中,僅僅最高的響應(yīng)才會被選擇,這樣提高了魯棒性,這種RPN的訓(xùn)練策略將在4.1節(jié)討論。?

3.2 Scaling strategy generation

在一張圖片中也許會有超過一個人臉,為了減少計算量,我們希望尺寸相近的人臉能夠在a single pass被檢測器檢測到。多虧了SPN生成的高分辨率尺度估計,這可以很容易通過非極大值抑制(NMS)實現(xiàn)。

當(dāng)估計的尺度直方圖有較多的bins的時候,(比如2^3和2^9之間有60個bin,每個bin有2^0.1的間隔),直方圖會噪聲比較大,而且一張圖片中人臉的出現(xiàn)通常會給對應(yīng)的bin帶來高的響應(yīng),這使得不能簡單的閾值化高響應(yīng)。如圖4。

為了從直方圖提取有用的信號,直方圖通過使用利用一個大小為檢測器覆蓋范圍一半長度的滑動窗口移除均值的方法。這降低了高頻噪聲,而且spike獲得了足夠的分辨率。之后一個一維NMS用來從平滑了的直方圖提取峰值,峰值的位置對應(yīng)了人臉的尺寸,峰值的高度被認(rèn)為是他們的置信度得分。NMS的窗口大小設(shè)置成比檢測器覆蓋范圍稍微小一些,以便不會丟失有用的信號(比如另一張臉產(chǎn)生的尺度響應(yīng))。

在NMS之后就只有一小部分尺度proposal剩下,置信度大于一定閾值的proposal被選來作為最終的proposal,圖片將會在檢測之前做對應(yīng)size的裁剪,盡管以上提到的策略不能保證得到每張圖片最小數(shù)目的尺度,這個次優(yōu)的方案也已經(jīng)達(dá)到在保持最終proposal數(shù)目較少的情況下得到較高的召回率。

3.3single-scale RPN

我們用RPN作為人臉檢測器,盡管任何檢測器都可以表現(xiàn)相當(dāng),RPN是全卷積網(wǎng)絡(luò)有兩個輸出分支,分類分支和bounding box回歸分支,每個分支可能有一個或多個子分支,處理不同尺度的目標(biāo),每個子分支的參考box成為anchor box,詳細(xì)RPN的信息可以參考[30].

因為人臉的尺寸變化已經(jīng)在第一階段做了處理,我們只使用有一個anchor的RPN。最大的可以檢測的人臉尺寸設(shè)置為最小的可檢測人臉尺寸的二倍,這種配置足夠在保持平均zoom低和RPN計算量小的同時,有高的精度,我們使用的RPN稱為單尺度RPN,因為他只有一個anchor,有較小的人臉尺寸。

4.實現(xiàn)細(xì)節(jié)

4.1全局監(jiān)督

SPN的輸出直方圖向量直接用sigmoid交叉熵監(jiān)督:

與RPN的訓(xùn)練過程不同,SPN訓(xùn)練過程中沒有位置信息,訓(xùn)練期間,每一次迭代梯度僅僅反向傳播通過最高響應(yīng)的位置,盡管SPN是隨即初始化訓(xùn)練的,最初幾次迭代的位置選擇可能不是總是正確的,只要數(shù)據(jù)是有效的,在經(jīng)過數(shù)千次的試錯的時候總會到正確的位置。由于不相關(guān)位置的相似的特征不會是所有的訓(xùn)練樣本產(chǎn)生的,全局監(jiān)督下的SPN將會自動學(xué)習(xí)可以generalized的特征,也會快速拒絕最可能引起負(fù)尺度樣本的特征。

沒有位置約束是全局監(jiān)督的一個理想的特性,當(dāng)訓(xùn)練全卷積檢測器或者語義網(wǎng)絡(luò)的時候,ground truth樣本的位置使用一些策略分配在熱度圖上,這些人為生成的ground truth樣本對訓(xùn)練過程引入了強約束,一個例子就是對于RPN,熱度圖的位置必須對應(yīng)輸入圖像中同樣的位置,通過移除這些約束,允許網(wǎng)絡(luò)學(xué)習(xí)適應(yīng)好的特征和自身合適的響應(yīng),可以提升性能。全局監(jiān)督的一個明顯的好處就是使得有較小感受野的網(wǎng)絡(luò)能夠為比感受野大幾倍的人臉生成正確的尺度proposal,降低網(wǎng)絡(luò)的需求。全監(jiān)督下的SPN能夠根據(jù)人臉部位的豐富特征自動生成scale proposal,如圖5。

全局監(jiān)督另一個好處就是它固有的難例挖掘特征,全局max pooling總是選擇最高的響應(yīng)位置用于反向傳播,因此最高的響應(yīng)負(fù)樣本將總是在每一次迭代都會被選擇。

盡管scale proposal也可以由一個更復(fù)雜的寬范圍的單一視角檢測器生成,比如一個多anchorRPN,但是它的速度比不上SPN。

4.2 Ground truth preparation

bounding box定義:

用于生成ground truth直方圖的人臉的尺寸定義為方形bounding box的邊長,這樣的一個問題是如何定義人臉的bounding box,使它在訓(xùn)練樣本中保持一致。bounding box標(biāo)定中的鼻子可能會妨害SPN的性能,兩個階段中任何bounding box的錯位都可能嚴(yán)重影響性能。

然而手工進(jìn)行人臉bounding box標(biāo)注是一個主觀的事情,容易引入噪聲,我們更傾向于從更客觀標(biāo)記的5點面部的標(biāo)注中使用下面的轉(zhuǎn)換推導(dǎo)出邊界框,我們定義的boundingbox總是方形的。

Ground truth generatuion:

最直觀的從人臉尺寸推導(dǎo)出ground truth的方式是將直方圖作為多元二進(jìn)制分類器,設(shè)置每張人臉的對應(yīng)bin為正值,但是這種最近鄰的方式非常容易受噪聲影響,即使使用的是噪聲非常少的手工協(xié)議。雖然我們可以成功的讓最近鄰方法在非常大的合并間隔生效,但是他的性能隨著合并間隔的降低下降的很快,甚至?xí)?dǎo)致SPN不收斂。

基于以上原因,我們采用一種更穩(wěn)定的方法生成ground truth直方圖向量,對于每一個ground truth人臉,我們采用高斯函數(shù):

這樣做,模型對于由不完美ground truth引入的噪聲會更加免疫
,因為高斯函數(shù)提供了一個軟邊界。theta的選擇主要依賴于ground truth的誤差分布和檢測窗口的大小,我們的例子中使用的是theta=0.4。

如果一張圖片出現(xiàn)了超過一張人臉,ground truth直方圖是通過每個個體人臉的ground truth直方圖對應(yīng)元素求maximum生成,與max pooling相通。

4.3Receptive field problem

像所有的全卷積網(wǎng)絡(luò)一樣,在SPN中全局max pooling之前的熱度圖的感受野是有限的,但是不像RPN,SPN的感受野的限制不會阻礙網(wǎng)絡(luò)精確估計人臉尺寸,人臉尺寸比感受野大很多倍。這是因為一個尺寸較大的人臉的局部區(qū)域包含足夠的信息推斷整張臉的尺寸。盡管我們使用的網(wǎng)絡(luò)的感受野是108×108像素,它能夠敏感估計到512×512像素的人臉尺寸。

4.4 Training RPN

單尺度RPN的訓(xùn)練是直接的,檢測范圍內(nèi)所有的人臉被認(rèn)為是正樣本,檢測范圍以外的人臉屬于負(fù)樣本。

5.Experiments

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容