【論文筆記】BlazeFace: Sub-millisecond Neural Face Detection on Mobile GPUs

URL:
論文pdf

TL;DR

Google出品。亞毫秒級的移動(dòng)端人臉檢測算法。移動(dòng)端可達(dá)200~1000+FPS速度。主要以下改進(jìn):

  • 輕量級feature受啟發(fā)于Mobile系列
  • 基于SSD的對移動(dòng)端GPU更友好的anchor策略
  • 改進(jìn)的聯(lián)合分辨率(tie resolution)策略來替代NMS方法

方法

Enlarging the receptive field sizes

在深度可分離卷積中,計(jì)算量主要為point-wise部分,增加depth-wise部分卷積核大小并不會明顯增加成本。因此本文在depth-wise部分采用了5x5的卷積核,已獲得更大的感受野,故此可以降低在層數(shù)上的需求。
此外,啟發(fā)于mobilenetV2,本文設(shè)計(jì)了一個(gè)先升后降的double BlazeBlock。BlazeBlock適用于淺層,double BlazeBlock適用于深層。


BlazeBlock (left) and double BlazeBlock

Feature extractor

  • 5個(gè)BlazeBlock和6個(gè)double BlazeBlock
  • 輸入是3x128x128,channel最大為96,feature map大小最小為8x8

Anchor scheme

16x16的anchor是一樣的,但本文將8x8,4x4和2x2的2個(gè)anchor替換到8x8的6個(gè)anchor。此外強(qiáng)制限制人臉的長寬為1:1。


Anchor computation: SSD (left) vs. BlazeFace

Post-processing

由于最后一層feature map較大(相對于ssd),導(dǎo)致預(yù)測結(jié)果會較多,在連續(xù)幀預(yù)測過程中,nms會變導(dǎo)致人臉框變得更加抖動(dòng)。本文在原始邊界框的回歸參數(shù)估計(jì)變?yōu)槠渑c重疊概率的加權(quán)平均。這基本沒有帶來預(yù)測時(shí)間上的消耗,但在提升了10%的性能。

實(shí)驗(yàn)

效果好速度快的方法想不想要?


跟mobilenetv2+ssd的效果對比

各終端上的速度比較
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容