MTCNN

??人臉任務(wù)總體上分為:人臉檢測、人臉關(guān)鍵點(diǎn)檢測、人臉判別、人臉識(shí)別、人臉聚類等。
??作者認(rèn)為人臉檢測和人臉關(guān)鍵點(diǎn)檢測這兩個(gè)任務(wù)之間是有聯(lián)系的(直觀上來想,確實(shí)如此,網(wǎng)絡(luò)在提取人臉信息的時(shí)候必然會(huì)包括關(guān)鍵點(diǎn)的信息)。所以,提出了mtcnn的綜合框架,同時(shí)處理人臉檢測和人臉關(guān)鍵點(diǎn)識(shí)別。
??總體的算法思路很簡單,主要是有3個(gè)淺層網(wǎng)絡(luò)級(jí)聯(lián)在一起,每一級(jí)的精度逐步提高,作者通過這種分級(jí)過濾的方式來提高速度。3個(gè)淺層網(wǎng)絡(luò)分別是:P-Net、R-Net、O-Net。

一、算法步驟

??1、建立圖像金字塔
??2、圖像金字塔中的圖片進(jìn)入P-Net,這是一個(gè)全卷積網(wǎng)絡(luò),輸出部分分為兩個(gè)分支:分類分支(二分類)和定位分支(人臉的bbox)。
??3、將2中產(chǎn)生的bbox和原圖送入R-Net,進(jìn)一步過濾這些bbox,得到更精確的結(jié)果。
??4、將3中得到的bbox和原圖送入O-Net,輸出3個(gè)結(jié)果:分類(二分類)、定位(人臉位置)、關(guān)鍵點(diǎn)(5個(gè)關(guān)鍵點(diǎn)的坐標(biāo))。
??具體結(jié)構(gòu)如下圖所示:


二、Loss

??1、分類loss:標(biāo)準(zhǔn)交叉熵?fù)p失函數(shù)L_i^{det}
??2、定位loss:L_i^{box} = || \hat y_i^{box} - y_i{box}||_2^2
??3、關(guān)鍵點(diǎn)loss:兩個(gè)點(diǎn)之間的歐式距離,即
L_i^{landmark} = || \hat y_i^{landmark} - y_i^{landmark} ||_2^2
??4、3個(gè)網(wǎng)絡(luò)的loss分別為:
??(1)L_p = \sum_{i=1}^N (L_i^{det} + 0.5\beta L_i^{box}),背景bbox:\beta = 0,前景bbox:\beta = 1
??(2)L_R = \sum_{i=1}^N (L_i^{det} + 0.5\beta L_i^{box}),背景bbox:\beta = 0,前景bbox:\beta = 1
??(3)L_O = \sum_{i=1}^N(L_i^{det} + 0.5\beta L_i^{box} + \beta L_i^{landmark}),背景bbox:\beta = 0,前景bbox:\beta = 1

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容