??人臉任務(wù)總體上分為:人臉檢測、人臉關(guān)鍵點(diǎn)檢測、人臉判別、人臉識(shí)別、人臉聚類等。
??作者認(rèn)為人臉檢測和人臉關(guān)鍵點(diǎn)檢測這兩個(gè)任務(wù)之間是有聯(lián)系的(直觀上來想,確實(shí)如此,網(wǎng)絡(luò)在提取人臉信息的時(shí)候必然會(huì)包括關(guān)鍵點(diǎn)的信息)。所以,提出了mtcnn的綜合框架,同時(shí)處理人臉檢測和人臉關(guān)鍵點(diǎn)識(shí)別。
??總體的算法思路很簡單,主要是有3個(gè)淺層網(wǎng)絡(luò)級(jí)聯(lián)在一起,每一級(jí)的精度逐步提高,作者通過這種分級(jí)過濾的方式來提高速度。3個(gè)淺層網(wǎng)絡(luò)分別是:P-Net、R-Net、O-Net。
一、算法步驟
??1、建立圖像金字塔
??2、圖像金字塔中的圖片進(jìn)入P-Net,這是一個(gè)全卷積網(wǎng)絡(luò),輸出部分分為兩個(gè)分支:分類分支(二分類)和定位分支(人臉的bbox)。
??3、將2中產(chǎn)生的bbox和原圖送入R-Net,進(jìn)一步過濾這些bbox,得到更精確的結(jié)果。
??4、將3中得到的bbox和原圖送入O-Net,輸出3個(gè)結(jié)果:分類(二分類)、定位(人臉位置)、關(guān)鍵點(diǎn)(5個(gè)關(guān)鍵點(diǎn)的坐標(biāo))。
??具體結(jié)構(gòu)如下圖所示:

二、Loss
??1、分類loss:標(biāo)準(zhǔn)交叉熵?fù)p失函數(shù)
??2、定位loss:
??3、關(guān)鍵點(diǎn)loss:兩個(gè)點(diǎn)之間的歐式距離,即
??4、3個(gè)網(wǎng)絡(luò)的loss分別為:
??(1),背景bbox:
,前景bbox:
??(2),背景bbox:
,前景bbox:
??(3),背景bbox:
,前景bbox: