吳恩達(dá)深度學(xué)習(xí)筆記(93)-目標(biāo)檢測(cè)之特征點(diǎn)檢測(cè)

特征點(diǎn)檢測(cè)(Landmark detection)

上節(jié)課,我們講了如何利用神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)象定位,即通過輸出四個(gè)參數(shù)值b_x、b_y、b_h和b_w給出圖片中對(duì)象的邊界框。更概括地說,神經(jīng)網(wǎng)絡(luò)可以通過輸出圖片上特征點(diǎn)的(x,y)坐標(biāo)來實(shí)現(xiàn)對(duì)目標(biāo)特征的識(shí)別,我們看幾個(gè)例子。

假設(shè)你正在構(gòu)建一個(gè)人臉識(shí)別應(yīng)用,出于某種原因,你希望算法可以給出眼角的具體位置。

眼角坐標(biāo)為(x,y),你可以讓神經(jīng)網(wǎng)絡(luò)的最后一層多輸出兩個(gè)數(shù)字l_x和l_y,作為眼角的坐標(biāo)值。如果你想知道兩只眼睛的四個(gè)眼角的具體位置,那么從左到右,依次用四個(gè)特征點(diǎn)來表示這四個(gè)眼角。對(duì)神經(jīng)網(wǎng)絡(luò)稍做些修改,輸出第一個(gè)特征點(diǎn)(l_1x,l_1y),第二個(gè)特征點(diǎn)(l_2x,l_2y),依此類推,這四個(gè)臉部特征點(diǎn)的位置就可以通過神經(jīng)網(wǎng)絡(luò)輸出了。

(注:圖中的模特是恩達(dá)老師的夫人Carol Reiley)

也許除了這四個(gè)特征點(diǎn),你還想得到更多的特征點(diǎn)輸出值,這些(圖中眼眶上的紅色特征點(diǎn))都是眼睛的特征點(diǎn),你還可以根據(jù)嘴部的關(guān)鍵點(diǎn)輸出值來確定嘴的形狀,從而判斷人物是在微笑還是皺眉,也可以提取鼻子周圍的關(guān)鍵特征點(diǎn)。

為了便于說明,你可以設(shè)定特征點(diǎn)的個(gè)數(shù),假設(shè)臉部有64個(gè)特征點(diǎn),有些點(diǎn)甚至可以幫助你定義臉部輪廓或下頜輪廓。選定特征點(diǎn)個(gè)數(shù),并生成包含這些特征點(diǎn)的標(biāo)簽訓(xùn)練集,然后利用神經(jīng)網(wǎng)絡(luò)輸出臉部關(guān)鍵特征點(diǎn)的位置。

具體做法是,準(zhǔn)備一個(gè)卷積網(wǎng)絡(luò)和一些特征集,將人臉圖片輸入卷積網(wǎng)絡(luò),輸出1或0,

1表示有人臉,0表示沒有人臉,

然后輸出(l_1x,l_1y)……直到(l_64x,l_64y)。這里我用l代表一個(gè)特征,這里有129個(gè)輸出單元,其中1表示圖片中有人臉,因?yàn)橛?4個(gè)特征,64×2=128,所以最終輸出128+1=129個(gè)單元,由此實(shí)現(xiàn)對(duì)圖片的人臉檢測(cè)和定位。

這只是一個(gè)識(shí)別臉部表情的基本構(gòu)造模塊,如果你玩過Snapchat或其它娛樂類應(yīng)用,你應(yīng)該對(duì)AR(增強(qiáng)現(xiàn)實(shí))過濾器多少有些了解,Snapchat過濾器實(shí)現(xiàn)了在臉上畫皇冠和其他一些特殊效果。

檢測(cè)臉部特征也是計(jì)算機(jī)圖形效果的一個(gè)關(guān)鍵構(gòu)造模塊,比如實(shí)現(xiàn)臉部扭曲,頭戴皇冠等等。當(dāng)然為了構(gòu)建這樣的網(wǎng)絡(luò),你需要準(zhǔn)備一個(gè)標(biāo)簽訓(xùn)練集,也就是圖片x和標(biāo)簽y的集合,這些點(diǎn)都是人為辛苦標(biāo)注的。

最后一個(gè)例子,如果你對(duì)人體姿態(tài)檢測(cè)感興趣,你還可以定義一些關(guān)鍵特征點(diǎn),如胸部的中點(diǎn),左肩,左肘,腰等等。然后通過神經(jīng)網(wǎng)絡(luò)標(biāo)注人物姿態(tài)的關(guān)鍵特征點(diǎn),再輸出這些標(biāo)注過的特征點(diǎn),就相當(dāng)于輸出了人物的姿態(tài)動(dòng)作。當(dāng)然,要實(shí)現(xiàn)這個(gè)功能,你需要設(shè)定這些關(guān)鍵特征點(diǎn),從胸部中心點(diǎn)(l_1x,l_1y)一直往下,直到(l_32x,l_32y)。

一旦了解如何用二維坐標(biāo)系定義人物姿態(tài),操作起來就相當(dāng)簡(jiǎn)單了,批量添加輸出單元,用以輸出要識(shí)別的各個(gè)特征點(diǎn)的(x,y)坐標(biāo)值。

要明確一點(diǎn),特征點(diǎn)1的特性在所有圖片中必須保持一致,就好比,特征點(diǎn)1始終是右眼的外眼角,特征點(diǎn)2是右眼的內(nèi)眼角,特征點(diǎn)3是左眼內(nèi)眼角,特征點(diǎn)4是左眼外眼角等等。所以標(biāo)簽在所有圖片中必須保持一致,假如你雇用他人或自己標(biāo)記了一個(gè)足夠大的數(shù)據(jù)集,那么神經(jīng)網(wǎng)絡(luò)便可以輸出上述所有特征點(diǎn),你可以利用它們實(shí)現(xiàn)其他有趣的效果,比如判斷人物的動(dòng)作姿態(tài),識(shí)別圖片中的人物表情等等。

以上就是特征點(diǎn)檢測(cè)的內(nèi)容,下節(jié)課我們將利用這些構(gòu)造模塊來構(gòu)建對(duì)象檢測(cè)算法。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容