2D關(guān)鍵點(diǎn)檢測之CPM:Convolutional Pose Machines

image.png

論文鏈接:Convolutional Pose Machines
時(shí)間:2016.2.12 CVPR2016
作者團(tuán)隊(duì):CMU
分類:計(jì)算機(jī)視覺--人體關(guān)鍵點(diǎn)檢測--2D top-down

目錄:

1.CPM背景
2.CPM算法流程
3.CPM結(jié)果評估
4.CPM網(wǎng)絡(luò)架構(gòu)圖
5.引用

1.主要在于學(xué)習(xí)記錄,如有侵權(quán),私聊我修改
2.水平有限,不足之處感謝指出


1.CPM背景
  1. CPM算法是基于熱圖檢測的方法,繼承姿態(tài)機(jī)Pose Mchines(PM)的優(yōu)勢,也可以采用topdown方法檢測多人。
  2. PM算法:將人體姿態(tài)的各個(gè)部分分別建立對應(yīng)的回歸模型,使得每個(gè)部分的關(guān)鍵點(diǎn)坐標(biāo)能夠被精確地識別和定位。
    step1:提取特征,將人體姿態(tài)的不同部位分別輸入到不同的回歸器中進(jìn)行訓(xùn)練
    step2:將這些回歸器按照人體姿態(tài)的部位順序連接起來,形成人體姿態(tài)


    image.png

??網(wǎng)絡(luò)分為多個(gè)層級多個(gè)stage,第一個(gè)stage將從patch得到的特征作為輸入,經(jīng)過多分類器得到各個(gè)part的置信度,接下來的stage同時(shí)將特征和上一個(gè)stage在不同層級上得到的上下文信息作為輸入,經(jīng)過分類器得到這個(gè)階段各個(gè)part的置信,此時(shí)得到的結(jié)果比stage1的結(jié)果好

3.CPM大部分流程與Pose Machine保持一致,(a)和(b)與pose machine的結(jié)構(gòu)基本相同。
??針對于CPM的每一個(gè)stage(除了第一個(gè)stage),圖像數(shù)據(jù)輸入和上一個(gè)stage輸出的heat map經(jīng)過特征函數(shù)處理,作為下一個(gè)特征圖的輸入,重復(fù)進(jìn)行heat map和loss計(jì)算。(c)和(d)是其對應(yīng)的卷積網(wǎng)絡(luò)結(jié)構(gòu),(e)展示圖片在網(wǎng)絡(luò)中傳輸?shù)牟煌A段的感受野。


image.png

??CPM的第一階段只從局部圖像信息中預(yù)測關(guān)鍵點(diǎn)特征,因?yàn)榈谝粋€(gè)階段的感受野限制在輸出像素位置周圍很小的區(qū)域。
??為了達(dá)到一定的精度,把輸入的裁剪圖像歸一化到368×368大小,整個(gè)網(wǎng)絡(luò)的感受野大小為160×160。然后從每個(gè)160×160圖像塊中回歸出長度為P+1的輸出向量,p為關(guān)鍵點(diǎn)個(gè)數(shù)。


2.CPM算法流程

??對于stage1: 對輸入圖片做處理,經(jīng)過VGG提取圖像卷積特征,后接兩個(gè)1×1卷積輸出heatmaps(shape為h'×w'×(P+1)),P+1通道表示heatmaps上每個(gè)像素位置是P個(gè)關(guān)鍵點(diǎn)(關(guān)節(jié))+1個(gè)背景的得分socre。
??對于stage1以外的stage的 輸入包含:原圖、之前stage輸出的heatmap、每個(gè)目標(biāo)的中心約束map;對原始圖像輸入進(jìn)行特征提取,與上一個(gè)stage的輸出進(jìn)行concat操作,進(jìn)入卷積神經(jīng)網(wǎng)絡(luò)計(jì)算得到輸出為P+1通道的heatmaps。


image.png

??第一階段對于具有外觀一致性的關(guān)鍵點(diǎn)的檢測率較高,但是對于在人體骨骼運(yùn)動(dòng)鏈中處于較低位置的關(guān)鍵點(diǎn)來說,精度較低。
??研究發(fā)現(xiàn)關(guān)鍵點(diǎn)周圍的heatmaps雖然噪聲很多,但是信息量也很大。于是設(shè)計(jì)多階段預(yù)測器,可以使用圖像上位置周圍區(qū)域的帶噪heatmaps生成空間上下文信息,來提高預(yù)測結(jié)果。


image.png

??第二階段網(wǎng)絡(luò)輸出層的感受野必須足夠大,以保證網(wǎng)絡(luò)具有學(xué)習(xí)各個(gè)關(guān)鍵點(diǎn)間復(fù)雜和長距離關(guān)系的潛力。
??解決方法:將之前階段的輸出特征往后傳遞,后續(xù)階段的卷積層可以選取最有用的特征,讓分類器自由地組合上下文信息

??通過對歸一化尺寸為304×304的輸入圖像進(jìn)行一系列的實(shí)驗(yàn),檢測準(zhǔn)確率隨著感受野的變化而增大。在250像素的時(shí)候趨于飽和,恰好是歸一化后的目標(biāo)(人)的大小。
??為了適應(yīng)數(shù)據(jù)集,把裁剪后的圖像歸一化為368×368,第二階段在第一階段輸出heatmaps上的感受野設(shè)置為31×31,等價(jià)于在原始輸入圖像上的感受野為400×400,能可以覆蓋圖像中任何一對關(guān)鍵點(diǎn)。
??另外階段越多,有效感受野越大,因此stage設(shè)置為6。


image.png

image.png

??為了解決梯度消失問題,在每個(gè)階段后,將求和中的每一項(xiàng)應(yīng)用到網(wǎng)絡(luò)中,從而有效地強(qiáng)制監(jiān)督中間階段。即使整個(gè)網(wǎng)絡(luò)有很多層,也不會(huì)出現(xiàn)梯度消失,因?yàn)橹虚g損失函數(shù)會(huì)在每個(gè)階段補(bǔ)充梯度。


3.CPM結(jié)果評估

??為了比較不同訓(xùn)練策略下的網(wǎng)絡(luò)檢測率,使用LSP數(shù)據(jù)集、以人為中心的標(biāo)注。以四種方式訓(xùn)練模型:(1)聯(lián)合訓(xùn)練+中間監(jiān)督(2)不聯(lián)合訓(xùn)練(3)先分開訓(xùn)練+再聯(lián)合訓(xùn)練+中間監(jiān)督(4)聯(lián)合訓(xùn)練,不用中間監(jiān)督。結(jié)果表明聯(lián)合訓(xùn)練+中間監(jiān)督最優(yōu)。
??性能隨著階段的提高而提高,到5-stage的時(shí)候趨于飽和,在6-stage精度減弱,因此設(shè)定stage=6。


image.png

CPM與PM的精度對比(a);不同訓(xùn)練策略的精度(b);各階段精度(c)

PCK指標(biāo):在17年前廣泛使用,計(jì)算檢測的關(guān)鍵點(diǎn)與其對應(yīng)的groundtruth間的歸一化距離小于設(shè)定閾值的比例。

image.png

其中 i表示id為 i的關(guān)鍵點(diǎn);k表示第k個(gè)閾值 ;p表示第p個(gè)行人
??????表示第 p個(gè)人中id為i的關(guān)鍵點(diǎn)的預(yù)測值和groundtruth的歐式距離
??
??^??????表示第p個(gè)人的尺度因子,這個(gè)因子不同公開數(shù)據(jù)集使用的計(jì)算方法不同,F(xiàn)LIC 中是以軀干直徑作為歸一化參考,MPII 中是以頭部長度作為歸一化參考,即PCKh
????表示人工設(shè)定的閾值, ????∈[0:0.01:0.1]


4.CPM網(wǎng)絡(luò)架構(gòu)圖
image.png

5.引用

引用1
引用2
引用3

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容