Abstract We propose a new method to quickly and accurately predict 3D positions of body joints from a single depth image, using no temporal information. We take an object recognition approach, designing an intermediate body parts representation that maps the difficult pose estimation problem into a simpler per-pixel classification problem. Our large and highly varied training dataset allows the classifier to estimate body parts invariant to pose, body shape, clothing, etc. Finally we generate confidence-scored 3D proposals of several body joints by reprojecting the classification result and finding local modes. The system runs at 200 frames per second on consumer hardware. Our evaluation shows high accuracy on both synthetic and real test sets, and investigates the effect of several training parameters. We achieve state of the art accuracy in our comparison with related work and demonstrate improved generalization over exact whole-skeleton nearest neighbor matching.
導(dǎo)讀
論文提出了一種從單張深度圖片中實(shí)時(shí)識(shí)別人體姿態(tài)的方法。主要思路是將這個(gè)問題轉(zhuǎn)化成從單張深度圖片識(shí)別每個(gè)像素屬于身體的那個(gè)部位以及對(duì)識(shí)別出來的身體部位進(jìn)行3維關(guān)節(jié)點(diǎn)重建問題。

我們主要關(guān)注論文中如何使用隨機(jī)森林解決第一步轉(zhuǎn)化:從深度圖片來識(shí)別身體部位。
訓(xùn)練數(shù)據(jù)的采集
如何得到大量,多樣的訓(xùn)練數(shù)據(jù)是問題的關(guān)鍵。限制有二,使用計(jì)算機(jī)圖形技術(shù)生成的真實(shí)圖像會(huì)受到大量的顏色和紋理的影響,使得原始數(shù)據(jù)的有效信息退化成二維剪影信息,即使深度相機(jī)可以避免顏色紋理的影響,但是人體和衣服的形狀各樣性仍不能很好收集完全。
論文基于原始深度相機(jī)采集的圖像,結(jié)合人物模型特性輕微改變身高和體重來生成更多的合成圖像,以此來覆蓋更多的人體形狀。合成圖像的目標(biāo)是真實(shí)和多樣。此外,結(jié)合用戶的使用場(chǎng)景,論文的數(shù)據(jù)采集目標(biāo)是覆蓋人可能在娛樂場(chǎng)景中做出來的各種姿勢(shì)。事實(shí)上,并不需要采集所有可能的姿態(tài)的組合數(shù)據(jù),只要采集到大量范圍廣的的姿態(tài)信息就足夠了。對(duì)采集的連續(xù)姿態(tài)序列,姿態(tài)之間相似冗余,因而使用定義了姿態(tài)間的歐式距離舍棄其中的部分冗余數(shù)據(jù)。
此外,為了進(jìn)一步完善先前采集數(shù)據(jù)的缺失信息,可以迭代采集過程,不斷完善數(shù)據(jù)庫(kù)。
特征表達(dá)
論文使用深度比對(duì)來生成圖像 中某一個(gè)像素
的特征。
- 首先,對(duì)于像素
,定義一組位移探針
來獲取像素
附近兩個(gè)位置的深度差異。
- 基于
生成的兩個(gè)像素點(diǎn)可以表示成,
和
。
- 兩個(gè)像素探針的深度差可以計(jì)算如下

其中, 是通過正則化確保特征是深度無關(guān)的信息。
實(shí)驗(yàn)中,對(duì)于每張圖片,每個(gè)像素點(diǎn),定義了 2000 組這樣的探針,每個(gè)探針 構(gòu)成了該像素點(diǎn)的其中一個(gè)特征,也即生成了2000個(gè)特征。
每個(gè)單獨(dú)的特征只提供了很弱的信號(hào)可以指示像素屬于身體的哪個(gè)部位。但是對(duì)隨機(jī)森林來說,這足夠讓這些特征組合提供足夠的信息來準(zhǔn)確分辨各個(gè)身體部分。

Insights
- a highly varied and large training set is required.
- 基于原始數(shù)據(jù)合成覆蓋更廣更多的數(shù)據(jù)。要求合成的數(shù)據(jù)真實(shí)且多樣。
- 采集訓(xùn)練數(shù)據(jù)結(jié)合具體的測(cè)試場(chǎng)景。
- 對(duì)于RF,訓(xùn)練數(shù)據(jù)不需要窮盡所有的組合,只要數(shù)據(jù)分布廣數(shù)量足夠即可。
- 使用 furtherst neighbor clustering 丟棄相似冗余的數(shù)據(jù)。
- 迭代采樣,彌補(bǔ)缺失訓(xùn)練數(shù)據(jù)
- 特征表達(dá):使用足量的特征,每個(gè)特征提供(即使微弱的)信號(hào)