Real-Time Human Pose Recognition in Parts from Single Depth Images

Abstract We propose a new method to quickly and accurately predict 3D positions of body joints from a single depth image, using no temporal information. We take an object recognition approach, designing an intermediate body parts representation that maps the difficult pose estimation problem into a simpler per-pixel classification problem. Our large and highly varied training dataset allows the classifier to estimate body parts invariant to pose, body shape, clothing, etc. Finally we generate confidence-scored 3D proposals of several body joints by reprojecting the classification result and finding local modes. The system runs at 200 frames per second on consumer hardware. Our evaluation shows high accuracy on both synthetic and real test sets, and investigates the effect of several training parameters. We achieve state of the art accuracy in our comparison with related work and demonstrate improved generalization over exact whole-skeleton nearest neighbor matching.

導(dǎo)讀

論文提出了一種從單張深度圖片中實(shí)時(shí)識(shí)別人體姿態(tài)的方法。主要思路是將這個(gè)問題轉(zhuǎn)化成從單張深度圖片識(shí)別每個(gè)像素屬于身體的那個(gè)部位以及對(duì)識(shí)別出來的身體部位進(jìn)行3維關(guān)節(jié)點(diǎn)重建問題。

圖1: 從單張輸入的審圖圖片,推斷每個(gè)像素點(diǎn)從屬的身體部位

我們主要關(guān)注論文中如何使用隨機(jī)森林解決第一步轉(zhuǎn)化:從深度圖片來識(shí)別身體部位。

訓(xùn)練數(shù)據(jù)的采集

如何得到大量,多樣的訓(xùn)練數(shù)據(jù)是問題的關(guān)鍵。限制有二,使用計(jì)算機(jī)圖形技術(shù)生成的真實(shí)圖像會(huì)受到大量的顏色和紋理的影響,使得原始數(shù)據(jù)的有效信息退化成二維剪影信息,即使深度相機(jī)可以避免顏色紋理的影響,但是人體和衣服的形狀各樣性仍不能很好收集完全。

論文基于原始深度相機(jī)采集的圖像,結(jié)合人物模型特性輕微改變身高和體重來生成更多的合成圖像,以此來覆蓋更多的人體形狀。合成圖像的目標(biāo)是真實(shí)和多樣。此外,結(jié)合用戶的使用場(chǎng)景,論文的數(shù)據(jù)采集目標(biāo)是覆蓋人可能在娛樂場(chǎng)景中做出來的各種姿勢(shì)。事實(shí)上,并不需要采集所有可能的姿態(tài)的組合數(shù)據(jù),只要采集到大量范圍廣的的姿態(tài)信息就足夠了。對(duì)采集的連續(xù)姿態(tài)序列,姿態(tài)之間相似冗余,因而使用定義了姿態(tài)間的歐式距離舍棄其中的部分冗余數(shù)據(jù)。

此外,為了進(jìn)一步完善先前采集數(shù)據(jù)的缺失信息,可以迭代采集過程,不斷完善數(shù)據(jù)庫(kù)。

特征表達(dá)

論文使用深度比對(duì)來生成圖像 I 中某一個(gè)像素 \mathbf{x} 的特征。

  • 首先,對(duì)于像素 \mathbf{x} ,定義一組位移探針 \theta = (\mathbf{u}, \mathbf{v}) 來獲取像素 x 附近兩個(gè)位置的深度差異。
  • 基于 \mathbf{u/v} 生成的兩個(gè)像素點(diǎn)可以表示成,\mathbf{x}+\frac{\mathbf{u}}{d_I(\mathbf{x})}\mathbf{x}+\frac{\mathbf{v}}{d_I(\mathbf{x})}。
  • 兩個(gè)像素探針的深度差可以計(jì)算如下

圖2: 像素探針的深度差計(jì)算

其中, 是通過正則化確保特征是深度無關(guān)的信息。

實(shí)驗(yàn)中,對(duì)于每張圖片,每個(gè)像素點(diǎn),定義了 2000 組這樣的探針,每個(gè)探針 \theta 構(gòu)成了該像素點(diǎn)的其中一個(gè)特征,也即生成了2000個(gè)特征。

每個(gè)單獨(dú)的特征只提供了很弱的信號(hào)可以指示像素屬于身體的哪個(gè)部位。但是對(duì)隨機(jī)森林來說,這足夠讓這些特征組合提供足夠的信息來準(zhǔn)確分辨各個(gè)身體部分。

圖3: 深度圖片特征

Insights

  • a highly varied and large training set is required.
  • 基于原始數(shù)據(jù)合成覆蓋更廣更多的數(shù)據(jù)。要求合成的數(shù)據(jù)真實(shí)且多樣。
  • 采集訓(xùn)練數(shù)據(jù)結(jié)合具體的測(cè)試場(chǎng)景。
  • 對(duì)于RF,訓(xùn)練數(shù)據(jù)不需要窮盡所有的組合,只要數(shù)據(jù)分布廣數(shù)量足夠即可。
  • 使用 furtherst neighbor clustering 丟棄相似冗余的數(shù)據(jù)。
  • 迭代采樣,彌補(bǔ)缺失訓(xùn)練數(shù)據(jù)
  • 特征表達(dá):使用足量的特征,每個(gè)特征提供(即使微弱的)信號(hào)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容