3D視覺系列:PoseCNN

poseCNN

1 創(chuàng)新點

  • 提出新的位置估計表示形式:預(yù)測2d圖片中心和距離攝像頭距離(利用圖像坐標(biāo)來推測實際3D坐標(biāo))。并且通過hough投票來確定物體位置中心。
  • 提出新的姿態(tài)估計損失函數(shù)ShapeMatch-Loss:解決旋轉(zhuǎn)對稱物體姿態(tài)估計問題
  • 提出新的數(shù)據(jù)集: YCB-Video dataset

2 論文思路

Net.png

上述是整個網(wǎng)絡(luò)結(jié)構(gòu)圖

  1. bodynet是vgg16,
  2. 網(wǎng)絡(luò)的預(yù)測輸出共有3個。語義分割分支,位置分支,姿態(tài)分支。。
  3. 位置分支:利用ISM 表示形式(ISM介紹)間接推測出,而非直接預(yù)測三維坐標(biāo)XYZ值。
    a) 投票.
    b) 極大值抑制.
    c) 設(shè)置閾值
  4. 姿態(tài)分支:采用四元數(shù)表示。對于每個類的每個roi,都預(yù)測一個結(jié)果。

3 訓(xùn)練過程

3.1 ShapeMatch-Loss

對于上述的每個分支,都有一個loss,一共有3個loss。同時,作者為了應(yīng)對旋轉(zhuǎn)對稱物體的姿態(tài)迷惑性(即可以用多個四元數(shù)來表示一個姿態(tài)),作者提出了一個新的loss——ShapeMatch-Loss。

SLoss.png

M是代表3d模型空間中的點,
R(\widetilde{q})、R(q)
分別代表預(yù)測的3d旋轉(zhuǎn)矩陣和真正的3d旋轉(zhuǎn)矩陣。X1表示場景中的點,X2表示模型上離X1最近的點。

3.2 數(shù)據(jù)集

作者在OccludedLINEMOD Dataset 和YCB-Video Dataset(作者提出的)進(jìn)行訓(xùn)練和測試。

4 結(jié)果

4.1 SLoss

image.png

4.2 與baseline對比

baseline為3D coordinate 。


image.png

使用RGB作為輸入,poseCNN明顯性能更高。
使用RGB-D作為輸入,使用ICP作為后處理能夠明顯提升性能。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容