End-to-end Recovery of Human Shape and Pose
cvpr2018的文章,
有道云筆記:http://note.youdao.com/noteshare?id=2514205ee272234c20a29e92aedb089b
下載地址:https://arxiv.org/pdf/1712.06584.pdf
學習參考:https://blog.csdn.net/weixin_44599751/article/details/88877811
譯文:http://tongtianta.site/paper/1121
源碼:https://github.com/akanazawa/hmr
端到端的方式訓練模型存在的挑戰(zhàn):
1. 缺乏對野外圖像的大規(guī)模地面真實3D注釋,具有精確3D注釋的現有數據集的捕獲環(huán)境受限。在這些數據集上訓練的模型并不能很好地概括現實世界中圖像的豐富性。2. 單視點二維到三維映射的固有區(qū)別:眾所周知的是深度模糊的問題,其中多個3D身體配置解釋相同的2D投影。這些配置中的許多可能不是人體測量學上合理的,例如不可能的關節(jié)角度或非常瘦的身體。此外,估計相機明確引入了人物尺寸和相機距離之間的附加比例模糊度。
本文提出了一種新穎的網格重建方法解決這兩個挑戰(zhàn):
新穎網格重建方法:給定一個圖像,網絡必須推斷3D網格參數和相機,使3D關鍵點與投影后的帶注釋的2D關鍵點匹配。為了解決模糊問題,將這些參數發(fā)送到discriminator network,discriminator network的任務是確定3D參數是否對應于真人的身體。
因此,鼓勵網絡在human manifold上輸出參數,而discriminator network則充當弱監(jiān)督。該網絡隱含地了解每個關節(jié)的角度限制,并且不鼓勵使用不尋常身體形狀的人。
預測身體模型參數的挑戰(zhàn):
預測身體模型參數的另一個挑戰(zhàn)是回歸到旋轉矩陣具有挑戰(zhàn)性。建議以反饋迭代的方式直接回歸這些值。我們的框架如圖2所示。
超越現有技術的方法:
1.我們直接從圖像特征推斷出3D,而以前的方法則是從2D關鍵點推斷3D。這不僅丟棄了大量的圖像信息,而且需要兩階段的訓練。
2.我們超越了骨架和輸出網格,這對于許多應用來說更復雜,更合適。再次,不需要額外的推理步驟。
3.?我們的框架以端對端的方式進行訓練。我們在3D聯(lián)合誤差和運行時間方面超出了先前輸出3D網格的方法
4. 我們顯示有和沒有成對2D-3D數據的結果。即使不使用任何配對的2D到3D監(jiān)督,我們的方法也可以生成合理的3D重建。這是最令人興奮的,因為它為從大量2D數據中學習3D提供了可能性。