DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion 論文詳細(xì)解讀

Abstract

1.解決的問題
  • 先前的工作不能充分的利用兩個(gè)互補(bǔ)的數(shù)據(jù)源(RGB與D),只能獨(dú)立的從RGB 或者是深度圖中提取信息或者依賴于昂貴的后處理步驟。
  • 在復(fù)雜混亂場景下效果不好,不能夠在實(shí)時(shí)任務(wù)中應(yīng)用。
2.貢獻(xiàn)
  • 提出DenseFusion一個(gè)通用可單獨(dú)處理兩個(gè)數(shù)據(jù)源的異質(zhì)架構(gòu),并且可以對兩個(gè)數(shù)據(jù)源的信息進(jìn)行融合,在RGBD圖像中預(yù)測已知物體的6D姿態(tài)。
  • 在神經(jīng)網(wǎng)絡(luò)架構(gòu)中集成了一個(gè)迭代的微調(diào)過程,消除了之前的后處理 ICP 方法的依賴性。
3.結(jié)果

在YCB-Video和LineMOD都state-of-the-art,并且進(jìn)行了機(jī)器人部署測試。

4.官方代碼與視頻

https://sites.google.com/view/densefusion/

Introduction

1.理想情況下,該問題的解決方案要能夠處理具有各種形狀、紋理的物體,且面對重度遮擋、傳感器噪聲、光照條件改變等情況都極為穩(wěn)健,同時(shí)還要有實(shí)時(shí)任務(wù)需要的速度。

2.傳統(tǒng)方法首先從 RGB-D 數(shù)據(jù)中提取特征,完成對應(yīng)的分組和假設(shè)驗(yàn)證。但是,對手動特征的依賴和固定的匹配程序限制了它們在重度遮擋、燈光變化環(huán)境下的表現(xiàn)。近來在視覺識別領(lǐng)域取得的成果激發(fā)了一系列數(shù)據(jù)驅(qū)動方法,如使用 PoseCNN 和 MCN 這樣的深度網(wǎng)絡(luò)對 RGB-D 輸入做姿態(tài)估計(jì)。

3.這些方法需要復(fù)雜的后處理微調(diào)步驟,從而完整利用 3D 信息,例如 PoseCNN 中生成的高度定制的迭代最近點(diǎn)(Iterative Closest Point ---ICP)和 MCN 中多視角假設(shè)驗(yàn)證規(guī)劃(multi-view hypothesis verification scheme)。這些微調(diào)步驟不能與最終目標(biāo)函數(shù)聯(lián)合優(yōu)化,在現(xiàn)實(shí)應(yīng)用中也極為緩慢。在自動駕駛中,一種第三方解決方案被提出,它能夠通過 Frustrum PointNet和 PointFusion這樣的端到端深度模型很好地利用 RGB-D 數(shù)據(jù)中顏色和深度信息的補(bǔ)充性質(zhì)。在駕駛場景中,這些模型取得了非常好的表現(xiàn),也有很好的實(shí)時(shí)推理能力。但是,根據(jù)經(jīng)驗(yàn)可知,這些方法在重度遮擋環(huán)境下不符合標(biāo)準(zhǔn),這是實(shí)際操控領(lǐng)域中非常常見的一種情況。

4.在本文中,研究者提出一種端到端的深度學(xué)習(xí)方法,對 RGB-D 輸入的已知物體進(jìn)行 6D 姿態(tài)估計(jì)。該方法的核心是在每個(gè)像素級別嵌入、融合 RGB 值和點(diǎn)云,這和之前使用圖像塊計(jì)算全局特征Pointfusion2D邊界框的研究相反。這種像素級融合方法使得本文的模型能夠明確地推理局部外觀和幾何信息,這對處理重度遮擋情況至關(guān)重要。此外,研究者還提出了一種迭代方法,能夠在端到端學(xué)習(xí)框架中完成姿態(tài)微調(diào)。這極大地提高了模型性能,同時(shí)保證了實(shí)時(shí)推理速度。

5.研究者在兩個(gè)流行的 6D 姿態(tài)估計(jì)基準(zhǔn)---YCB-Video和 L i n e M O D 上評估了他們的方法。結(jié)果表明,在經(jīng)過 ICP 進(jìn)后,該方法的性能超越了當(dāng)前最佳的 PoseCNN,其姿態(tài)估計(jì)準(zhǔn)確率提高了 3.5 % , 推斷速度提高了 200 倍。值得一提的是,我們證明了新方法在高度雜亂的場景中表現(xiàn)出了魯棒性。最后,研究者還在一個(gè)真實(shí)的機(jī)器人任務(wù)中展示了它的用途,在這項(xiàng)任務(wù)中,機(jī)器人估計(jì)目標(biāo)的姿態(tài)并抓取它們以清理桌面。

6.總之我們的貢獻(xiàn)有兩個(gè)方面:
提出了結(jié)合顏色與深度信息的方法,使用從任務(wù)中學(xué)習(xí)到的嵌入空間的2D信息來增強(qiáng)每個(gè)3D點(diǎn)的信息,并使用此新的顏色深度空間來估計(jì)6D姿勢。其次,研究者將迭代細(xì)化過程集成到神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)中,從而消除了后處理ICP步驟的先前方法的依賴性。

相關(guān)工作

大力推薦閱讀綜述:
Vision-based Robotic Grasping from Object Localization, Pose Estimation, Grasp Detection to Motion Planning: A Review

Model

?使用齊次變換矩陣表示6D姿態(tài),p\in SE(3) ,該姿態(tài)是相對于相機(jī)坐標(biāo)系的,由旋轉(zhuǎn)矩陣R\in SO(3)和平移矩陣 t\in R^{3} ,p=[R|T] 組成。
?要想在不利的條件下(例如,重度遮擋,光線不足等)估計(jì)已知目標(biāo)的姿態(tài),只有結(jié)合顏色和深度圖像通道中的信息才有可能。但是,這兩個(gè)數(shù)據(jù)源是不同空間的。因此,從異質(zhì)數(shù)據(jù)源中提取特征并把它們恰當(dāng)?shù)厝诤显谝黄鹗沁@個(gè)領(lǐng)域中的主要技術(shù)挑戰(zhàn)。

1.Architecture Overview

該架構(gòu)包含兩個(gè)階段

  1. 將RGB作為輸入并且對每個(gè)已知的物體類進(jìn)行語義分割,對于每個(gè)分割出來的物體,根據(jù)掩模以及掩模bounding box提取出深度像素和圖象塊(image patch)

2.處理分割結(jié)果并估計(jì)對象的6D姿態(tài)。包含4個(gè)部分:

(a).全卷積網(wǎng)絡(luò)(CNN),它處理顏色信息并將圖像塊(image crop)中的每個(gè)像素映射到顏色特征嵌入(color embedding)
(b).基于PointNet的網(wǎng)絡(luò),它將掩蔽的3D點(diǎn)云中的每個(gè)點(diǎn)處理為幾何特征嵌入(geometry embeddings)
(c).像素級融合網(wǎng)絡(luò)(pixel-wise fusion network),它在像素級別組合兩個(gè)嵌入(color embeddings)和(geometry embeddings),并基于無監(jiān)督置信度評分輸出對象的6D姿勢估計(jì)
下圖對應(yīng)a b c

Overview of our 6D pose estimation model.png

(d).迭代自優(yōu)化方法,以課程學(xué)習(xí)方式訓(xùn)練網(wǎng)絡(luò)并迭代優(yōu)化估計(jì)結(jié)果,下圖對應(yīng)(d)

Iterative Pose Refinement
2.Semantic Segmentation

第一步是分割圖像中的感興趣對象。研究者的語義分割網(wǎng)絡(luò)是一個(gè)編碼器-解碼器結(jié)構(gòu),它以圖像為輸入,生成N+1(N個(gè)類別加上一個(gè)背景類)個(gè)通道的語義分割圖。每個(gè)通道是二進(jìn)制掩碼,其中活動像素描述N個(gè)可能的已知類別中的每一個(gè)的對象。這項(xiàng)工作的重點(diǎn)是開發(fā)一種位姿估計(jì)算法。因此,我們使用 Posecnn中提出的分割體系結(jié)構(gòu)。

3.Dense Feature Extraction

這一領(lǐng)域的關(guān)鍵技術(shù)挑戰(zhàn)是從顏色和深度通道中正確提取信息以及它們之間的協(xié)同融合。盡管顏色和深度在RGB-D幀中呈現(xiàn)相似的格式,但它們的信息在不同的空間中。因此,將它們分別映射成 color features 和 geometric features,以保留數(shù)據(jù)源原有信息。
(這里我有個(gè)小小的問題,我覺得RGB圖像能提取到的不僅僅是顏色特征更多的可能是紋理特征,而且紋理特征并不屬于幾何特征范疇。)

  • 密集三維點(diǎn)云特征嵌入(Dense 3D point cloud feature embedding)
    1.首先使用標(biāo)定相機(jī)的內(nèi)參將分割的深度像素轉(zhuǎn)換為3D點(diǎn)云
    2.使用PointNet類似的結(jié)構(gòu)提取幾何特征。
    PointNet 使用對稱函數(shù)(最大池化)在處理無序點(diǎn)集時(shí)實(shí)現(xiàn)排列不變性,原始體系結(jié)構(gòu)將原始點(diǎn)云作為輸入,并學(xué)習(xí)對每個(gè)點(diǎn)的附近信息和整個(gè)點(diǎn)云的信息進(jìn)行編碼。這些特征被證明在形狀分類、分割和姿勢估計(jì)中是有效的。
    ?我們提出了一種幾何嵌入網(wǎng)絡(luò),一種 PointNet 架構(gòu)的變體,使用平均池化而不是通常使用的最大池化作為對稱縮減函數(shù),通過將每個(gè)P分割點(diǎn)映射到一個(gè) d_{geo}維特征空間來生成密集的逐點(diǎn)特征。

  • 密集彩色圖像特征嵌入(Dense color image feature embedding)
    將顏色嵌入網(wǎng)絡(luò)的目的是提取每個(gè)像素的特征,以便在點(diǎn)云特征和圖像特征之間形成緊密的對應(yīng)關(guān)系。 圖像嵌入網(wǎng)絡(luò)是一種基于CNN的編解碼器體系結(jié)構(gòu),它將尺寸為 H\times W\times 3的圖像映射到H\times W\times d_{rgb}的空間。嵌入的每個(gè)像素表示相應(yīng)位置處輸入圖像的外觀信息的 d_{rgb}維向量。

3.Pixel-wise Dense Fusion

到目前為止,研究者已經(jīng)從圖像和三維點(diǎn)云輸入中獲得了密集的特征,現(xiàn)在我們需要對信息進(jìn)行融合。一種自然的想法是從分割區(qū)域的密集顏色和深度特征中生成全局特征。然而,由于嚴(yán)重的遮擋和分割錯誤,來自上一步的特征集可能包含其他對象或背景上的點(diǎn)/像素的特征。因此,在全局范圍內(nèi)盲目融合顏色和幾何特征會降低估計(jì)的性能。
研究者描述了一種新穎的像素級密集融合網(wǎng)絡(luò)(主要是利用了2D圖像到3D點(diǎn)云的對應(yīng)映射原理),它有效地結(jié)合了提取的特征(color features 和 geometric features),特別是在嚴(yán)重遮擋和不完美分割的情況下進(jìn)行姿態(tài)估計(jì)。

  • Pixel-wise dense fusion
    研究者的密集融合網(wǎng)絡(luò)的關(guān)鍵思想是進(jìn)行局部的逐像素融合,而不是全局融合,這樣我們就可以根據(jù)每個(gè)融合的特征進(jìn)行預(yù)測。潛在的根據(jù)對象的可見部分來選擇預(yù)測,并最小化遮擋和分割噪聲的影響。這句話不是很理解。

步驟:
1.首先利用已知的攝像機(jī)內(nèi)部參數(shù),基于在圖像平面上的投影,將每個(gè)點(diǎn)的幾何特征與其對應(yīng)的圖像特征像素相關(guān)聯(lián)(就是將圖像和3D點(diǎn)云像素級關(guān)聯(lián))。
2.使用對稱縮減函數(shù)將所獲得的特征對串聯(lián),并喂到另一網(wǎng)絡(luò)以生成固定大小的全局特征向量。
雖然研究者避免使用單個(gè)全局特征進(jìn)行估計(jì),但在這里,我們使用全局密集融合特征豐富了每個(gè)密集像素特征,以提供全局的上下文。
我們將每個(gè)像素的特征輸入到預(yù)測對象的 6D 姿勢的最終網(wǎng)絡(luò)中。換句話說,我們將訓(xùn)練這個(gè)網(wǎng)絡(luò),從每個(gè)密集融合的特征中預(yù)測一個(gè)姿勢。結(jié)果是一組P個(gè)預(yù)測姿勢,每個(gè)像素特征預(yù)測一個(gè)姿態(tài)。這定義了我們的第一個(gè)學(xué)習(xí)目標(biāo)。接下來就是學(xué)習(xí)如何在自我監(jiān)督的方式下找到哪個(gè)姿態(tài)最優(yōu),這一方法受到Pointfusion 的啟發(fā)。我們修改了網(wǎng)絡(luò)以輸出每個(gè)預(yù)測的置信度分?jǐn)?shù)c_{i} ,以根據(jù)特定的上下文來決定哪個(gè)姿態(tài)估計(jì)可能是最好的假設(shè).。

4.6D Object Pose Estimation

優(yōu)化目標(biāo):真實(shí)姿態(tài)下目標(biāo)模型上的采樣點(diǎn)與預(yù)測姿態(tài)變換后的同一模型上的對應(yīng)點(diǎn)之間的距離。
\color{red}{這里很重要,具體解釋一下再說損失函數(shù)}
目標(biāo)模型(一般在視頻第一幀中的目標(biāo)物體,定義為目標(biāo)模型,也就是一段視頻中,后續(xù)建模出來的點(diǎn)云數(shù)據(jù),都是以第一幀的目標(biāo)物體為標(biāo)準(zhǔn))。目標(biāo)模型根據(jù)拍攝其他視角圖片時(shí)保存的攝像頭參數(shù)(一般含有旋轉(zhuǎn)矩陣和偏轉(zhuǎn)矩陣-也就是標(biāo)準(zhǔn)的姿態(tài)參數(shù)),求得當(dāng)前幀(或者說當(dāng)前視角)的點(diǎn)云數(shù)據(jù)??偟膩碚f也就是把目標(biāo)模型的點(diǎn)云,依據(jù)按照最標(biāo)準(zhǔn)的參數(shù)(旋轉(zhuǎn)和偏移)轉(zhuǎn)換成其他視角的點(diǎn)云數(shù)據(jù)。這樣每個(gè)點(diǎn)云都進(jìn)行了標(biāo)準(zhǔn)的變換,這里標(biāo)準(zhǔn)的旋轉(zhuǎn)和偏移,我們可以稱為ground truth pose。
損失函數(shù):
L_{i}^{p}=\frac{1}{M}\sum_{j}^{}\left\|(Rx_{j}+t)-(\hat{R}_{i}x_{j}+\hat{t}_{i})\right\|
x_{j}表示從對象的 3D 模型中隨機(jī)選擇的 M 個(gè) 3D 點(diǎn)的第 j 個(gè)點(diǎn),
p=\left [ R|t \right ]是真實(shí)的物體姿態(tài),p=\left [ \hat{R}_{i}|\hat{t}_{i} \right ]是從i^{th}密集像素的融合嵌入生成的預(yù)測姿態(tài)。
由于對稱對象有多個(gè)規(guī)范框架,可能有無限多個(gè)規(guī)范框架,這導(dǎo)致學(xué)習(xí)目標(biāo)不明確。(舉個(gè)例子,比如一個(gè)球體,各視角的紋理相似,形狀基本是圓的,旋轉(zhuǎn)一下,提取的特征可能不變,但3D姿態(tài)卻變化了。)取而代之的是估計(jì)模型上的每個(gè)點(diǎn)與真實(shí)模型上最近的點(diǎn)之間距離的最小值。對稱對象的損失函數(shù)如下:
L_{i}^{p}=\frac{1}{M}\sum_{j}\min \limits_{0<k<M}\left\|(Rx_{j}+t)-(\hat{R}_{i}x_{k}+\hat{t}_{i})\right\|
然后把上面每個(gè)像素的loss加起來:L=\frac{1}{N}\sum_{i}L_{i}^{p},然而,正如前面所解釋的,我們希望我們的網(wǎng)絡(luò)學(xué)會平衡每個(gè)像素預(yù)測之間的置信度。為此,我們用密集像素置信度對每個(gè)像素 loss 進(jìn)行加權(quán),并添加第二置信度正則化項(xiàng):
L=\frac{1}{N}\sum_{i}(L_{i}^{p}c_{i}-wlog(c_{i}))
其中,N是從融合后的P個(gè)元素中隨機(jī)采樣的密集像素特征的數(shù)量,而w是平衡超參數(shù)。直觀地說,低置信度 c_{i}會導(dǎo)致低位姿估計(jì)損失 (L),但從第二項(xiàng)wlog(c_{i}) 開始會招致很高的懲罰,反之亦然。我們使用置信度最高的姿態(tài)估計(jì)作為最終輸出。
\color{red}{我自己總結(jié)了一下}:
通俗的講,就是第一項(xiàng)中置信度 (c_{i}) 變大會導(dǎo)致?lián)p失函數(shù) (L)變大,這是不應(yīng)該的,而第二項(xiàng)中置信度 (c_{i}) 變大,會導(dǎo)致?lián)p失函數(shù) (L) 減去一個(gè)較大的值,從而使整體變小??傊褪沁@個(gè)損失函數(shù) (L) 會隨著置信度 (c_{i}) 增大而減小,最終選擇使損失函數(shù) (L) 的取最小值的姿態(tài)估計(jì)作為輸出。

5.迭代自優(yōu)化

迭代最近點(diǎn)算法(ICP)(\color{red}{后續(xù)準(zhǔn)備寫一篇博客詳細(xì)介紹算法以及實(shí)現(xiàn)})是許多6D位姿估計(jì)方法使用的一種強(qiáng)大的優(yōu)化方法。然而,對于實(shí)時(shí)應(yīng)用而言,性能最好的 ICP 實(shí)現(xiàn)通常效率不夠高。在這里,我們提出了一種基于神經(jīng)網(wǎng)絡(luò)的迭代優(yōu)化算法,可以快速而穩(wěn)健地改善最終的位姿估計(jì)結(jié)果。
我們的目標(biāo)是使網(wǎng)絡(luò)能夠以迭代的方式校正自身的位姿估計(jì)誤差。這里的挑戰(zhàn)是訓(xùn)練網(wǎng)絡(luò)完善之前的預(yù)測,而不是做出新的預(yù)測。要做到這一點(diǎn),我們必須將前一個(gè)迭代中所做的預(yù)測作為下一個(gè)迭代的輸入的一部分。
再次把這張圖放過來!

Iterative Pose Refinement

研究者的方法核心思想是:
1.將先前預(yù)測的姿態(tài)作為目標(biāo)對象的標(biāo)準(zhǔn)幀的估計(jì),并將輸入的點(diǎn)云轉(zhuǎn)換為該估計(jì)的標(biāo)準(zhǔn)幀。
2.將變換后的點(diǎn)云反饋到網(wǎng)絡(luò)中,并基于先前估計(jì)的姿態(tài)預(yù)測剩余姿態(tài)。
?具體來說,我們訓(xùn)練了一個(gè)專用的位姿殘差估計(jì)網(wǎng)絡(luò)來對給定初始位姿估計(jì)的主網(wǎng)絡(luò)進(jìn)行優(yōu)化。在迭代過程中,我們使用主網(wǎng)絡(luò)中嵌入的圖像特征,并為新變換的點(diǎn)云計(jì)算的幾何特征進(jìn)行密集融合,姿態(tài)殘差估計(jì)器使用來自融合像素特征集合的全局特征作為輸入。
在 K 次迭代之后,我們獲得作為每次迭代估計(jì)的串聯(lián)的最終姿態(tài)估計(jì):
\hat{p}=\left [ R_{K}|t_{K} \right]\cdot\left[ R_{K-1}|t_{K-1}\right]\cdot\cdot\cdot\cdot\cdot\cdot\left [ R_{0}|t_{0} \right]

姿態(tài)殘差估計(jì)器可以與主網(wǎng)絡(luò)聯(lián)合訓(xùn)練。但訓(xùn)練開始時(shí)的姿態(tài)估計(jì)噪聲太大,以至于它無法學(xué)習(xí)任何有意義的東西。所以,在實(shí)踐中,聯(lián)合訓(xùn)練是在主網(wǎng)收斂之后開始的。

Experiments

在實(shí)驗(yàn)部分,想要回答以下問題:
(1) 密集融合網(wǎng)絡(luò)與樸素的全局級聯(lián)融合相比如何?
(2) 密集融合和預(yù)測方案對嚴(yán)重的遮擋和分割誤差是否具有魯棒性?
(3) 迭代優(yōu)化算法是否改善了最終的位姿估計(jì)?
(4) 對于機(jī)器人抓取等下游任務(wù),我們的方法是否足夠健壯和高效?
為了回答前三個(gè)問題,研究者在 YCB-Video Dataset 和 LineMOD 這兩個(gè)6D目標(biāo)姿態(tài)估計(jì)數(shù)據(jù)集上對我們的方法進(jìn)行了評估。

  • YCB-Video數(shù)據(jù)集:以不同遮擋條件下不同形狀和紋理級別的對象為特色。
  • LineMOD數(shù)據(jù)集:是一個(gè)廣泛使用的數(shù)據(jù)集,它允許我們與更廣泛的現(xiàn)有方法進(jìn)行比較。

為了回答最后一個(gè)問題,研究者將模型部署到一個(gè)真實(shí)的機(jī)器人平臺上,并使用我們的模型預(yù)測來評估機(jī)器人抓取任務(wù)的性能。

1.Datasets
  • YCB-Video Dataset:具有21個(gè)形狀和質(zhì)地各不相同的YCB對象。該數(shù)據(jù)集包含92個(gè)RGB-D視頻,其中每個(gè)視頻顯示不同室內(nèi)場景。視頻使用6D姿勢和分段蒙版進(jìn)行注釋。
    我們將數(shù)據(jù)集的80個(gè)視頻用于訓(xùn)練,從其余12個(gè)視頻中選擇2949個(gè)關(guān)鍵幀用于測試,并將 YCB-Video DataSet 發(fā)布的相同80000個(gè)合成圖像包括在我們的訓(xùn)練集中。在我們的實(shí)驗(yàn)中,我們與使用深度細(xì)化 (ICP) 算法和基于學(xué)習(xí)的深度方法的結(jié)果進(jìn)行了比較。
  • LineMOD Dataset:由13個(gè)視頻中的13個(gè)低紋理對象組成。
    我們使用與以前基于學(xué)習(xí)的工作相同的訓(xùn)練集和測試集,沒有額外的合成數(shù)據(jù),并與最先進(jìn)算法的最佳 ICP 優(yōu)化結(jié)果進(jìn)行比較。
2.Metrics

在 YCB-Video 數(shù)據(jù)集,使用了兩個(gè)評估標(biāo)準(zhǔn):
1.點(diǎn)云之間的平局距離average closest point distance(ADD-S),他分別考慮的對稱和不對稱物體的評估。通過估算的姿態(tài)\left[\hat{R}|\hat{t} \right]和ground truth pose \left[R|t\right],ADD-S會計(jì)算由他們轉(zhuǎn)換之后,對應(yīng)點(diǎn)云之間的距離,然后取得平均值。然后我們求得了其AUC曲線,AUC得最大閾值設(shè)定為0.1m。
2.同時(shí)也做了低于2cm的實(shí)驗(yàn)。對于機(jī)器人抓取物體,能容忍的最大誤差值就是2cm。
在 LineMOD數(shù)據(jù)集,使用ADD標(biāo)準(zhǔn)評估不對稱的物體,ADD-S評估對稱的物體。

3.Implementation Details

圖像嵌入網(wǎng)絡(luò)由一個(gè) Resnet-18 編碼器和4個(gè)上采樣層作為解碼器組成。PointNet 架構(gòu)是一個(gè)多層感知機(jī)(MLP),后面跟著一個(gè)平均池化縮減功能。顏色(color)和幾何(geometric)密集特征嵌入都是128維的向量。我們選擇平衡超參數(shù) w = 0.01 。迭代姿態(tài)優(yōu)化由 4個(gè)fc層組成,這些層直接輸出全局密集特征的姿態(tài)殘差。我們對所有實(shí)驗(yàn)都使用2次優(yōu)化迭代。

4.Architectures

比較了4個(gè)模型變體以表明我們設(shè)計(jì)網(wǎng)絡(luò)的有效性

  • PointFusion使用 CNN 提取固定大小的特征向量,并通過直接連接圖像特征和幾何特征進(jìn)行融合。網(wǎng)絡(luò)的其余部分與我們的架構(gòu)相似。與這一模型的比較證明了我們密集融合網(wǎng)絡(luò)的有效性。
  • Ours (single):使用我們的密集融合網(wǎng)絡(luò),但它不執(zhí)行逐點(diǎn)預(yù)測,而只使用全局特征向量輸出單個(gè)預(yù)測。
    3.Ours (per-pixel):根據(jù)每個(gè)密集融合的特征執(zhí)行每像素預(yù)測。
    4.Ours (iterative) :在Ours (per-pixel)的基礎(chǔ)下,使用iterative refinement 。
5.Evaluation on YCB-Video Dataset

下表顯示了YCB-Video 數(shù)據(jù)集中所有21個(gè)對象的評估結(jié)果:


YCB-Video評估結(jié)果

在模型變體中,Ours (Iterative) 取得了最好的性能。即使沒有迭代細(xì)化,研究者的方法也能夠勝過 PoseCNN + ICP。特別是,我們的(迭代)在 ADD-S<2cm 指標(biāo)上的性能優(yōu)于 PoseCNN + ICP 3.5%。

  • Effect of dense fusion
    研究者的兩種密集融合基線 (Ours(single)) 和Ours(per-pixel)) 都大大優(yōu)于PointFusion,這表明,與PointFusion中使用的全局融合級聯(lián)方法相比,密集融合具有明顯的優(yōu)勢。
  • Effect of iterative re?nement
    可以看到,迭代優(yōu)化改進(jìn)提高了整體位姿估計(jì)性能,特別是對于無紋理對稱物體(加粗的),如bowl碗(29%)、banana香蕉(6%)、extra_large_clamp特大型夾具(6%)等方向模糊的物體,其性能得到了顯著的改善。
  • Robustness towards occlusion
    模型表現(xiàn)隨物體遮擋比率的變化
  • Effect of iterative re?nement
    密集融合方法的主要優(yōu)點(diǎn)是它對遮擋的魯棒性。為了量化遮擋對最終性能的影響,我們計(jì)算了每個(gè)對象的可見表面比率(補(bǔ)充材料中提供了更多詳細(xì)信息)\color{red}{感興趣去看原論文的附錄}。然后我們計(jì)算精度(ADD-S<2cm 百分比)如何隨著遮擋程度的變化而變化。如圖 5 所示,PointFusion 和 PoseCNN+ICP 的性能隨著遮擋的增加而顯著下降。相比之下,我們的方法都沒有出現(xiàn)明顯的性能下降。特別是,Ours(per-pixel)和 Ours(iterative)的性能總體上僅下降了 2%。
  • Time ef?ciency
    比較了模型與 PoseCNN+ICP 的時(shí)間效率如下表:
    時(shí)間效率對比

    可以看到我們的方法比 PoseCNN+ICP 快了兩個(gè)數(shù)量級。特別是 PoseCNN+ICP 將大部分時(shí)間花在后處理 ICP 上。相比之下,我們所有的計(jì)算組件,即分割 (Seg)、姿態(tài)估計(jì) (PE) 和迭代細(xì)化 (Refine),都同樣有效,并且整體運(yùn)行時(shí)間對于實(shí)時(shí)應(yīng)用來說足夠快(16 FPS)。
  • Qualitative evaluation
    下圖可視化 PoseCNN+ICP、PointFusion 和我們的迭代細(xì)化模型所做的一些樣本預(yù)測。
    YCB-Dataset結(jié)果可視化

正如所看到的,由于嚴(yán)重的遮擋,PoseCNN和ICP和PointFusion無法估計(jì)最左邊列的碗和中間列的餅干盒的正確姿態(tài),而研究者的方法仍然是穩(wěn)健的。另一個(gè)具有挑戰(zhàn)性的情況是由于分割不良(圖中未顯示)而導(dǎo)致夾子位于中間行。該方法僅從物體的可見部分對夾具進(jìn)行定位,有效地減少了對精確分割結(jié)果的依賴。

6.Evaluation on LineMOD Dataset

下表將研究者的方法與以前基于RGB 方法上進(jìn)行深度細(xì)化 (ICP)在 ADD 指標(biāo)上進(jìn)行了比較。


LineMOD數(shù)據(jù)集上的對比結(jié)果

可以看到,即使沒有迭代優(yōu)化步驟,研究者的方法也比目前最先進(jìn)的深度優(yōu)化方法提高7%的性能。在使用迭代優(yōu)化方法進(jìn)行處理后,最終結(jié)果又提高了8%,證明了本文提出的基于學(xué)習(xí)的深度方法在精度和效率上都優(yōu)于復(fù)雜的ICP應(yīng)用。

LineMOD數(shù)據(jù)集上迭代優(yōu)化的性能

下圖是每個(gè)優(yōu)化迭代之后可視化估計(jì)的6D姿態(tài),其中研究者的姿態(tài)估計(jì)在2個(gè)優(yōu)化迭代之后平均提高了0.8厘米(ADD)。

7.Robotic Grasping Experiment

在最后一個(gè)實(shí)驗(yàn)中,研究者評估了他們的方法估計(jì)的姿勢是否足夠準(zhǔn)確以使機(jī)器人能夠抓取和操縱。如圖所示

機(jī)器人抓取實(shí)驗(yàn)

研究者將五個(gè)物體放在桌子上四個(gè)不同的隨機(jī)位置,三個(gè)隨機(jī)方向,包括部分遮擋的配置。由于拾取對象的順序未優(yōu)化,因此不允許對象重疊的配置。機(jī)器人在每個(gè)物體上嘗試12次,總共60次嘗試。機(jī)器人使用估計(jì)的對象方向來計(jì)算抓取器的手指與對象較窄維度的對準(zhǔn)。使用研究者提出的方法估計(jì)物體的姿態(tài),機(jī)器人的抓取成功率為73%。最難抓住的物體是香蕉(12次成功嘗試中有7次)。一個(gè)可能的原因是我們的香蕉模型與數(shù)據(jù)集中的不完全相同-我們的模型是純黃色的。這一特性阻礙了估計(jì),特別是方位的估計(jì),并導(dǎo)致沿對象較長軸的一些抓取嘗試失敗。盡管這種不太準(zhǔn)確的情況,我們的結(jié)果表明,我們的方法足夠健壯,可以在沒有顯式領(lǐng)域適應(yīng)的情況下部署在真實(shí)世界的機(jī)器人任務(wù)中,即使使用不同的RGB-D傳感器,并且在與訓(xùn)練數(shù)據(jù)中的背景不同的情況下也是如此。

Conclusion

提出了一種從 RGB-D 圖像中估計(jì)已知物體6D姿態(tài)的新方法。研究者的方法融合了密集特征,包括基于預(yù)測置信度的顏色和深度信息。使用這種密集融合方法,研究者在幾個(gè)數(shù)據(jù)集上的性能都優(yōu)于以前的方法,并且對遮擋的魯棒性明顯更強(qiáng)。此外,研究者還演示了機(jī)器人可以使用我們提出的方法來抓取和操作對象。

暫時(shí)未懂的問題

這一部分的幾個(gè)問題我沒理解,我列出來,歡迎大家一起討論,如果我突然想明白了,我會寫出來!
1.對稱縮減函數(shù)與對稱函數(shù)的區(qū)別?
2.ADD-S怎么生成AUC曲線?

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容