ECCV2016 ObjectNet3D: A Large Scale Database for 3D Object Recognition

0、關(guān)鍵詞

Database Construction,?3D Object Recognition, 3D Pose Annotation,?3D Shape Annotation

1、鏈接

該論文來自Stanford,一作是一位在Stanford大學(xué)Computational Vision & Geometry Lab實驗室訪學(xué)的Michigan華人博士學(xué)生Yu Xiang(向宇),這之前他在復(fù)旦取得學(xué)士和碩士學(xué)位?,F(xiàn)在他已是德州大學(xué)達拉斯分校的助理教授(An assistant professor in the CS department at UT Dallas)。值得說明的是,向宇博士同時也是3D數(shù)據(jù)集PASCAL3D+的一作。這些扎實的benckmarks工作以及一系列與3D目標(biāo)檢測相關(guān)的算法研究,足以證明他在這個領(lǐng)域的重要地位。

論文鏈接:https://cvgl.stanford.edu/papers/xiang_eccv16.pdf

論文代碼:https://github.com/yuxng/ObjectNet3D_toolbox

論文官方網(wǎng)站介紹:https://cvgl.stanford.edu/projects/objectnet3d/

該論文提出的數(shù)據(jù)集ObjectNet3D主要服務(wù)于3D目標(biāo)識別任務(wù),即基于2D RGB圖像的3D物體姿態(tài)估計和形狀重建任務(wù),其中2D目標(biāo)檢測(classification and localization)作為中間任務(wù),也是必要的存在。下圖是一張標(biāo)注實例的展示。

ObjectNet3D

2、主要內(nèi)容概述

※ Abstract

We contribute a large scale database for 3D object recognition, named ObjectNet3D, that consists of 100 categories, 90,127 images, 201,888 objects in these images and 44,147 3D shapes. Objects in the 2D images in our database are aligned with the 3D shapes, and the alignment provides both accurate 3D pose annotation and the closest 3D shape annotation for each 2D object. Consequently, our database is useful for recognizing the 3D pose and 3D shape of objects from 2D images. We also provide baseline experiments on four tasks: region proposal generation, 2D object detection, joint 2D detection and 3D object pose estimation, and image-based 3D shape retrieval, which can serve as baselines for future research using our database. Our database is available online at http://cvgl.stanford.edu/projects/objectnet3d.

申明大規(guī)模數(shù)據(jù)集ObjectNet3D主要用于3D目標(biāo)識別任務(wù),或者稱之為3D目標(biāo)檢測任務(wù),并精確地給出了數(shù)據(jù)集包含的類別、圖像數(shù)量、物體個數(shù),以及3D形狀數(shù)量。數(shù)據(jù)集中,2D圖像均與3D形狀完成了對齊,也就是說每一個2D物體都有人工標(biāo)注的3D姿態(tài)和3D形狀(CAD模型)。(PS:盡管文章聲稱這些標(biāo)注標(biāo)簽是精確的,但礙于當(dāng)時技術(shù)發(fā)展,后續(xù)的更高質(zhì)量的同類數(shù)據(jù)集如Pix3DObjectron等均定量化地證明了,ObjectNet3D的標(biāo)簽并不十分精確)文章還提供了多個任務(wù)上的baseline(包括2D目標(biāo)檢測、3D姿態(tài)估計和3D形狀檢索),這是數(shù)據(jù)集工作所必須的內(nèi)容。

※ Introduction

基于2D RGB圖像的3D目標(biāo)識別是一項重要且被廣泛地研究了的任務(wù)(Recognizing 3D properties of objects from 2D images, such as 3D location, 3D pose and 3D shape, is a central problem in computer vision that has wide applications in different scenarios including robotics, autonomous driving and augmented reality.)這一領(lǐng)域的發(fā)展,離不開相應(yīng)數(shù)據(jù)集的構(gòu)建(providing 3D annotations to 2D objects)。代表性數(shù)據(jù)集如NYU Depth(RGB-D),KITTI(RGB + point cloud),PASCAL3D+(RGB? +?3D CAD models)。有了這些benchmarks,各類監(jiān)督學(xué)習(xí)算法才得以被提出和進行公平地比較。

然而,現(xiàn)存的帶有3D標(biāo)注信息的數(shù)據(jù)集大都缺乏較大規(guī)模(limited in scale),包括2D物體的數(shù)量或2D圖片的總數(shù)量(either in the number of object categories or in the number of images),至少,這一領(lǐng)域的數(shù)據(jù)集的規(guī)模沒有達到大規(guī)模2D圖像數(shù)據(jù)集那樣,如ImageNet和MS-COCO。因此,見證了圖像分類、檢測和分割在大規(guī)模數(shù)據(jù)集的加持下取得的進展后,本文作者認(rèn)為一個對等的大規(guī)模3D目標(biāo)識別數(shù)據(jù)集很有存在的必要。(After witnessing the progress on image classification, 2D object detection and segmentation with the advance of such large scale 2D image databases, we believe that a large scale database with 3D annotations would significantly benefit 3D object recognition.)(這一段引出了本文提出的數(shù)據(jù)集ObjectNet3D的必要性,說法和寫作值得借鑒

接下來的第三段,作者主要介紹提出的數(shù)據(jù)集ObjectNet3D的具體規(guī)模,以及搜集和制作的大致流程。ObjectNet3D數(shù)據(jù)集中圖片篩選自ImageNet repository,3D shapes篩選自ShapeNet?repository。關(guān)于標(biāo)注標(biāo)簽,每張圖像中的物體都含有一個bounding box,以及對應(yīng)的對齊后的3D shape CAD模型,其中對齊是指3D形狀投影后與2D物體的區(qū)域基本上重合,如下圖1所示。這些3D形狀標(biāo)簽使得ObjectNet3D數(shù)據(jù)集可以用于3D物體識別(姿態(tài)估計和最相近3D形狀檢索),同時,3D形狀的投影可以產(chǎn)生近似的segmentation boundaries。

Fig. 1. An example image in our database with 2D objects aligned with 3D shapes.The alignment enables us to project each 3D shape to the image where its projectionoverlaps with the 2D object as shown in the image on the right.

第四段中,作者著重強調(diào)自己的工作重心,即對齊2D物體與3D形狀模型,是非常重要的(non-trivial)。這主要體現(xiàn)在兩點:1)需要從成百上千的3D形狀模型中挑選出與待標(biāo)注的2D物體最相近的一個,如果讓人類標(biāo)注者逐個對比挑選,是不可行的(not feasible);2)要對齊3D形狀模型與待標(biāo)注2D物體的姿態(tài),往往是極容易發(fā)生錯誤的(error-prone),因此對齊標(biāo)注的質(zhì)量很難控制。針對以上兩個問題,作者在文章中提出了解決方案:Ⅰ)作者使用現(xiàn)有的算法deep metric learning method(參考原文文獻),完成3D形狀模型的預(yù)挑選。算法使用渲染后的3D模型圖片作為輸入,提取對應(yīng)的feature embedding,然后對于給定的2D物體圖片,返回topK的相似3D模型作為標(biāo)注者的備選對象;Ⅱ)為了保證標(biāo)注質(zhì)量,作者定制化地開發(fā)了對其3D模型與2D物體的標(biāo)注工具,標(biāo)注界面允許標(biāo)注者選取多種相機參數(shù),來最大化地對其模型與物體(To guarantee the quality of the alignment, we have designed an annotation tool to align the 3D shape with the 2D object. Our annotation interface allows annotators to interactively find a set of camera parameters for each object that produce good alignment.)。

最后一段,作者重申他們基于ObjectNet3D數(shù)據(jù)集提出了一些baseline方法,以供后續(xù)研究。

※ Related Work

這一章主要回歸一些代表性的3D目標(biāo)識別數(shù)據(jù)集。(We review representative datasets related to 3D object recognition)

Datasets with viewpoints. 這類數(shù)據(jù)集提供2D圖像的bounding box與viewpoints,但這些數(shù)據(jù)集的視角標(biāo)注大都存在規(guī)模小、視角離散化粗略、場景內(nèi)容簡單等問題(small in scale, coarse in viewpoint discretization and simple in scene context),作者拿3DObjectEPFL Car數(shù)據(jù)集舉了具體的例子。與這類數(shù)據(jù)集相比,ObjectNet3D提供了連續(xù)的視角標(biāo)注標(biāo)簽,且圖像均來自真實場景。(It provides?continuous viewpoint annotation to realistic images from the web

Datasets with depths or 3D points. 這類數(shù)據(jù)集使用深度圖像或點云完成與2D圖像中物體的配準(zhǔn)(registration)。使用深度信息的數(shù)據(jù)集舉例包括RGB-D Object、NYU depth、SUN RGB-D;使用點云的數(shù)據(jù)集舉例為KITTI,數(shù)據(jù)集的具體描述見原文。與這些數(shù)據(jù)集相比,作者為每個2D物體提供的3D模型標(biāo)注,擁有比深度和點云更豐富的信息。(we align a 3D shape to each 2D object and provide 3D shape annotation to objects, which is richer information than depth or 3D points and allows us to transfer meta-data from the 3D shape back to the image.)

Datasets with 2D-3D alignments. 提供2D-3D之前對齊標(biāo)注的開創(chuàng)性工作為LabelMe3D(An influential work in building datasets with 2D-3D alignment is LabelMe3D)。這之后,類似的提供2D圖像與3D形狀對的數(shù)據(jù)集有IKEA、PASCAL3D+,與這兩個數(shù)據(jù)集不同的是(它們存在一些缺陷 it is insufficient to cover the variations of common object categories and their geometry variability),ObjectNet3D提供了更大規(guī)模的image-shape對。下表1是與各個代表性的舉例數(shù)據(jù)集的對比。

※?Database Construction

Our goal is to build a large scale database for 3D object recognition. We resort to images in existing image repositories and propose an approach to align 3D shapes (which are available from existing 3D shape repositories) to the objects in these images. In this way, we have successfully built the ObjectNet3D database.

具體分以下6個步驟介紹數(shù)據(jù)集的構(gòu)建過程:

● 3.1 Object Categories

首先要明確,數(shù)據(jù)集ObjectNet3D是面向物體識別任務(wù)的(object category recognition)。由于要提供2D物體的3D形狀作為標(biāo)注,因此均挑選的是剛性物體(rigid object categories),至于非剛性的組合式或鉸鏈?zhǔn)轿矬w類別(deformable and articulated objects),尤其是動物和人體等類別,在對齊階段,需要挪動部件以擬合2D物體的輪廓,這是極其困難的。作者聲稱將留作下一階段的研究目標(biāo)(We consider the extension to non-rigid object categories as a future work.)(PS:德國馬普所的大佬Michael Black一直致力于研究digital person,3D human shape的相關(guān)進展,可以關(guān)注他們的產(chǎn)出)。表2中展示了ObjectNet3D數(shù)據(jù)集包含的100個剛性物體類別,其中包含了12類PASCAL VOC數(shù)據(jù)集中的剛性類別,以及9類3DObject數(shù)據(jù)集中的剛性類別。

PS:高亮標(biāo)注的類別似乎不能算作剛性物體?

● 3.2 2D Image Acquisition

在明確100個物體類別后,作者選擇從ImageNet數(shù)據(jù)集中挑選2D圖像。ImageNet按照詞網(wǎng)絡(luò)分層(WordNet hierarchy)的方式組織圖片,每一個節(jié)點表示一個同義詞集合(synset),作者便根據(jù)上一步驟設(shè)定的物體類別,從這些同義詞集中下載對應(yīng)的圖片。但是,對于類別can, desk lamp and trophy作者未能在ImageNet數(shù)據(jù)集中找到對應(yīng)同義詞集,且類別fork and iron的對應(yīng)圖像數(shù)量極少,因此作者額外地補充了這些類別的圖片(Google Image Search.)。下圖2展示了一些 物體類別對應(yīng)的圖片。數(shù)據(jù)集中,大部分圖像中的物體類別十分顯著(salient),這是由ImageNet主要被用于圖像分類決定的。(PS:這也從側(cè)面說明,3D目標(biāo)識別數(shù)據(jù)集,目前尚不能很好地支持多目標(biāo)檢測任務(wù),即像2D目標(biāo)檢測數(shù)據(jù)集MS-COCO那樣,一張圖像中包含多種未知的物體類別和數(shù)量

Fig. 2. Example images in our database.

● 3.3 3D Shape Acquisition

首先,作者人工地Trimble 3D Warehouse中為100個物體類別挑選代表性3D形狀模型,這些3D模型覆蓋了絕大多數(shù)類別中對應(yīng)的子類別(subcategories)。比如,對于car這一類別,會挑選 sedans, SUVs, vans, trucks等多種子類別。圖3a中展示了bench這一類別對應(yīng)的7種子類別,這些3D形狀已被統(tǒng)一地完成視角對齊e.g., front view of bench),以及尺寸歸一化(their sizes normalized to fit into a unit sphere.)。此外,每種3D形狀模型還需要人工地挑選部分代表性關(guān)鍵點,如圖3a中的紅點所示,這些關(guān)鍵點可以在進行image-shape的對齊過程中輔助識別形狀的姿態(tài)。最后,從Trimble 3D Warehouse中總計完成了783個3D形狀模型的搜集。

Fig. 3. Examples of the 3D shapes for bench in our database. (a) 3D shapes manuallyselected from Trimble 3D Warehouse. (b) 3D Shapes collected from ShapeNet.

然后,為了增加3D形狀的類別數(shù)量,作者又從ShapeNet repository中繼續(xù)挑選。ShapeNet的構(gòu)造與ImageNet類似,作者選擇使用ShapeNetCore subset來輔助挑選。ShapeNetCore包含了55個物體類別,其中42個與ObjectNet3D的100個類別重合,作者又額外地下載了43,364個3D形狀模型以擴充3D shapes的數(shù)量,一些樣例展示見圖3b。這些3D模型明顯比來自Trimble 3D Warehouse中的模型更具多樣性,且包含更豐富的紋理信息(These 3D models are valuable since they capture more shape variations and have rich texture/material information.)。

● 3.4 Camera Model

這一步驟需要將2D圖像中的物體與3D形狀進行對齊(align an object in an image with a 3D shape),因此需要指定相機模型,作者使用的相機模型見下圖4a。

Fig. 4. Illustration of the camera model in our database (a) and the annotation interface for 2D-3D alignment (b).

作者構(gòu)建的相機模型主要分三個部分:1)以3D模型的中心點為原點的世界坐標(biāo)系(world coordinate systemO,該坐標(biāo)系內(nèi)的3D物體用坐標(biāo)軸(i,j,k)表征;2)相機坐標(biāo)系(camera coordinate systemC,該坐標(biāo)系內(nèi)的3個坐標(biāo)軸用(\dot{i},\dot{j},\dot{k})表示,且相機默認(rèn)是朝向\dot{k}軸的反方向。在這種假設(shè)想,兩個系統(tǒng)間的旋轉(zhuǎn)可以用三個變量表示R=(a,e,\theta),分別是方位角azimuth a,高度變化elevation e,平面內(nèi)旋轉(zhuǎn)in-plane rotation\theta,系統(tǒng)間的平移也可以用三個變量表示T=(a,e,d),其中d表示相機到物體模型原點的距離。RT一起表征了相機模型的外參( extrinsic parameters);3)相機模型的內(nèi)參(intrinsic parameters)包括焦距(focus length)f視口大小(viewport size)\alpha,作者統(tǒng)一將焦距設(shè)置為1,視口大小固定為2000,也就是單位焦距相當(dāng)于真實世界中的2000個像素。另外,還假定主點坐標(biāo)(principal point)為(u,v),一般為2D圖像的中心位置坐標(biāo)(w/2, h/2)

至此,相機模型的投影矩陣M構(gòu)成如下:

M=\underbrace{\left[\begin{array}{ccc} \alpha f & 0 & u \\ 0 & \alpha f & v \\ 0 & 0 & 1 \end{array} \right]}_{intrinsic ~ parameters} \underbrace{[R(a,e,\theta), T(a,e,d)]}_{extrinsic ~ parameters}.~~~~~~(1)

在標(biāo)注過程中,為了完成image-shape的對齊,會默認(rèn)固定住參數(shù)f\alpha,而調(diào)整獲取另外6個參數(shù):a,e,\theta,d,u,v。(PS:這些設(shè)置是作者在設(shè)計和開發(fā)數(shù)據(jù)集標(biāo)注工具時必須考慮的。)

● 3.5 Annotation Process

標(biāo)注主要工作是為2D圖像中的物體提供3D標(biāo)注。作者分三步驟描述:Ⅰ)為2D物體標(biāo)注bounding box,被遮擋或截斷的物體也需要標(biāo)注(Occluded objects and truncated objects are also labeled.);Ⅱ)對于每一個由bounding box確定的物體,將其與某個最相似的3D形狀匹配起來,這些3D形狀根據(jù)每類物體類別已完成搜集和分類(見圖3a中來自Trimble 3D Warehouse的3D模型),平均每類有7~8個3D形狀供標(biāo)注者挑選;Ⅲ)標(biāo)注者將挑選的3D形狀與2D物體對齊,對齊過程與3.4章節(jié)介紹的相機模型有關(guān),作者開發(fā)了專用的標(biāo)注界面,見圖4b。標(biāo)注者通過調(diào)整界面中的按鈕,一張張地切換2D圖像,并為每個物體修改得到最合適的相機參數(shù)。這一修改調(diào)整的過程是極其復(fù)雜的,原文段落表述如下:

Annotators have full control of all the 6 camera parameters using the interface: azimuth, elevation, distance, in-plane rotation and principal point. Whenever these parameters are changed, we re-project the 3D shape to the image and display the overlap, which is helpful for the annotator to find a set of camera parameters that align the 3D shape with the 2D object well.?Our criterion for the alignment is maximizing the intersection over union between the projection of the 3D shape and the 2D object.?Fig. 4(b) shows the finished alignment for a computer keyboard.

圖5展示了數(shù)據(jù)集中某幾個類別對應(yīng)的視角分布情況(viewpoint distribution

PS:旋轉(zhuǎn)對應(yīng)的三個變量中,azimuth和elevation可以用單位球面上的點坐標(biāo)展示,但in-plane rotation不能用點展示,因此,這里使用的是顏色來區(qū)分不同的平面內(nèi)旋轉(zhuǎn)

● 3.6 3D Shape Retrieval

完成3D形狀標(biāo)注后,作者提及圖3b中來自ShapeNetCore的3D模型。這些模型對應(yīng)100個物體類別中的42個,且每個類別對應(yīng)的3D形狀成百上千,不利于人工挑選最合適的一個。因此,作者想到使用形狀檢索的方式,來輔助地推薦最相似的3D形狀(So we develop a 3D shape retrieval method by learning feature embeddings with rendered images, and we use this method to retrieve the closest 3D shapes for objects in the 42 object categories.)。

具體地,我們假設(shè)一個2D物體為o,其對應(yīng)的N個3D形狀集合\mathcal{S}=\{S_1, S_2, ..., S_N\},目標(biāo)任務(wù)是按照這N個形狀與物體o的相似度進行排序。作者將其歸類為度量學(xué)習(xí)問題(a metric learning problem),也就是測量2D物體與3D形狀之前的距離D(o,S)。下一步,為了便于溝通起這兩個不同的域,作者使用3D形狀渲染出來的一系列2D圖像來表示它S=\{s_1, s_2, ..., s_n\},其中s_i表示3D形狀渲染出來的第i張圖像,n表示渲染圖像的總數(shù)量,作者選擇的是n=100。接著,作者將2D物體與3D形狀之前的距離度量,轉(zhuǎn)化為2D物體與一系列由3D形狀渲染所得的圖像集合之間的平均距離D(o,S)=1/n\sum\nolimits^n_{i=1}D(o,s_i)。也就是說,現(xiàn)在,問題轉(zhuǎn)化為求解兩張2D圖像之間的距離D(o,s_i),這是一個被廣泛研究的問題(which is an active research field in the literature.)

作者選擇了彼時最好的方法lifted structured feature embedding method(具體描述見原參考文獻),它表現(xiàn)好于contrastive embedding或triplet embedding。訓(xùn)練階段,僅使用被渲染得到的圖像作為訓(xùn)練集,每個3D形狀渲染后的圖像集作為同一類別。測試階段,計算每個2D物體與渲染圖像的歐氏距離,然后計算平均距離作為2D物體與3D形狀的相似度。另外,為了減小渲染圖像與真實圖像的差異(minimize the gap between rendered images and real test images),作者給渲染圖像增加了背景和光照變換,參考方法見原文引用文獻。

※?Baseline Experiments

這一章節(jié),作者給出了在提出的數(shù)據(jù)集上四個任務(wù)的baseline:object proposal generating, 2D object detection, joint 2D detection and 3D pose estimation, and image-based 3D shape retrieval. 實驗時,數(shù)據(jù)集中training/validation (trainval) set有45,440張圖片,test set有44,687張圖片。

● 4.1 Object Proposal Generation

作者選擇了四種區(qū)域提案算法(four different region proposal methods)在數(shù)據(jù)集上驗證其表現(xiàn):SelectiveSearch, EdgeBoxes, Multiscale Combinatorial Grouping (MCG), Region Proposal Network (RPN)(具體算法細(xì)節(jié)見原參考文獻)。作者使用detection recall來衡量region proposal的好壞,圖6中展示了不同設(shè)置下(different number of object proposals per image and different IoU thresholds),四種方法的recall表現(xiàn)變化,其中RPN使用了AlexNet和VGGNet兩種不同的backbones??梢源笾掳l(fā)現(xiàn)兩個結(jié)論:1)在proposals的數(shù)量為1000左右時,所有方法的recall在IoU為0.5時,精度接近90%;2)RPN+VGGNet在IoU為0.5~0.7之間表現(xiàn)最優(yōu),而MCG在各個IoU下持續(xù)表現(xiàn)更魯棒。更多關(guān)于實驗結(jié)果的解讀,參見原文。(PS:內(nèi)容不夠,解讀來湊

Fig. 6. Evaluation of four different object proposal method on our dataset: SelectiveSearch [37], EdgeBoxes [43], MCG [6] and RPN [25].

● 4.2 2D Object Detection

作者選擇SOTA算法Faster R-CNN來驗證2D目標(biāo)檢測的性能。同樣地,作者選擇使用AlexNet和VGGNet兩種不同的backbones,模型均在ImageNet上完成了預(yù)訓(xùn)練。圖7展示了檢測網(wǎng)絡(luò)Faster R-CNN的大致架構(gòu),然后作者再對檢測過程作以簡單介紹(First, an input image is fed into a sequence of convolutional layers to compute a feature map of the image. Then, given a region proposal, the RoI pooling layer extracts a feature vector for the region proposal from the feature map. The feature vector is then processed by two Fully Connected (FC) layers, i.e., FC6 and FC7 each with dimension 4096. Finally, the network terminates at two FC branches with different losses (i.e., the third branch for viewpoint estimation in Fig. 7 is not used here), one for object class classification, and the other one for bounding box regression (see Faster R-CNN [11] for more details).)。由于本文中數(shù)據(jù)集有100個類別,因此FC接分類的分支有101個輸出(background作為一個額外的類別),接檢測框回歸的分支有404個輸出。

Fig. 7. Illustration of the network architecture based on Fast R-CNN [11] for objectdetection and pose estimation.

目標(biāo)檢測使用Average Precision (AP)來度量檢測精度,針對多目標(biāo)檢測任務(wù),則使用mean AP (mAP)來度量性能。表3展示了mAP的結(jié)果,從中作者作以三點解讀:1)使用VGGNet比AlexNet的結(jié)果更好;2)四種region proposal方法中,SelectiveSearch和MCG比EdgeBoxes表現(xiàn)更好,而RPN則更能受益于VGGNet強大的特征提取優(yōu)勢;3)VGGNet+RPN可以在文章提出的數(shù)據(jù)集上達到67.5的mAP,作為對比,含有200個物體類別的ImageNet,在2015年的挑戰(zhàn)賽上的最佳mAP結(jié)果為62.0。(PS:內(nèi)容不夠,解讀來湊

圖8則展示了每個類別的AP檢測結(jié)果(the detection AP of each category),從中可以發(fā)現(xiàn)一些相對容易檢測的類別( aeroplane, motorbike and train),和一些難檢測的類別(cabinet, pencil and road pole),這些難檢測類別大都有較大的類內(nèi)差距具有難以辨識的特征(These categories either have large intra-class variability or have less discriminative features)(PS:內(nèi)容不夠,解讀來湊

Fig. 8. Bar plot of the detection AP and viewpoint estimation AOS of the 100 categories on the test set from VGGNet with SelectiveSearch proposals.

作者進一步將100個類別按照6個大類重新分組,然后借助diagnosing工具(參考原文獻),報告Fasle Positive檢測樣例(We group all 100 categories into six super-categories: container, electronics, furniture, personal items, tools and vehicles, and analyze the detection false positives of these six groups using the diagnosing tool from [14])。圖9展示了分析結(jié)果。對于tools和vehicles,localization error占據(jù)了大部分Fasle Positive檢測結(jié)果,而對于其他類別,confusion with other categories or background是占據(jù)最大的檢測誤差。(PS:內(nèi)容不夠,解讀來湊

Fig. 9. Distribution of top-ranked false positive types from VGGNet with SelectiveSearch proposals: Loc - pool localization; Sim - confusion with a similar category;Oth - confusion with a dissimilar category; BG - a false positive fires on background.

● 4.3 Joint 2D Detection and Continuous 3D Pose Estimation

作者借助Faster R-CNN的檢測結(jié)構(gòu),在最后一個FC層增加了第三個分支,用于聯(lián)合預(yù)測物體的3D姿態(tài),參見圖7右下角的粉色區(qū)域(a viewpoint regression FC branch)。對于該分支,共計3×101個輸出,即每個類別對應(yīng)3個姿態(tài)變量:azimuth, elevation and in-plane rotation。和bounding box的回歸一樣,作者選擇使用smoothed L1 loss回歸3D姿態(tài)。

至于3D姿態(tài)估計的度量標(biāo)準(zhǔn),作者選擇了兩種:PASCAL3D+中使用的Average Viewpoint Precision (AVP);KITTI中使用的Average Orientation Similarity (AOS)。然而,這兩個標(biāo)準(zhǔn)均只用于度量azimuth,為了度量3個角度,作者拓展了上述兩個度量標(biāo)準(zhǔn)\Delta (R,R_{gt})=(1/\sqrt{2})| \log (R^T R_{gt}) \|_F,它表示的是估計的旋轉(zhuǎn)矩陣與GT旋轉(zhuǎn)矩陣之間的測地距 (the geodesic distance between the estimated rotation matrix?R and the GT rotation matrix R_{gt})。對于AVP,當(dāng)\Delta(R,R_{gt})<\pi/6時,認(rèn)為姿態(tài)估計正確;對于AOS,利用兩個姿態(tài)之間的余弦相似性(cosine similarity),即\cos(\Delta(R,R_{gt}))來定量化度量。

表4展示了具體的度量結(jié)果。圖8中展示了每個類別的AOS的結(jié)果(由于AOS的計算方式,檢測AP總是比AOS要高一些)。通過圖8中AOS與AP之間的差異,我們可以發(fā)現(xiàn)一些姿態(tài)估計較差的物體類別,如comb, forkteapot,這些物體大都具有對稱性或具有極大的平面內(nèi)旋轉(zhuǎn)角度(These categories may be nearly symmetric or have large in-plane rotation angles.)。如圖10,為了進一步理解3個姿態(tài)角的誤差分布,作者再次借助diagnosing工具,統(tǒng)計了6大類中的誤差結(jié)果??梢园l(fā)現(xiàn),azimuth占據(jù)了絕大多數(shù)的誤差,對于tools和personal items兩大類,in-plane rotation誤差則明顯增大。

Fig. 10. Viewpoint error distribution of top-ranked true positives from VGGNet withSelectiveSearch proposals.

● 4.4 Image-based 3D Shape Retrieval

本章節(jié)主要介紹在3.6章節(jié)提出的基于deep metric learning的3D形狀檢索方法的一些細(xì)節(jié)。比如基于3D形狀生成100個渲染圖像時,會兼顧多種姿態(tài)視角(These viewpoints are sampled from a distribution estimated with kernel density estimation using the viewpoint annotations (azimuth, elevation and in-plane rotation) in our database for that category.);為了模擬真實圖像,渲染的2D圖像會隨機地加入背景信息,這些背景選擇自SUN database;為了驗證得到最優(yōu)的方法,作者對比了三種度量方法,即contrastive embeddingtriplet embeddinglifted structured feature embedding,提取特征的網(wǎng)絡(luò)backbone均使用GoogleNet。

為了度量learned embedding,對于每個3D形狀,作者隨機地選擇100張渲染的圖像中一半作為訓(xùn)練集,另一半用于測試,完成訓(xùn)練后,給定一張渲染的圖像,檢索返回topK測試圖像。用Recall@K作為度量標(biāo)準(zhǔn)(which is computed as the percentage of testing images which have at least one correctly retrieved image among the top K retrieval results.)。

表5中展示了對比結(jié)果,顯然,lifted structured feature embedding方法是最好的,因此被選做標(biāo)注工具的3D形狀輔助推薦方法(The goal is to provide the top K ranked 3D shapes for each 2D object, then ask annotators to select the most similar 3D shape among the K returned ones, since it is not feasible to ask an annotator to select the most similar shape among hundreds or even thousands of 3D shapes.)。(PS:這一段描述似乎與3.6章節(jié)大量重復(fù))圖12展示了部分3D形狀檢索的測試樣例。

Fig. 12. Example of 3D shape retrieval. Green boxes are the selected shapes. The lastrow shows two examples where we cannot find a similar shape among the top 5 ones.

最后,作者還設(shè)計了user study來進一步驗證形狀檢索方法在真實圖像上的性能。作者隨機地從42個類別(3D形狀從ShapeNetCore中擴充過)中各挑選出100個物體,然后要求3名標(biāo)注者判定在3D形狀檢索的top-20中是否有與物體相似的結(jié)果,然后基于判定結(jié)果計算每個類別的Recall@20,最終結(jié)果見圖11。平均Recall@20為69.2%,基本滿足大量的3D形狀標(biāo)注任務(wù)。

Fig. 11. Recall@20 from our user study for 42 categories that have 3D shapes fromShapeNetCore. The number of 3D shapes for each category is shown in the brackets.

※?Conclusions

In this work, we have successfully built a large scale database with 2D images and 3D shapes for 100 object categories. We provide 3D annotations to objects in our database by aligning a closest 3D shape to a 2D object. As a result, our database can be used to benchmark different object recognition tasks including 2D object detection, 3D object pose estimation and image-based 3D shape retrieval. We have provided baseline experiments on these tasks, and demonstrated the usefulness of our database.

立足于提供的2D image-3D shape對,突出數(shù)據(jù)集的大規(guī)模性有用性。

3、新穎點

文章整體上中規(guī)中矩,行文十分清晰流暢,是一篇工作飽滿內(nèi)容翔實的中等佳作,這從文章多個界限分明的主標(biāo)題和副標(biāo)題上,可見一斑。這說明工作扎實的情況下,沒必要整太多花活,一五一十地將工作與創(chuàng)新點介紹清楚即可。

4、總結(jié)

本文雖然中規(guī)中矩,但很多寫作方面的內(nèi)容,以及整體實驗部分的安排,值得借鑒:

1)寫作內(nèi)容上,需要說明的重點部分,基本都給出了細(xì)節(jié),很多看似沒必要的補充和解釋,則有兩點好處:1)擴充了文章內(nèi)容;2)更加詳盡的分析總不會讓人拒絕;

2)誠然,本文的主要貢獻在于提出了全新的大規(guī)模數(shù)據(jù)集ObjectNet3D,雖然為數(shù)據(jù)集類文章,但按照以往經(jīng)驗,最好還是需要體現(xiàn)novelty和innovation的。文章給出的四個任務(wù)上的baseline,均非原創(chuàng),但每一個任務(wù)上又加入了部分新的工作,尤其是聯(lián)合3D姿態(tài)估計和形狀檢索任務(wù),這在一定程度上挽回了僅僅包含單純的數(shù)據(jù)集搜集和構(gòu)建的單薄和缺陷。

3)本文的一作Yu Xiang(向宇),同樣也是PASCAL3D+數(shù)據(jù)集的一作,在2014年完成了PASCAL3D+的制作之后,作者又?jǐn)U展了自己的工作,包括與原PASCAL3D+數(shù)據(jù)集標(biāo)注界面極為相似的標(biāo)注工具,以及各類2D圖像和3D模型?;谧约阂呀?jīng)完成的工作,擴充得到了更扎實的ObjectNet3D數(shù)據(jù)集,這表明了連續(xù)工作的重要性

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容