【摘要】
?????? 點云提供了一種靈活的、可擴展的幾何表示,適用于計算機圖形學(xué)中的無數(shù)應(yīng)用程序,以及括大多數(shù)3D數(shù)據(jù)采集設(shè)備的原始輸出。因此,直接作用于點云的智能計算模型的設(shè)計是至關(guān)重要的,特別是當(dāng)考慮到效率或噪聲而排除了昂貴的去噪和網(wǎng)格化過程的可能性時。雖然在圖形和視覺領(lǐng)域,人工設(shè)計的點云特征早已被提出,但是最近卷積神經(jīng)網(wǎng)絡(luò)(CNNs)在圖像分析方面取得的巨大成功表明,將CNN的視角應(yīng)用到點云世界的價值。
?????? 為此,我們提出了一種新的神經(jīng)網(wǎng)絡(luò)模塊EdgeConv,該模塊適用于基于cnn的高級別點云任務(wù),包括分類和分割。EdgeConv是可微分的,可以插入到現(xiàn)有的架構(gòu)中。與主要在外部空間運行或單獨處理每個點的現(xiàn)有模塊相比,EdgeConv具有幾個吸引人的特性:它合并了局部鄰域信息;它可以被堆疊或遞歸地應(yīng)用來學(xué)習(xí)整體形狀屬性;而在多層系統(tǒng)中,特征空間的親密性捕獲了原始嵌入中潛在的長距離語義特征。除了提出此模塊之外,我們還提供了廣泛的評估和分析,以揭示EdgeConv捕獲和利用點云的細(xì)粒度幾何特性。該方法在包括ModelNet40和S3DIS在內(nèi)的標(biāo)準(zhǔn)基準(zhǔn)上實現(xiàn)了最先進的性能
【引言】
?????? 點云,或在2D或3D中分散的點集合,可以說是最簡單的形狀表示;它們還包括三維傳感技術(shù)的輸出,包括激光雷達掃描儀和立體重建。隨著快速三維點云采集的出現(xiàn),最近的圖形和視覺處理管道往往直接處理點云,由于效率考慮或噪聲存在時這些技術(shù)的不穩(wěn)定性,從而繞過了昂貴的網(wǎng)格重建或去噪。點云處理和分析的許多最新應(yīng)用包括室內(nèi)導(dǎo)航[57]、自動駕駛車輛[33]、機器人[40]以及形狀合成和建模[14]。
?????? 現(xiàn)代應(yīng)用程序要求對點云進行高級處理。最近的算法不再識別角和邊等突出的幾何特征,而是搜索語義線索和啟示。這些特性并不完全適合計算或微分幾何的框架,通常需要基于學(xué)習(xí)的方法,通過對標(biāo)記或未標(biāo)記的數(shù)據(jù)集進行統(tǒng)計分析來獲得相關(guān)信息。
?????? 在本文中,我們主要考慮點云處理領(lǐng)域中的兩個模型任務(wù):點云分類和分割。傳統(tǒng)的解決這些問題的方法使用手工制作的特征來捕獲點云的幾何屬性[26,38,39]。最近,用于圖像處理的深度神經(jīng)網(wǎng)絡(luò)的成功激發(fā)了一種數(shù)據(jù)驅(qū)動的方法來學(xué)習(xí)點云上的特征。深度點云處理和分析方法發(fā)展迅速,在各種任務(wù)上都優(yōu)于傳統(tǒng)方法[10]。
?????? 然而,讓深度學(xué)習(xí)適應(yīng)點云數(shù)據(jù)遠(yuǎn)非易事。最關(guān)鍵的是,標(biāo)準(zhǔn)的深度神經(jīng)網(wǎng)絡(luò)模型以規(guī)則結(jié)構(gòu)的輸入數(shù)據(jù)為輸入,而點云從根本上是不規(guī)則的:點位置在空間中連續(xù)分布,點位置的任何排列順序都不會改變空間分布。使用深度學(xué)習(xí)模型處理點云數(shù)據(jù)的一種常見方法是首先將原始點云數(shù)據(jù)轉(zhuǎn)換為體積表示,即3D網(wǎng)格[30,54]。然而,這種方法通常會引入量化工件和過多的內(nèi)存使用,使得很難捕獲高分辨率或細(xì)粒度的特性。
?????? 先進的深度神經(jīng)網(wǎng)絡(luò)是專門設(shè)計來處理點云的不規(guī)則性,直接操作原始點云數(shù)據(jù)而不是傳遞給中間規(guī)則表示。該方法由PointNet[34]率先提出,它通過在每個點上獨立操作,然后應(yīng)用一個對稱函數(shù)來累積特征,從而實現(xiàn)點的排列不變性。PointNet的各種擴展考慮點的鄰域,而不是獨立地作用于每一個點[36,43];這些允許網(wǎng)絡(luò)利用局部特性,提高基本模型的性能。這些技術(shù)主要是在局部尺度上獨立處理點以保持排列不變性(permutation invariance)。然而,這種獨立性忽略了點之間的幾何關(guān)系,這是導(dǎo)致局部特征缺失的基本限制。
??????? 為了解決這些缺點,我們提出了一種新的簡單操作,稱為EdgeConv,它在保持排列不變性的同時捕獲局部幾何結(jié)構(gòu)。EdgeConv不是從點的嵌入(embeddings)直接生成點的特性,而是生成描述點與其鄰居之間關(guān)系的邊緣特性(edge features)。EdgeConv被設(shè)計成對鄰域排序的不變量,即排列不變量。
?????? EdgeConv易于實現(xiàn)并集成到現(xiàn)有的深度學(xué)習(xí)模型中,以改進它們的性能。在我們的實驗中,我們將EdgeConv集成到基本版本的PointNet中,而不使用任何特性轉(zhuǎn)換。我們的業(yè)績大幅提升;得到的網(wǎng)絡(luò)在幾個數(shù)據(jù)集上實現(xiàn)了最先進的性能,最顯著的是ModelNet40和S3DIS用于分類和分割。
????? 我們總結(jié)了關(guān)鍵的貢獻,如下:
?我們提出了一種新的點云操作,EdgeConv,以更好地捕捉點云的局部幾何特征,點云仍然保持排列不變性。
?我們證明了該模型可以通過動態(tài)更新graph來學(xué)習(xí)語義分組點group points 。
?我們演示了EdgeConv可以集成到用于點云處理的多個現(xiàn)有管道。
?我們對EdgeConv進行了廣泛的分析和測試,顯示它在基準(zhǔn)數(shù)據(jù)集達到了最先進的性能。
【相關(guān)工作】
手工制作的特征:
在幾何數(shù)據(jù)處理和分析中的各種任務(wù),包括分割、分類和匹配,需要一些形狀之間的局部相似性的概念。傳統(tǒng)上,這種相似性是通過構(gòu)造捕獲局部幾何結(jié)構(gòu)的特征描述符來建立的。在計算機視覺和圖形學(xué)領(lǐng)域,無數(shù)的論文提出了適用于不同問題和數(shù)據(jù)結(jié)構(gòu)的點云的局部特征描述符。對手工設(shè)計的點特征的全面概述超出了本文的范圍,但是我們建議讀者參考[51,15,4]來進行全面的討論。
廣義地說,人們可以區(qū)分外在描述符和內(nèi)在描述符(extrinsic and intrinsic descriptors)。外部描述符通常來源于三維空間中形狀的坐標(biāo),包括形狀上下文[3]、自旋圖像[17]、積分特征[27]、基于距離的描述符[24]、點特征直方圖[39,38]、正常直方圖[50]等經(jīng)典方法。內(nèi)在描述符將三維形狀視為流形,其度量結(jié)構(gòu)(metric structure)被離散為網(wǎng)格或圖;根據(jù)定義,用度規(guī)表示的量是固有的和不變的等距變形(quantities expressed in terms of the metric are by definition intrinsic and invariant to isometric deformation)。這類的代表包括光譜描述符,如全局點特征[37],熱波核特征[48,2],和變體[8]。最近,有幾種方法圍繞標(biāo)準(zhǔn)描述符來包裝機器學(xué)習(xí)方案[15,42]
特征學(xué)習(xí):
?????? 在計算機視覺領(lǐng)域,依賴手工特征的方法在圖像識別等具有挑戰(zhàn)性的圖像分析問題上已經(jīng)達到了一個穩(wěn)定階段。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNNs)的使用帶來了一項突破[22,21],導(dǎo)致了一種勢不可當(dāng)?shù)内厔?,那就是拋棄手工制作的特征,轉(zhuǎn)而使用從數(shù)據(jù)中學(xué)習(xí)特定任務(wù)特征的模型。
???? 深度神經(jīng)網(wǎng)絡(luò)是CNN的一個基本架構(gòu),它將卷積和池化層結(jié)合在一起,以在圖像中聚合局部信息。這一圖像深度學(xué)習(xí)的成功表明,將關(guān)注點應(yīng)用到像點云這樣的幾何數(shù)據(jù)上是有價值的。然而,與圖像不同的是,幾何數(shù)據(jù)通常不在底層網(wǎng)格(underlying grid),因此需要對構(gòu)建塊(如卷積和池)進行新的定義。
?????? 現(xiàn)有的三維深度學(xué)習(xí)方法可以分為兩個類。基于視圖和體積的表示例證了將幾何數(shù)據(jù)放置到網(wǎng)格中,并將現(xiàn)有的深度學(xué)習(xí)算法應(yīng)用到適應(yīng)的結(jié)構(gòu)中的口述。其他方法用特殊運算代替深度神經(jīng)結(jié)構(gòu)的標(biāo)準(zhǔn)構(gòu)造塊的方法適合于非結(jié)構(gòu)化幾何數(shù)據(jù)[29,6,31,34,36]。我們提供最接近的技術(shù)細(xì)節(jié)如下。
基于視圖的方法:
?????? 基于視圖的技術(shù)將一個3D對象表示為一個2D視圖集合,那么,標(biāo)準(zhǔn)cnn應(yīng)用得以應(yīng)用。通常,CNN應(yīng)用于每個視圖,然后通過視圖池化過程(view pooling procedure)[47]聚合結(jié)果特性?;谝晥D的方法也適用于輸入來自3D傳感器并表示為一系列范圍的圖像[53],在這種情況下可以使用單個視圖。
基于體素的方法:
?????? 直接將非結(jié)構(gòu)化幾何數(shù)據(jù)轉(zhuǎn)換為常規(guī)3D網(wǎng)格的方法,在該網(wǎng)格上可以應(yīng)用標(biāo)準(zhǔn)的CNN操作[30,54]。這些體積表示通常是wasteful,因為體素化產(chǎn)生了一個稀疏占用的3D網(wǎng)格。時間和空間的復(fù)雜性限制了體積網(wǎng)格的分辨率,產(chǎn)生了量化的工件。最近,空間劃分方法如k-d樹[20]或八叉樹[49]解決了一些分辨率問題,但仍然依賴于邊界體的細(xì)分,而不是局部幾何結(jié)構(gòu)。最后,[35]研究了基于視圖和體積方法相結(jié)合的3D形狀分類方法。
PointNets:
?????? PointNets包含了一個特殊的點集架構(gòu)類,比如3D點云。關(guān)鍵點在于利用一個對稱函數(shù)應(yīng)用于三維坐標(biāo)的方式獲得不變的排列。雖然它們在點云分析任務(wù)上取得了令人印象深刻的性能,但點網(wǎng)單獨對待每個點,本質(zhì)上是學(xué)習(xí)從3D到潛在特性的映射,而不利用局部幾何結(jié)構(gòu)。映射學(xué)習(xí)對點云的全局變換敏感,為了解決這個問題,PointNet使用了一個復(fù)雜的、在計算上非常昂貴的空間轉(zhuǎn)換器網(wǎng)絡(luò)來學(xué)習(xí)3D對齊。
??????? 局部信息對于特征學(xué)習(xí)是重要的。首先,對于人工描述符,局部特征通??紤]相鄰點之間的幾何關(guān)系,以便對各種轉(zhuǎn)換具有魯棒性。其次,局部信息對于基于圖像的深卷積架構(gòu)的成功至關(guān)重要。后續(xù)工作提出了一種改進的PointNet++體系結(jié)構(gòu),該體系結(jié)構(gòu)利用局部點集的幾何特征,并對這些特征進行層次聚集來進行推理[36]。在[43]中也提出了類似的方法,從point kernel correlation layer 中獲取初始點特征,然后在鄰近點之間進行聚合。得益于局部結(jié)構(gòu),pointnet++在幾個點云分析基準(zhǔn)測試上實現(xiàn)了最新的結(jié)果。但是,pointnet++仍然獨立地處理局部點集中的各個點,并且不考慮點對之間的關(guān)系。
幾何深度學(xué)習(xí):
PointNet例舉了一類基于非歐幾里德結(jié)構(gòu)數(shù)據(jù)的廣泛的深度學(xué)習(xí)體系結(jié)構(gòu),稱為幾何深度學(xué)習(xí)[7]。這些方法可以追溯到在早期[41]上構(gòu)造圖神經(jīng)網(wǎng)絡(luò)的方法。最近,[9]提出了一種通過拉普拉斯算子[44]對圖進行卷積推廣的方法。這種基本方法存在許多缺點,包括拉普拉斯特征分解的計算復(fù)雜性、表示卷積濾波器的大量參數(shù)以及缺乏空間定位。這些問題在后續(xù)工作中通過使用多項式[11,19]或合理的[23]頻譜濾波器得到了緩解,這些濾波器避免了拉普拉斯特征分解,同時保證了定位。
???? 頻譜圖CNN模型具有明顯的等距不變性,因此已被應(yīng)用于非剛性形狀分析[5]。然而,一個關(guān)鍵的難點是拉普拉斯特征基受限于域。因此,對一種形狀學(xué)習(xí)的過濾器可能不適用于其他形狀。譜轉(zhuǎn)換網(wǎng)絡(luò)在一定程度上解決了這一問題[56]。
??? 非歐幾里德卷積的另一種定義采用空間濾波器,而不是譜濾波器。測地線CNN (GCNN)是一個深入的CNN網(wǎng)絡(luò),使用局部固有化參數(shù),推廣了patches的概念[29]。它相對于譜方法的關(guān)鍵優(yōu)勢是更好的泛化。后續(xù)工作提出了使用各向異性擴散[6]或高斯混合模型技術(shù)[52,31]。[25]將可微分的功能映射[32]層合并到一個幾何深度神經(jīng)網(wǎng)絡(luò)中,允許對非剛性形狀之間的對應(yīng)關(guān)系進行內(nèi)在的結(jié)構(gòu)化預(yù)測。
??? 最后一類的幾何深度學(xué)習(xí)方法試圖通過將形狀嵌入具有平移不變結(jié)構(gòu)的域(如球面[46]、圓環(huán)面[28]或平面)來進行卷積運算[13]
【本文工作】
?????? 我們提出了一種受PointNet和卷積操作啟發(fā)的方法。然而,受圖神經(jīng)網(wǎng)絡(luò)的啟發(fā),我們不是在像PointNet這樣的個別點上工作,而是通過構(gòu)造局部鄰域圖和對連接鄰域點對的邊緣執(zhí)行近似于卷積的操作,以建立局部幾何結(jié)構(gòu),。我們在下面的文章中展示了這種被稱為邊緣卷積(EdgeConv)的操作,它具有介于平移不變性和非局部性之間的特性。
?????? 與graph CNNs不同的是,圖不是固定的,而是在網(wǎng)絡(luò)的每一層進行動態(tài)更新的。也就是說,一個點的k近鄰在網(wǎng)絡(luò)的各個層之間是變化的,并由sequence of embeddings計算得到。特征空間中的相似性與輸入中的相似性不同,導(dǎo)致點云信息的非局部擴散。
【結(jié)論】
?????? 在這項工作中,我們提出了一種新的點云學(xué)習(xí)算子,并展示了它在各種任務(wù)中的性能。我們的技術(shù)的成功驗證了我們的假設(shè),即局部幾何特征對于三維識別任務(wù)是至關(guān)重要的,甚至在引入了來自深度學(xué)習(xí)的機器之后也是如此。此外,我們證明我們的模型可以很容易地修改為各種任務(wù),如正常預(yù)測,同時繼續(xù)取得合理的結(jié)果。
?????? 雖然我們的架構(gòu)可以很容易地集成到現(xiàn)有的管道中,用于基于點云的圖形、學(xué)習(xí)和視覺,但我們的實驗也表明了未來研究和推廣的途徑。首先,我們的模型的成功表明,如果內(nèi)在特征不僅僅是簡單的點坐標(biāo),那么它們也具有同樣的價值;開發(fā)一個實用的和理論上合理的框架來平衡學(xué)習(xí)過程中內(nèi)在的和外在的考慮,這需要從幾何處理的理論和實踐中得到啟發(fā)。另一個可能的擴展是設(shè)計一個非共享的轉(zhuǎn)換網(wǎng)絡(luò),它在每個local patches上以不同的方式工作,為我們的模型增加了靈活性。最后,我們將考慮我們的技術(shù)在更抽象的點云中的應(yīng)用,這些應(yīng)用來自于文檔檢索而不是3D幾何;除了擴大我們的技術(shù)的適用性,這些實驗將提供深入了解幾何在抽象數(shù)據(jù)處理中的作用。