DuLa-Net

DuLa-Net: A Dual-Projection Network for Estimating Room Layouts from a Single RGB Panorama

Abstract

我們提供了一個(gè)稱為DuLa-Net的深度學(xué)習(xí)框架,可從單個(gè)RGB全景圖預(yù)測(cè)曼哈頓世界3D房間的布局。 為了獲得更好的預(yù)測(cè)精度,我們的方法同時(shí)利用了全景的兩個(gè)投影,即等距柱狀全景視圖和透視天花板視圖,每個(gè)投影都包含有關(guān)房間布局的不同線索。 我們的網(wǎng)絡(luò)架構(gòu)由兩個(gè)編碼器/解碼器分支組成,用于分析兩個(gè)視圖中的每個(gè)視圖。 另外,提出了一種新穎的特征融合結(jié)構(gòu)來(lái)連接兩個(gè)分支,然后對(duì)兩個(gè)分支進(jìn)行聯(lián)合訓(xùn)練以預(yù)測(cè)2D平面圖和布局高度。 為了了解更復(fù)雜的房間布局,我們引入了Realtor360數(shù)據(jù)集,該數(shù)據(jù)集包含具有不同角數(shù)的曼哈頓世界房間布局的全景圖。 實(shí)驗(yàn)結(jié)果表明,我們的工作在預(yù)測(cè)準(zhǔn)確性和性能方面優(yōu)于最新技術(shù),尤其是在非立方體布局的房間中。

1. Introduction

從室內(nèi)全景圖像推斷出高質(zhì)量的3D房間布局在理解室內(nèi)場(chǎng)景中起著至關(guān)重要的作用,并且可能有益于包括虛擬/增強(qiáng)現(xiàn)實(shí)和機(jī)器人技術(shù)在內(nèi)的各種應(yīng)用。 為此,最近的方法通過(guò)使用深度學(xué)習(xí)來(lái)預(yù)測(cè)輸入全景圖上的房間角落和邊界,來(lái)恢復(fù)3D房間布局。 例如,LayoutNet對(duì)曼哈頓世界受限的房間實(shí)現(xiàn)了令人印象深刻的重建精度。 但是,房間里的雜物,例如,家具,提取在輸入全景圖中遮擋的關(guān)鍵拐角和邊緣帶來(lái)了挑戰(zhàn)。 另外,從2D拐角和邊緣圖估計(jì)3D布局是一個(gè)不適定的問(wèn)題,因此在優(yōu)化中施加了額外的約束。 因此,處理復(fù)雜的房間布局仍然具有挑戰(zhàn)性。

在這項(xiàng)工作中,我們提出了一個(gè)新穎的端到端框架,可以從單個(gè)RGB全景圖估算3D房間的布局。 憑直覺(jué),在給定相同全景圖但投影不同的情況下,神經(jīng)網(wǎng)絡(luò)可能會(huì)提取不同類型的特征,因此,我們建議從全景圖的兩個(gè)不同視圖(即等距柱狀全景視圖和透視天花板視圖)預(yù)測(cè)房間布局。 網(wǎng)絡(luò)體系結(jié)構(gòu)遵循編碼器-解碼器方案,并且由全景分支和天花板分支兩個(gè)分支組成,分別用于分析全景視圖和天花板視圖的圖像。 全景分支的輸出包括地板-天花板概率圖和布局高度,而天花板分支則輸出房屋平面概率圖。 為了在分支之間共享信息,我們采用了一種特征融合方案,通過(guò)E2P轉(zhuǎn)換連接解碼器的前幾層,該轉(zhuǎn)換將中間特征圖從等距柱狀投影轉(zhuǎn)換為透視天花板視圖。 我們發(fā)現(xiàn)通過(guò)聯(lián)合訓(xùn)練兩個(gè)相連的分支可以實(shí)現(xiàn)更好的預(yù)測(cè)性能。 然后,通過(guò)將軸對(duì)齊的多邊形擬合到融合的房屋平面概率圖(請(qǐng)參見(jiàn)圖3),然后通過(guò)估計(jì)的布局高度將其拉伸,從而獲得最終的2D平面圖。

要從具有復(fù)雜布局的全景圖中學(xué)習(xí),我們需要用于網(wǎng)絡(luò)訓(xùn)練和測(cè)試的適當(dāng)數(shù)據(jù)集。 但是,現(xiàn)有的公共數(shù)據(jù)集,例如PanoContext 數(shù)據(jù)集,提供了帶有簡(jiǎn)單長(zhǎng)方體形狀的大部分帶標(biāo)簽的3D布局。 為了學(xué)習(xí)更復(fù)雜的布局,我們引入了一個(gè)新的數(shù)據(jù)集Realtor360,其中包括SUN360 數(shù)據(jù)集(593個(gè)客廳和臥室)的子集和從房地產(chǎn)數(shù)據(jù)庫(kù)收集的1980個(gè)全景圖。 我們使用定制的交互式工具注釋了整個(gè)數(shù)據(jù)集,以獲取真實(shí)的3D布局。

我們的數(shù)據(jù)集的一個(gè)關(guān)鍵特征是,它包含的房間的拐角數(shù)量具有更復(fù)雜的形狀。實(shí)驗(yàn)結(jié)果表明,我們的方法在預(yù)測(cè)準(zhǔn)確度方面優(yōu)于當(dāng)前的最新方法,尤其是對(duì)于四個(gè)角以上的房間。 我們的方法還需要更少的時(shí)間來(lái)計(jì)算最終房間的布局。 圖1顯示了通過(guò)我們的方法估算的一些房間布局。 我們的貢獻(xiàn)總結(jié)如下:

·? ?我們提出了一種新穎的網(wǎng)絡(luò)體系結(jié)構(gòu),其中包含兩個(gè)編碼器-解碼器分支,以分析兩個(gè)不同投影中的輸入全景圖。 這兩個(gè)分支通過(guò)特征融合方案進(jìn)一步連接。 這種雙投影架構(gòu)可以推斷出房間的布局,除了長(zhǎng)方體和L形之外,還具有更復(fù)雜的形狀。

·? ?我們的神經(jīng)網(wǎng)絡(luò)是朝著建立端到端架構(gòu)邁出的重要一步。 我們的網(wǎng)絡(luò)直接輸出2D平面圖的概率圖。 與當(dāng)前最新技術(shù)的輸出相比,此輸出需要更少的后處理來(lái)獲得最終的3D房間布局。

·? 我們引入了一個(gè)稱為Realtor360的新數(shù)據(jù)集,其中包含2573個(gè)全景圖,這些全景圖描繪了具有4至12個(gè)角的房間。 據(jù)我們所知,這是最大的室內(nèi)圖像數(shù)據(jù)集,其中包含當(dāng)前可用的房間布局注釋。


2. Related Work

有多篇論文提出了一種從室內(nèi)環(huán)境中拍攝的單個(gè)圖像估算房間布局的解決方案。 它們主要在三個(gè)方面有所不同:1)房間布局的假設(shè); 2)輸入圖像的類型; 3)方法。 就房間布局假設(shè)而言,一個(gè)流行的選擇是“曼哈頓世界”假設(shè),這意味著所有墻壁都與全局坐標(biāo)系對(duì)齊。 為了使問(wèn)題更容易解決,一個(gè)更嚴(yán)格的假設(shè)是房間是一個(gè)長(zhǎng)方體,即正好存在四個(gè)房間角。我們的方法采用曼哈頓世界假設(shè),但允許任意數(shù)量的拐角。

就輸入圖像的類型而言,圖像的FoV(視場(chǎng))可能有所不同-從單目(即從標(biāo)準(zhǔn)相機(jī)拍攝)到360度全景,以及是否提供深度信息。 然后,這些方法在很大程度上取決于輸入圖像類型。 僅給出單目RGB圖像時(shí),該問(wèn)題可能最難解決。 通常,從輸入圖像中提取幾何(例如線和角)和/或語(yǔ)義(例如分割成不同區(qū)域和體積推理)“線索”, 生成一組房間布局假設(shè),然后采用優(yōu)化或投票過(guò)程對(duì)假設(shè)進(jìn)行排名和選擇。 最近,基于神經(jīng)網(wǎng)絡(luò)的方法在解決這個(gè)問(wèn)題方面取得了長(zhǎng)足的進(jìn)步。 趨勢(shì)是神經(jīng)網(wǎng)絡(luò)生成越來(lái)越多的信息-從線段,表面標(biāo)簽到房間類型以及房間邊界和角落,以形成最終信息布局生成過(guò)程越來(lái)越容易解決。 我們的方法通過(guò)使用神經(jīng)網(wǎng)絡(luò)直接預(yù)測(cè)2D平面圖概率圖(僅需要2D多邊形擬合過(guò)程即可生成最終2D房間布局),將這一趨勢(shì)進(jìn)一步向前推進(jìn)。

如果提供了深度信息,則存在估算場(chǎng)景注釋的方法,包括房間布局。 更深入的討論超出了本文的范圍。

密切相關(guān)的問(wèn)題包括根據(jù)給定圖像進(jìn)行深度估計(jì)和根據(jù)點(diǎn)云進(jìn)行場(chǎng)景重建。 注意,估計(jì)的深度或重建的3D場(chǎng)景都不一定等同于潔凈室布局,因?yàn)榇祟愝斎肟赡馨s波。

360全景圖:Zhang等人的開創(chuàng)性著作提倡將360度全景圖用于室內(nèi)場(chǎng)景理解,因?yàn)?60度全景圖的FOV范圍更大。 朝著這個(gè)方向發(fā)展的工作蓬勃發(fā)展,包括基于對(duì)幾何和/或語(yǔ)義線索進(jìn)行優(yōu)化的方法,以及后來(lái)基于神經(jīng)網(wǎng)絡(luò)的方法。 除了LayoutNet,大多數(shù)方法都依賴于利用現(xiàn)有技術(shù)對(duì)從輸入全景拍攝的樣本上的單視角圖像進(jìn)行處理。 我們認(rèn)為,這是LayoutNet出色性能的主要原因,因?yàn)樗梢詫?duì)整個(gè)全景圖進(jìn)行預(yù)測(cè),從而提取輸入全景圖可能包含的更多全局信息。在【20】中可以找到沿該方向的進(jìn)一步步驟,其中將輸入全景圖投影到2D“地板”視圖,其中攝像機(jī)位置映射到圖像的中心,并且全景圖中的垂直線變?yōu)閺较驁D像中心發(fā)出的線條。 這種方法的優(yōu)點(diǎn)是房間布局成為2D閉環(huán),可以更輕松地提取它。 我們?cè)谶@里得出“天花板”視圖的想法-而不是向下看向包括房間中所有雜物的地板,而是向上看向天花板,從而更清晰地看到房間布局。


3. Overview

圖2說(shuō)明了我們框架的概述。 給定輸入為等距柱狀全景圖像,我們遵循在PanoContext [29]中使用的相同預(yù)處理步驟,將全景圖像與全局坐標(biāo)系對(duì)齊,即我們以曼哈頓世界為假設(shè)。 然后,我們通過(guò)等距柱狀圖向透視(E2P)轉(zhuǎn)換將全景圖像轉(zhuǎn)換為透視天花板圖像(第4節(jié))。 然后將全景視圖和天花板視圖圖像饋送到由兩個(gè)編碼器/解碼器分支組成的網(wǎng)絡(luò)。 這兩個(gè)分支通過(guò)基于E2P的特征融合方案連接在一起,并經(jīng)過(guò)共同訓(xùn)練以預(yù)測(cè)平面圖概率圖,地板最高概率圖和布局高度(第5節(jié))。 使用E2P轉(zhuǎn)換從地板-天花板概率圖導(dǎo)出兩個(gè)中間概率圖,并將其與房屋平面圖概率圖結(jié)合以獲得融合的房屋平面圖概率圖。最終3D Manhattan布局是通過(guò)使用預(yù)測(cè)的布局高度將在融合平面圖概率圖上估算的2D Manhattan平面圖進(jìn)行拉伸來(lái)確定的(第六節(jié))。

4. E2P conversion

在本節(jié)中,我們解釋了E2P轉(zhuǎn)換的公式,該公式將等距柱狀全景圖轉(zhuǎn)換為透視圖圖像。 我們假設(shè)透視圖是正方形,尺寸為w\times w。 對(duì)于透視圖像中位置(P_{x} ; P_{y} )上的每個(gè)像素,我們得出全景圖中相應(yīng)像素的位置(P_{x}^1,P_{y}^1),-1\leq P_{x}^1\leq 1 ;-1\leq P_{y}^1\leq 1 ,如下。 首先,我們將透視圖像的針孔相機(jī)的視場(chǎng)定義為FoV。 然后,焦距可以推導(dǎo)為:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?f=0.5*w*cot(0.5*FoV)

(P_{x} ,P_{y},f) ,即相機(jī)空間中透視圖圖像中像素的3D位置,然后,如果相機(jī)是向上看(看天花板),則沿x軸(逆時(shí)針)旋轉(zhuǎn)90,如果是向下看(看地板),則沿x軸(逆時(shí)針)旋轉(zhuǎn)-90。

接下來(lái),我們將旋轉(zhuǎn)后的三維位置投影到等距柱狀圖空間。為此,我們首先通過(guò)向量歸一化(S_{x}, S_{y},S_{z}),并應(yīng)用下列公式:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??(P_{x}^1 ,P_{y}^1 )=(\frac{arctan_{2} (\frac{S_{x} }{S_{z} } )}{\pi }, \frac{arcsin_{} (S_{y} )}{0.5\pi})

投影(S_{x}, S_{y},S_{z}),即單位球面上的3D位置,回到全景圖中相應(yīng)的2D位置(P_{x}^1,P_{y}^1)。 最后,我們使用(P_{x}^1,P_{y}^1)對(duì)全景圖中的像素值進(jìn)行插值。 我們注意到該過(guò)程是可微的,因此可以與反向傳播結(jié)合使用。

5. Network architecture

我們的網(wǎng)絡(luò)架構(gòu)如圖2所示。它由兩個(gè)編碼器/解碼器分支組成,用于全景視圖和天花板視圖輸入圖像。 我們將全景視圖分支表示為B_{P} ,將天花板視圖分支表示為B_{C}。 B_{P} 的編碼器和解碼器表示為E_{B_{P} } D_{B_{P} } ,對(duì)于B_{C},它們表示為E_{B_{C} } D_{B_{C} } 。 一個(gè)關(guān)鍵概念是我們的網(wǎng)絡(luò)可以預(yù)測(cè)平面圖和布局高度。 通過(guò)這兩個(gè)預(yù)測(cè),我們可以在后期處理中重建3D房間布局(第6節(jié))。

5.1. Encoder

我們將ResNet-18用作E_{B_{P} } E_{B_{C} } 的結(jié)構(gòu)。 E_{B_{P} } 的輸入尺寸為512x1024x3(輸入全景圖的尺寸),輸出尺寸為16x32x512。 對(duì)于E_{B_{C} } ,輸入和輸出尺寸為512x512x3和16x16x512。 請(qǐng)注意,E_{B_{C} } 的輸入是通過(guò)對(duì)輸入全景進(jìn)行E2P轉(zhuǎn)換(FoV設(shè)置為160°,w設(shè)置為512)而生成的透視頂視圖圖像。我們還嘗試了其他計(jì)算成本更高的網(wǎng)絡(luò)結(jié)構(gòu),例如ResNet-50 編碼器。 但是,我們發(fā)現(xiàn)準(zhǔn)確性沒(méi)有任何提高,因此為了簡(jiǎn)單起見(jiàn),我們選擇使用ResNet-18。

5.1. Decoder?

D_{B_{P} } D_{B_{C} } 都包含六個(gè)卷積層。前五層是3x3個(gè)具有ReLU激活的調(diào)整大小卷積。 最后一層是具有Sigmoid激活的常規(guī)3x3卷積。 這六層卷積的通道數(shù)分別為256、128、64、32、16和1。為推理布局高度,我們?cè)?img class="math-inline" src="https://math.jianshu.com/math?formula=B_%7BP%7D%20" alt="B_{P} " mathimg="1">的最中間部分添加了三個(gè)全連接層。 這三層的尺寸分別為256、64和1。為了使布局高度的回歸更加可靠,我們?cè)谇皟蓪又筇砑恿薲ropout層。為了將最中間的特征作為輸入,我們首先在x和y維度上應(yīng)用全局平均池化,從而生成具有512維度的1-D特征,并將其作為全連接層的輸入。

B_{P} 的輸出是等距柱狀圖投影的地板和天花板的概率圖,表示為地板-天花板概率圖(M_{FC})。 對(duì)于B_{C},輸出是天花板視角的平面圖的概率圖,表示為平面圖概率圖(M_{FP})。 請(qǐng)注意,B_{P} 還輸出預(yù)測(cè)的布局高度(H)。

5.3. Feature fusion

我們發(fā)現(xiàn),應(yīng)用融合技術(shù)來(lái)融合B_{P} B_{C}中的特征可以提高預(yù)測(cè)準(zhǔn)確性。我們推測(cè)一個(gè)原因如下。 在天花板視圖圖像中,圖像邊界附近的區(qū)域(存在一些有用的視覺(jué)線索,例如陰影和家具布置)更加失真,這可能對(duì)天花板視圖分支推理房間結(jié)構(gòu)產(chǎn)生不利影響。 通過(guò)融合全景視圖分支中的特征(失真程度較小),可以改善天花板視圖分支的性能。

我們?cè)?img class="math-inline" src="https://math.jianshu.com/math?formula=D_%7BB_%7BP%7D%20%7D%20" alt="D_{B_{P} } " mathimg="1">和D_{B_{C} } 的前五層中的每個(gè)層之前應(yīng)用融合。 對(duì)于每個(gè)融合連接,將FoV設(shè)置為160°,E2P轉(zhuǎn)換(第4節(jié))是將D_{B_{P} } 中的原本在等距柱狀投影視圖中的特征投影到透視天花板視圖。 每個(gè)融合的工作方式如下:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ?f_{B_{C} }^* =f_{B_{C} } +\frac{\alpha }{\beta ^i } \times f_{B_{P} } , i\in (0,1,2,3,4)           (2)

在應(yīng)用E2P轉(zhuǎn)換后,其中f_{B_{C} } B_{C}的特征,而f_{B_{P}}B_{P} 的特征。 \alpha \beta 是衰減系數(shù)。 i是層的索引。 每次融合之后,合并后的特征f_{B_{C}}^*被發(fā)送到D_{B_{C} } 的下一層。 在第8節(jié)中討論了該技術(shù)的性能改進(jìn)。

5.4. Loss function

5.5. Training details

我們用PyTorch實(shí)現(xiàn)了我們的方法。 我們使用Adam優(yōu)化器,其中\beta _{1} = 0.9和\beta _{2} = 0.999。 學(xué)習(xí)率是0。0003,批量尺寸是4。我們的訓(xùn)練損失在大約120輪后收斂。 對(duì)于每次訓(xùn)練迭代,我們通過(guò)隨機(jī)翻轉(zhuǎn)和水平旋轉(zhuǎn)將輸入全景圖分別增加0°、90°、180°和270°。 對(duì)于融合部分,我們?cè)诘仁?中的設(shè)置了\alpha \beta ,分別是0.6和3。? 我們?cè)诘仁?中設(shè)置了\gamma 為0.5。 因?yàn)槲覀児烙?jì)了天花板視圖中的平面概率圖,所以我們假設(shè)攝像機(jī)和天花板之間的距離為1.6米,并使用此常數(shù)對(duì)ground truth進(jìn)行歸一化。


6. 3D layout estimation

給定概率圖(M_{FC} M_{FP} )以及網(wǎng)絡(luò)預(yù)測(cè)的布局高度(H),我們通過(guò)以下兩個(gè)步驟重建最終的3D布局:

1.使用概率圖估算2D 曼哈頓平面圖的形狀。

?2.根據(jù)布局高度沿其法線擠壓平面圖形狀。

對(duì)于步驟1,使用E2P轉(zhuǎn)換從地板-天花板概率圖的天花板像素和地板像素中得出兩個(gè)中間圖,分別表示為M_{FC}^CM_{FC}^F。我們進(jìn)一步使用比例因子1.6 /(H-1.6),將M_{FC}^CM_{FC}^F配準(zhǔn),其中常數(shù)1.6是攝像機(jī)與天花板之間的距離。 最后,融合平面圖概率圖的計(jì)算如下:

圖3(a)示出了上述過(guò)程。 概率圖M_{FP}^fuse使用閾值0.5進(jìn)行二值化。 計(jì)算最大的連接組件的邊界矩形以供以后使用。 接下來(lái),我們將二進(jìn)制圖像轉(zhuǎn)換為密集采樣的分段線性閉環(huán),并使用Douglas-Peucker算法對(duì)其進(jìn)行簡(jiǎn)化(參見(jiàn)圖3(b))。 我們對(duì)邊緣進(jìn)行回歸分析,并將其聚類為軸對(duì)齊的水平線和垂直線。 這些線將邊界矩形劃分為幾個(gè)不相交的網(wǎng)格單元(請(qǐng)參見(jiàn)圖3(c))。 我們將2D平面圖的形狀定義為柵格單元的并集,其中平面圖面積的比率大于0.5(請(qǐng)參見(jiàn)圖3(d))。


7. Realtor360 dataset

包含足夠數(shù)量的3D房間布局(具有不同數(shù)量的拐角)的數(shù)據(jù)集對(duì)于訓(xùn)練以及測(cè)試我們的網(wǎng)絡(luò)至關(guān)重要。 不幸的是,現(xiàn)有的公共領(lǐng)域數(shù)據(jù)集,例如Zou等人標(biāo)記的PanoContext 數(shù)據(jù)集和Stanford 2D-3D數(shù)據(jù)集。主要包含具有簡(jiǎn)單長(zhǎng)方體形狀的布局。為了證明我們的框架足夠靈活,可以處理任意數(shù)量的拐角房間,我們引入了一個(gè)名為Realtor360的新數(shù)據(jù)集,其中包含2500多個(gè)室內(nèi)全景圖和帶注釋的3D房間布局。 我們根據(jù)房間布局的復(fù)雜程度對(duì)每個(gè)房間進(jìn)行分類,這些復(fù)雜程度是通過(guò)平面圖中的拐角數(shù)量來(lái)衡量的。 表1顯示了數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù),圖4中提供了一些可視示例。Realtor360數(shù)據(jù)集中的源全景圖像是從兩個(gè)源中收集的。 第一個(gè)是SUN360數(shù)據(jù)集的一個(gè)子集,其中包含593個(gè)客廳和臥室的全景圖。 另一個(gè)來(lái)源是一個(gè)房地產(chǎn)數(shù)據(jù)庫(kù),其中包含從一家房地產(chǎn)公司獲得的1980個(gè)室內(nèi)全景圖。 我們使用定制的交互式工具注釋這些室內(nèi)全景圖的3D布局,如下所述。

注釋工具。 為了用高質(zhì)量的3D房間布局注釋2D室內(nèi)全景圖,我們開發(fā)了一種交互式工具來(lái)簡(jiǎn)化標(biāo)記過(guò)程。 該工具首先利用現(xiàn)有的自動(dòng)方法從輸入全景圖中提取深度圖和線段。然后,通過(guò)沿全景中心的水平線采樣深度來(lái)創(chuàng)建初始的3D曼哈頓世界布局。 該工具允許用戶通過(guò)一系列直觀的操作來(lái)完善初始3D布局,這些操作包括(i)推/拉墻;(ii)合并多堵墻;(iii)分開一堵墻。 它還提供了一個(gè)方便的功能,可以在交互式編輯過(guò)程中將布局邊對(duì)齊到估計(jì)的線段,以提高準(zhǔn)確性。 我們計(jì)劃在發(fā)布此工作后將數(shù)據(jù)集和注釋工具一起發(fā)布以供學(xué)術(shù)使用。



?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容