補(bǔ)充知識(shí)
體素化(Voxelization)
是將物體的幾何形式表示轉(zhuǎn)換成最接近該物體的體素表示形式,產(chǎn)生體數(shù)據(jù)集,其不僅包含模型的表面信息,而且能描述模型的內(nèi)部屬性。表示模型的空間體素跟表示圖像的二維像素比較相似,只不過(guò)從二維的點(diǎn)擴(kuò)展到了三維的立方體單元,而且基于體素的三維模型有諸多應(yīng)用
點(diǎn)云數(shù)據(jù)
1.什么是點(diǎn)云數(shù)據(jù)
點(diǎn)云 數(shù)據(jù)是指在一個(gè)三維坐標(biāo)系統(tǒng)中的一組向量的集合。這些向量通常以x,y,z三維坐標(biāo)的形式表示,而且一般主要用來(lái)代表一個(gè)物體的外表面形狀。不僅如此,除了(x,y,z)代表的幾何位置信息之外,點(diǎn)云數(shù)據(jù)還可以表示一個(gè)點(diǎn)的RGB顏色,灰度值,深度,分割結(jié)果等。
Eg..Pi={Xi, Yi, Zi,…….}表示空間中的一個(gè)點(diǎn),
則Point Cloud={P1, P2, P3,…..Pn}表示一組點(diǎn)云數(shù)據(jù)。
2.點(diǎn)云數(shù)據(jù)的獲得
大多數(shù)點(diǎn)云數(shù)據(jù)是由3D掃描設(shè)備產(chǎn)生的,例如激光雷達(dá)(2D/3D),立體攝像頭(stereo camera),越渡時(shí)間相機(jī)(time-of-flight camera)。這些設(shè)備用自動(dòng)化的方式測(cè)量在物體表面的大量的點(diǎn)的信息,然后用某種數(shù)據(jù)文件數(shù)點(diǎn)云數(shù)據(jù)。這些點(diǎn)云數(shù)據(jù)就是掃描設(shè)備所采集到的。
3.點(diǎn)云數(shù)據(jù)的用途
作為3D掃描的結(jié)果,點(diǎn)云數(shù)據(jù)有很多不方面的用途,包括為制造部件,質(zhì)量檢查,多元化視距,卡通制作,三維制圖和大眾傳播工具應(yīng)用等創(chuàng)建3D CAD模型。
激光雷達(dá)
無(wú)人駕駛中激光雷達(dá)感知周圍環(huán)境的原理是什么?
首先,通過(guò)激光雷達(dá)獲取到三維點(diǎn)去數(shù)據(jù)后。進(jìn)行點(diǎn)云分離,然后進(jìn)行聚類,一般都是通過(guò)計(jì)算相鄰兩個(gè)激光點(diǎn)間的距離來(lái)決定是否屬于同一類。聚類完之后進(jìn)行障礙物識(shí)別。識(shí)別也障礙物之后,進(jìn)行前后兩頻對(duì)比,可以識(shí)別是靜態(tài)障礙物還是動(dòng)態(tài)障礙物。動(dòng)態(tài)障礙物也可以計(jì)算出運(yùn)動(dòng)速度等。結(jié)合無(wú)人駕駛汽車當(dāng)前的位置信息,計(jì)算出避障所需的最小安全距離,達(dá)到壁障功能。
作者:大力小白菜
鏈接:https://www.zhihu.com/question/54137057/answer/226039003
來(lái)源:知乎
激光雷達(dá)在無(wú)人駕駛的兩個(gè)核心作用:
1.3D建模進(jìn)行環(huán)境感知。通過(guò)激光掃描可以得到汽車周圍環(huán)境的3D模型,運(yùn)用相關(guān)算法比對(duì)上一幀和下一幀環(huán)境的變化可以較為容易的探測(cè)出周圍的車輛和行人。
2.SLAM加強(qiáng)定位。激光雷達(dá)另一大特性是同步建圖(SLAM),實(shí)時(shí)得到的全局地圖,通過(guò)與高精度地圖中特征物的比對(duì),可以實(shí)現(xiàn)導(dǎo)航及加強(qiáng)車輛的定位精度。
激光雷達(dá)優(yōu)點(diǎn)
激光雷達(dá)由發(fā)射系統(tǒng)、接收系統(tǒng) 、信息處理三部分組成:激光器將電脈沖變成光脈沖發(fā)射出去,光接收機(jī)再把從目標(biāo)反射回來(lái)的光脈沖還原成電脈沖,最后經(jīng)過(guò)一系列算法來(lái)得出目標(biāo)位置(距離和角度)、運(yùn)動(dòng)狀態(tài)(速度、振動(dòng)和姿態(tài))和形狀,可以探測(cè)、識(shí)別、分辨和跟蹤目標(biāo)。
1.解析度高,測(cè)距精度高,小于2公分、角度分辨率約0.09度,如此高的解析度可完整繪出物體輪廓,外加垂直偵測(cè)角度中,平均每0.4度即有一個(gè)掃描層、全周資料更新率15赫茲(Hz),車輛周圍環(huán)境將無(wú)所遁形。
2.抗有源干擾能力強(qiáng),激光雷達(dá)的脈沖光束發(fā)射器之口徑非常小,即接收器可接收脈沖光束的區(qū)域亦非常狹窄,因此,受到其他紅外線雷達(dá)光束干擾的機(jī)會(huì)就非常小。此外,脈沖光束實(shí)質(zhì)上屬紅外線波,不會(huì)受電磁波影響,因此,在一般應(yīng)用環(huán)境中能干擾激光掃描儀的信號(hào)源不多,適用于高度自動(dòng)化的系統(tǒng)。
3.探測(cè)性能好,對(duì)于激光掃描儀,僅有被脈沖光束照射的目標(biāo)才會(huì)產(chǎn)生反射,且紅外線波并不像電磁波會(huì)受回波干擾等問(wèn)題,對(duì)于環(huán)境的幾何形狀、障礙物材質(zhì)等,均不影響激光掃描儀的偵測(cè)結(jié)果。以系統(tǒng)設(shè)計(jì)角度而言,因信號(hào)具高穩(wěn)定性激光掃描儀的信號(hào)可信度十分高。
4.不受光線影響,激光掃描儀可全天候進(jìn)行偵測(cè)任務(wù),且其偵測(cè)效果不因白天或黑夜而有所影響,這也是目前無(wú)人駕駛車中許多采用的攝像頭感測(cè)器所達(dá)不到的功能。
5.測(cè)速范圍大,激光掃描儀可成功掃描出障礙物的相對(duì)速度高達(dá)每小時(shí)200公里之輪廓,也就是說(shuō),對(duì)于車系統(tǒng),激光掃描儀并不局限在市區(qū)或低速應(yīng)用情境,高速移動(dòng)下的情境亦可被應(yīng)用,此對(duì)車輛增加移動(dòng)速度后之安全系統(tǒng)設(shè)計(jì)有顯著的幫助,系統(tǒng)應(yīng)用上更具有彈性。
激光雷達(dá)缺點(diǎn)
1.紅外線波受天候和大氣的影響,在一般晴朗或良好氣候條件中的光衰較小,傳播距離和理想值接近;若在大雨、下雪、濃霧等非晴朗氣候條件下,紅外線波的偵測(cè)能力會(huì)大幅衰減,感測(cè)距離亦受影響。
2.價(jià)格高,Velodyne 64線 激光雷達(dá)的供應(yīng)價(jià)格高達(dá)8萬(wàn)美元,已開發(fā)出了相對(duì)便宜的32線和16線激光雷達(dá)的價(jià)格也分別3萬(wàn)美元與8000美元,若要普及應(yīng)用,價(jià)格是一大障礙。
3.龐大信息流,64線 3D激光雷達(dá)每秒產(chǎn)生一百三十萬(wàn)筆偵測(cè)資料,解析度較低的32線激光雷達(dá)每秒產(chǎn)生七十萬(wàn)筆偵測(cè)資料,如此快速且大量的資料是嵌入式系統(tǒng)難以負(fù)荷起的工作,需要專業(yè)處理器才能完整處理。
三維坐標(biāo)系中方向角和傾斜角的解釋
https://www.zybang.com/question/cfe1f03211d2f63f6724942bfa540870.html
激光測(cè)距分辨率
激光測(cè)距機(jī)測(cè)距時(shí)分辨相鄰目標(biāo)的能力。有距離分辨率和橫向分辨率之分。距離分辨率是在規(guī)定距離(如100m)上能分辨和測(cè)量前后相鄰兩目標(biāo)間的最小距離,通常用米計(jì)量,一般坦克激光測(cè)距機(jī)的距離分辨率為20~30m,最高可達(dá)15m。距離分辨率主要取決于測(cè)距機(jī)光電轉(zhuǎn)換的響應(yīng)時(shí)間、前置放大器的通頻帶寬度用閾值、整形電路的開關(guān)時(shí)間和振蕩器的振蕩頻率等。橫向分辨率又稱為角分辨率,是測(cè)距機(jī)在激光發(fā)射光軸垂直的方向上,在規(guī)定的距離(如1000m)上能分辨左右相鄰兩個(gè)目間的最小尺寸,一般以角度表示。橫向分辨率的高低度主要取決于激光測(cè)距機(jī)探測(cè)器的接收視場(chǎng)和激光光束的發(fā)射角。
分辨率是指?jìng)鞲衅髂芨惺艿降腫被測(cè)量]的最小變化能力。也就是說(shuō),如果輸入量從某一個(gè)非零值緩慢變化,當(dāng)輸入變化值未超過(guò)某一個(gè)數(shù)值時(shí),傳感器輸出不會(huì)發(fā)生變化,也就是說(shuō)傳感器對(duì)此輸入量的變化是分辨不出來(lái)的。只有當(dāng)輸入量的變化超過(guò)分辨率時(shí),其輸出才會(huì)變化。
上采樣和下采樣
上采樣(upsampling)
放大圖像,主要目的是放大原圖像,從而可以顯示在更高分辨率的顯示設(shè)備上下采樣(subsampled)
縮小圖像,使得圖像符合顯示區(qū)樂(lè)的大小,生成對(duì)應(yīng)圖像的縮略圖
Deconvolution(反卷積)
動(dòng)畫演示:https://github.com/vdumoulin/conv_arithmetic
摘要
本文提出了一種應(yīng)用于自動(dòng)駕駛的多視角3D檢測(cè)網(wǎng)絡(luò),將雷達(dá)點(diǎn)云和RGB圖像共同作為網(wǎng)絡(luò)的輸入從而產(chǎn)生對(duì)應(yīng)的3D bounding box。此網(wǎng)絡(luò)包括兩個(gè)部分,一個(gè)用來(lái)產(chǎn)生3D候選框,另一個(gè)用來(lái)進(jìn)行多視圖融合。其中3D候選框生成網(wǎng)絡(luò)使用3D雷達(dá)點(diǎn)云的俯視圖作為輸入生成3D候選框,而多視圖融合主要是將不同的視角提取到的特征進(jìn)行融合。目前在KITTI挑戰(zhàn)上本文的方法是state-of-the-art的方法。
介紹
目前,3D物體檢測(cè)在自動(dòng)駕駛的視覺(jué)感知系統(tǒng)的扮演著重要的地位?,F(xiàn)代的無(wú)人汽車通常都裝備了很多的傳感器,比如激光雷達(dá)或者攝像機(jī)。激光掃描可以獲取更精確的深層信息,而攝像機(jī)則可以保留更多語(yǔ)義信息。雷達(dá)點(diǎn)云和RGB圖像的融合能夠使得自動(dòng)駕駛更加安全,并且提升自動(dòng)駕駛的表現(xiàn)。
本文關(guān)注的焦點(diǎn)是利用雷達(dá)點(diǎn)云和RGB圖像進(jìn)行3D物體的檢測(cè),希望能夠在道路場(chǎng)景中獲取3D物體位置和類別的任務(wù)重取得較好的效果。一般來(lái)說(shuō),使用雷達(dá)點(diǎn)云可以在獲取3D目標(biāo)位置的時(shí)候獲得更高的精度,而使用RGB圖像則可以在獲取預(yù)測(cè)的2D Box時(shí)取得更好的效果。
本文中提出的MV3D使用多種類型的數(shù)據(jù)作為輸入,預(yù)測(cè)出物體在三維空間中的完整的物體范圍。利用多模式信息的一個(gè)主要想法就是執(zhí)行區(qū)域的特征融合。我們首先提出了多視圖的編碼方案以獲得一個(gè)緊湊有效的三維點(diǎn)云稀疏表達(dá)。3D候選區(qū)網(wǎng)絡(luò)利用點(diǎn)云的俯視圖表達(dá)去生成一個(gè)高精度的候選框。使用3D候選框的好處就是它可以投影到三維空間的任意視角。設(shè)計(jì)了一種深度融合的方法,使得中間層之間可以相互交互。

相關(guān)工作
- 基于點(diǎn)云的3D目標(biāo)檢測(cè)
目前大多數(shù)的方法都將3D點(diǎn)云體素化,提取結(jié)構(gòu)特征之后送入到SVM或者神經(jīng)網(wǎng)絡(luò)中進(jìn)行分類,這樣做的計(jì)算消耗很大,還有的使用了點(diǎn)云的前視圖,包含2D點(diǎn)云圖,使用了一個(gè)全鏈接的卷積網(wǎng)絡(luò)作用在2D點(diǎn)云圖上從而預(yù)測(cè)出3D的boxes。此次工作中,作者將3D點(diǎn)云編碼為多視角的特征圖,應(yīng)用與基于區(qū)域的多模式表示。 - 基于Images的3D目標(biāo)檢測(cè)
3DVP介紹了一種3D體素模式并運(yùn)用了一系列的ACF檢測(cè)器去做2D的檢測(cè)和3D姿態(tài)的估計(jì)。Image-based的方法通常都依賴于精確的深度估計(jì)或標(biāo)記檢測(cè)。作者的工作顯示了如何融合雷達(dá)點(diǎn)云去提高3D localization的效果。 - 多模態(tài)融合
僅僅有很少的工作利用了多模態(tài)的數(shù)據(jù)應(yīng)用到自動(dòng)駕駛。有的是結(jié)合了圖像,深度,還有光流應(yīng)用于2D的行人檢測(cè)。本文是受到了FractalNet和Deeply-Fused Net的啟發(fā)。在FractalNet中,基礎(chǔ)模塊使用不斷增加的通道迭代地構(gòu)建網(wǎng)絡(luò),相似地,通過(guò)聯(lián)合淺層和深層子網(wǎng)絡(luò)去構(gòu)建深度融合的網(wǎng)絡(luò)。文章的工作區(qū)別與他們的地方在于對(duì)于每一欄使用了相同的基礎(chǔ)網(wǎng)絡(luò),為了正則化增加了輔助的路徑和損失。 - 3D目標(biāo)候選區(qū)
3DOP基于立體的點(diǎn)云設(shè)計(jì)了一些深度的特征來(lái)產(chǎn)生一些3D候選框。Mono3D利用了地平面和一些語(yǔ)義信息生成了3D候選區(qū)。3DOP和Mono3D都使用了手工的特征。Deep Sliding Shapes利用了更加有效的深度特征,但是,在處理3D體素網(wǎng)格上使用了計(jì)算量巨大的3D卷積。文中提出了使用點(diǎn)云的俯視圖表達(dá),應(yīng)用2D的卷積來(lái)生成3D的候選區(qū)。

MV3D Network
目前3D雷達(dá)點(diǎn)云編碼主要是生成3D網(wǎng)格空間或者前視圖,3D網(wǎng)格表達(dá)保留了大部分的未加工的點(diǎn)云信息,通常需要更多更復(fù)雜的計(jì)算資源用于特征提取。所以本文提出了一種更加簡(jiǎn)潔的表達(dá):3D點(diǎn)云的前視圖和俯視圖。
-
俯視圖
俯視圖由高度、強(qiáng)度、密度組成,投影到分辨率為0.1的二維網(wǎng)格中
1.高度
對(duì)于每個(gè)網(wǎng)格來(lái)說(shuō),高度特征有點(diǎn)云單元格中的最高值得出;為了編碼更多的高度特征,點(diǎn)云被分為M塊,每一個(gè)塊都計(jì)算相應(yīng)的高度圖,從而獲得了M個(gè)高度圖。
2.強(qiáng)度
強(qiáng)度是每個(gè)單元格中有最大高度的點(diǎn)的映射值
3.密度
表示每個(gè)單元格中點(diǎn)的數(shù)目,為了歸一化特征,被計(jì)算為:
其中N為單元格中的點(diǎn)的數(shù)目
強(qiáng)度和密度特征計(jì)算的是整個(gè)點(diǎn)云,而高度特征是計(jì)算M切片,所以,總的俯視圖被編碼為(M + 2)個(gè)通道的特征 -
前視圖
前視圖給俯視圖提供了額外的信息。由于激光點(diǎn)云非常稀疏的時(shí)候,投影到2D圖上也會(huì)非常稀疏。相反,我們將它投影到一個(gè)圓柱面生成一個(gè)稠密的前視圖。
假設(shè)3D坐標(biāo)為
3D坐標(biāo)
那么他的前視圖坐標(biāo)前視圖坐標(biāo)
可以通過(guò)如下式子計(jì)算
前視圖坐標(biāo)計(jì)算公式
其中?θ和 ?φ分別是激光束的水平和垂直分辨率。
3D候選區(qū)網(wǎng)絡(luò)
目前2D目標(biāo)檢測(cè)中,區(qū)域提名網(wǎng)絡(luò)已經(jīng)成為最高水平的關(guān)鍵,文章設(shè)計(jì)了一個(gè)網(wǎng)絡(luò)產(chǎn)生候選區(qū)域,使用俯視圖作為輸入,在3D物體檢測(cè)中。俯視圖相比于前視圖/圖像平面有幾個(gè)優(yōu)點(diǎn)。首先,物體投影到俯視圖時(shí),保留了物體的物理尺寸,從而具有較小的尺寸方差,這在前視圖/圖像平面的情況下不具備的;第二,在俯視圖中,物體占據(jù)不同的空間,從而避免遮擋的問(wèn)題。第三,在道理場(chǎng)景中,由于目標(biāo)通常位于地面平面上,并在垂直位置的方差較小,俯視圖定位在獲得準(zhǔn)確的3D bounding box是很重要的。因此,使用俯視圖作為輸入,可以確保3D位置預(yù)測(cè)更可行。

其中x,y,z是雷達(dá)坐標(biāo)系統(tǒng)中坐標(biāo)的中心,l,w,h分別是長(zhǎng)寬高,對(duì)于每一個(gè)3D prior box,相應(yīng)的俯視圖錨點(diǎn)為:

這些錨點(diǎn)都可以由

設(shè)計(jì)的N個(gè)3D前置框通過(guò)在訓(xùn)練集的地面真實(shí)目標(biāo)大小聚類獲得。在機(jī)動(dòng)車檢測(cè)的情況下,前置框(L,W)的值分別為{(3.9,1.6),(1.0,0.6)},和高度h是固定值1.56米。通過(guò)旋轉(zhuǎn)鳥瞰錨90度(圍著錨x,y的坐標(biāo)中心),可以得到n = 4個(gè)前置框。(x,y)為鳥視圖特征圖中的坐標(biāo),Z可以根據(jù)攝像機(jī)高度和物體高度來(lái)計(jì)算。在區(qū)域產(chǎn)生中不做方向回歸,而把它留給下一個(gè)預(yù)測(cè)階段。3D框的方向限制在{ 0?,90?},這是接近實(shí)際的取向大部分道路場(chǎng)景中的物體。這種簡(jiǎn)化使回歸訓(xùn)練更容易。
采用0.1米的離散分辨率,目標(biāo)框在鳥瞰中僅占5~40個(gè)像素點(diǎn)(最大約相當(dāng)于0.015米)。檢測(cè)這些非常小的物體仍然是一個(gè)困難的問(wèn)題。一種可能的解決方案是使用更高的分辨率的輸入,然而,將需要更多的計(jì)算。我們選擇特征圖上進(jìn)行上采樣操作。我們用2倍的雙線性上采樣操作在網(wǎng)絡(luò)的最后一個(gè)卷積層后。前端卷積層中只進(jìn)行3次池化運(yùn)算,即8倍的下采樣。因此,結(jié)合2倍的反卷積操作,特征圖被送到區(qū)域提名網(wǎng)絡(luò)時(shí)只有相對(duì)于鳥瞰圖輸入的4倍下采樣后的圖。
我們做3D框回歸通過(guò)回歸到t = (?x,?y,?z,?l,?w,?h)中,類似于2D目標(biāo)檢測(cè)中的RPN網(wǎng)絡(luò)。(?x,?y,?z) 是錨中心歸一化的偏移量,(?l,?w,?h) 由?s = log(Sgt/Sanchor),s ∈ {l,w,h}.計(jì)算得出。我們使用多任務(wù)損失函數(shù)做物體分類/背景分類和3D框回歸。我們采用分類熵做物體分類損失和光滑L1做3D框回歸損失。背景錨可以忽略。當(dāng)錨與真實(shí)目標(biāo)邊框重疊超過(guò)0.7時(shí),我們認(rèn)為是正樣本,低于0.5認(rèn)為是負(fù)樣本,中間的我們忽略不計(jì)。
由于激光雷達(dá)點(diǎn)云稀疏,會(huì)導(dǎo)致許多空錨,我們?cè)谟?xùn)練和測(cè)試中刪除所有的空錨,以減少計(jì)算??梢酝ㄟ^(guò)計(jì)算點(diǎn)占用圖上的積分圖像來(lái)實(shí)現(xiàn)
對(duì)于每個(gè)非空錨在每個(gè)位置的最后一個(gè)卷積特征圖,網(wǎng)絡(luò)生成一個(gè)3D框。為了減少冗余,我們應(yīng)用非最大抑制(NMS)的鳥瞰框,論文沒(méi)有使用3D非極大值抑制。使用交并比閾值為0.7在非極大值抑制中。前2000框保存在訓(xùn)練期間,而在測(cè)試中,我們只使用300框。
基于區(qū)域的融合網(wǎng)絡(luò)
文章設(shè)計(jì)了一個(gè)基于區(qū)域的融合網(wǎng)絡(luò),有效地結(jié)合從多個(gè)視圖的特征,共同做候選區(qū)域分類和做定向3D框回歸。
由于從不同的視圖/方式的特征圖通常有不同的分辨率,我們采用ROI池化為每個(gè)視圖以獲得相同長(zhǎng)度的特征向量。給定生成的3D候選區(qū)域,我們可以將它們投射到三維空間中的任何視圖中,論文映射到3個(gè)視圖中,鳥瞰圖(BV),前視圖(FV),和圖像平面(RGB)。給出一個(gè)3D區(qū)域,我們可以獲取ROI通過(guò):

其中,T3D→v表示從激光雷達(dá)坐標(biāo)系到鳥瞰圖、前視圖,和圖像平面的轉(zhuǎn)換函數(shù),給定一個(gè)輸入特征圖x從每個(gè)視圖的前端網(wǎng)絡(luò),我們獲得固定長(zhǎng)度的特征通過(guò)ROI池化:

深度融合(Deep fusion)

融合過(guò)程如下:

、


多視圖網(wǎng)絡(luò)融合特征后,我們?cè)?D區(qū)域中回歸3D框的方向。特別是,回歸的目標(biāo)是3D框的8個(gè)角:T =(?x0,···,?x7,?Y0,···?Y7,?Z0,···,?Z7)。該參數(shù)被編碼為由候選框的對(duì)角線長(zhǎng)度歸一化后的偏移量。盡管這樣的24-D向量表示三維框是冗余的,但是我們發(fā)現(xiàn)這種編碼方法優(yōu)于中心和大小的編碼方法。請(qǐng)注意,我們的3D框回歸不同于回歸軸對(duì)齊的3D框。在我們的模型中,物體的方向可以從預(yù)測(cè)的3D框角進(jìn)行計(jì)算。我們使用多任務(wù)損失共同預(yù)測(cè)物體類別和3D框方向。在區(qū)域網(wǎng)絡(luò)中,類別損失使用交叉熵和3D框損失使用平滑L1。除了上述正負(fù)樣本設(shè)定和非極大值抑制閾值的設(shè)定,我們還使用交并比閾值0.05去除多余的盒子,確保鳥瞰中的物體不會(huì)占據(jù)同一空間。
我們采用兩種方法去規(guī)范基于區(qū)域的融合網(wǎng)絡(luò):下降路徑訓(xùn)練[ 13 ]和輔助損失。對(duì)于每次迭代,我們隨機(jī)選擇做全局下降路徑或局部下降路徑的概率為50%。如果選擇全局下降路徑,我們從三視圖中相同概率中選擇一個(gè)視圖。如果選擇局部下降路徑,每個(gè)連接節(jié)點(diǎn)的路徑輸入隨機(jī)丟棄的概率為50%。我們確保每個(gè)連接節(jié)點(diǎn)至少保留一個(gè)輸入路徑。為了進(jìn)一步加強(qiáng)每個(gè)視圖的表示能力,我們?cè)诰W(wǎng)絡(luò)中添加輔助路徑和損失。如下圖所示,輔助路徑與主網(wǎng)絡(luò)的層數(shù)相同。輔助路徑中的每一層與主網(wǎng)絡(luò)中的相應(yīng)層共享權(quán)重。我們使用相同的多任務(wù)損失,即分類損失加3D框回歸損失,反向傳播每個(gè)輔助路徑。計(jì)算所有損失中包括輔助損失。推理過(guò)程中刪除輔助路徑。

在我們的多視圖網(wǎng)絡(luò)中,每個(gè)視圖具有相同的網(wǎng)絡(luò)結(jié)構(gòu)。基礎(chǔ)網(wǎng)絡(luò)是建立在VGG16下進(jìn)行修改的:
?渠道減少到原來(lái)的網(wǎng)絡(luò)的一半。
?為了處理特別小的物體,我們使用特征粗略估計(jì)以獲得高分辨率的特征圖。特別是,我們插入一個(gè)2倍雙線性上采樣層在最后一層卷積特征圖輸入到三維區(qū)域網(wǎng)絡(luò)之前。同樣,我們插入4倍/4倍 /2倍上采樣層在BV / Fv/RGB分支的ROI池化層之前。
?我們刪除原VGG網(wǎng)絡(luò)中第四個(gè)池化操作,因此我們的網(wǎng)絡(luò)卷積部分進(jìn)行8倍的下采樣。
?在多視角融合網(wǎng)絡(luò)中,我們添加一個(gè)額外的全連接層FC8在原有的FC6、FC7層基礎(chǔ)上。
初始化參數(shù)由通過(guò)imagenet訓(xùn)練的vgg16網(wǎng)絡(luò)。盡管我們的網(wǎng)絡(luò)有三個(gè)分支,但是參數(shù)的個(gè)數(shù)是75%的vgg16網(wǎng)絡(luò)。一個(gè)圖像網(wǎng)絡(luò)的運(yùn)行時(shí)間是在泰坦X上0.7s。



