Improving Deep Regression with Ordinal Entropy
ICLR 2023
https://arxiv.org/abs/2301.08915
https://github.com/needylove/ordinalentropy
在計(jì)算機(jī)視覺(jué)中,經(jīng)常觀察到將回歸問(wèn)題表述為分類(lèi)任務(wù)通常會(huì)產(chǎn)生更好的性能。我們研究了這種奇怪的現(xiàn)象,并提供了一個(gè)推導(dǎo),以表明具有交叉熵?fù)p失的分類(lèi)在學(xué)習(xí)高熵特征表示的能力方面優(yōu)于具有均方誤差損失的回歸?;诜治?,我們提出了有序熵?fù)p失,以鼓勵(lì)更高熵的特征空間,同時(shí)保持有序關(guān)系,以提高回歸任務(wù)的性能。對(duì)合成和真實(shí)世界回歸任務(wù)的實(shí)驗(yàn)證明了增加回歸熵的重要性和好處。
All in Tokens: Unifying Output Space of Visual Tasks via Soft Token
5 Jan 2023
https://arxiv.org/abs/2301.02229
https://github.com/swintransformer/ait
與語(yǔ)言任務(wù)不同,輸出空間通常限于一組標(biāo)記,視覺(jué)任務(wù)的輸出空間更為復(fù)雜,難以為各種視覺(jué)任務(wù)構(gòu)建統(tǒng)一的視覺(jué)模型。在本文中,我們尋求統(tǒng)一視覺(jué)任務(wù)的輸出空間,以便我們也可以為視覺(jué)任務(wù)構(gòu)建統(tǒng)一的模型。為此,我們演示了一個(gè)統(tǒng)一的模型,該模型同時(shí)處理實(shí)例分割和深度估計(jì)這兩個(gè)典型的視覺(jué)任務(wù),分別具有離散/固定長(zhǎng)度和連續(xù)/可變長(zhǎng)度輸出。我們提出了幾種考慮到視覺(jué)任務(wù)特殊性的新技術(shù):1)軟令牌。我們使用軟令牌來(lái)表示任務(wù)輸出。與普通VQ-VAE中的硬令牌不同,硬令牌被分配給離散碼本/詞匯表,軟令牌被柔和地分配給碼本嵌入。軟令牌可以提高下一個(gè)令牌推斷和任務(wù)輸出解碼的準(zhǔn)確性;2) 面罩增強(qiáng)。許多視覺(jué)任務(wù)在標(biāo)簽注釋中存在損壞、未定義或無(wú)效值,即深度圖的遮擋區(qū)域。我們表明,掩模增強(qiáng)技術(shù)可以極大地幫助這些任務(wù)。通過(guò)這些新技術(shù)和其他設(shè)計(jì),我們表明所提出的通用任務(wù)求解器可以很好地執(zhí)行實(shí)例分割和深度估計(jì)。特別是,我們?cè)贜YUv2深度估計(jì)的特定任務(wù)上實(shí)現(xiàn)了0.279 RMSE,創(chuàng)下了該基準(zhǔn)的新紀(jì)錄。通用任務(wù)求解器,稱為AiT,可在\url上獲得{https://github.com/SwinTransformer/AiT}.
LightDepth: A Resource Efficient Depth Estimation Approach for Dealing with Ground Truth Sparsity via Curriculum Learning
Nov 2022
https://arxiv.org/abs/2211.08608
https://github.com/fatemehkarimii/lightdepth
https://paperswithcode.com/paper/lightdepth-a-resource-efficient-depth
神經(jīng)網(wǎng)絡(luò)的進(jìn)步使得能夠以前所未有的精度處理復(fù)雜的計(jì)算機(jī)視覺(jué)任務(wù),例如戶外場(chǎng)景的深度估計(jì)。對(duì)深度估計(jì)進(jìn)行了有希望的研究。然而,目前的工作是計(jì)算資源密集型的,沒(méi)有考慮機(jī)器人和無(wú)人機(jī)等自主設(shè)備的資源限制。在這項(xiàng)工作中,我們提出了一種快速且電池效率高的深度估計(jì)方法。我們的方法設(shè)計(jì)了基于模型不可知課程的學(xué)習(xí)來(lái)進(jìn)行深度估計(jì)。我們的實(shí)驗(yàn)表明,我們的模型的準(zhǔn)確性與最先進(jìn)的模型相當(dāng),而其響應(yīng)時(shí)間比其他模型高71%。
Focal-WNet: An Architecture Unifying Convolution and Attention for Depth Estimation
I2CT 2022
https://github.com/Goubeast/Focal-WNet
https://ieeexplore.ieee.org/abstract/document/9824488
https://paperswithcode.com/paper/focal-wnet-an-architecture-unifying
在具有廣泛應(yīng)用的計(jì)算機(jī)視覺(jué)中,從單個(gè)RGB圖像中提取深度信息是一項(xiàng)基本且具有挑戰(zhàn)性的任務(wù)。這項(xiàng)任務(wù)無(wú)法使用多視圖幾何等傳統(tǒng)方法解決,只能通過(guò)深度學(xué)習(xí)解決。由于缺乏長(zhǎng)期相關(guān)性,使用卷積神經(jīng)網(wǎng)絡(luò)的現(xiàn)有方法產(chǎn)生不一致和模糊的結(jié)果。隨著Transformer網(wǎng)絡(luò)最近在計(jì)算機(jī)視覺(jué)中的成功,它可以在局部和全局處理信息,我們利用這一思想在本文中提出了一種新的架構(gòu),名為Focal WNet。該架構(gòu)由兩個(gè)獨(dú)立的編碼器和一個(gè)解碼器組成。該網(wǎng)絡(luò)的主要目的是學(xué)習(xí)大多數(shù)單目深度線索,如相對(duì)比例、對(duì)比度差異、紋理梯度等。與焦點(diǎn)Transformer層一起,我們利用卷積架構(gòu)來(lái)學(xué)習(xí)深度線索,這些線索不能單獨(dú)通過(guò)Transformer來(lái)學(xué)習(xí),因?yàn)橐恍┚€索(如遮擋)需要局部感受野,并且更容易被conv網(wǎng)絡(luò)學(xué)習(xí)。大量實(shí)驗(yàn)表明,所提出的Focal WNet在兩個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集上獲得了競(jìng)爭(zhēng)性的結(jié)果。
IronDepth: Iterative Refinement of Single-View Depth using Surface Normal and its Uncertainty
7 Oct 2022
https://arxiv.org/abs/2210.03676
https://github.com/baegwangbin/IronDepth
單圖像表面法線估計(jì)和深度估計(jì)是密切相關(guān)的問(wèn)題,因?yàn)榍罢呖梢詮暮笳哂?jì)算。然而,從深度估計(jì)方法的輸出計(jì)算出的表面法線遠(yuǎn)不如網(wǎng)絡(luò)直接估計(jì)的表面法線準(zhǔn)確。為了減少這種差異,我們引入了一種新的框架,該框架使用表面法線及其不確定性來(lái)反復(fù)細(xì)化預(yù)測(cè)深度圖。每個(gè)像素的深度可以傳播到查詢像素,使用預(yù)測(cè)的表面法線作為指導(dǎo)。因此,我們將深度細(xì)化公式化為選擇要傳播的相鄰像素的分類(lèi)。然后,通過(guò)傳播到子像素點(diǎn),我們對(duì)細(xì)化的低分辨率輸出進(jìn)行上采樣。所提出的方法在NYUv2和iBims-1上顯示了最先進(jìn)的性能-無(wú)論是深度還是正常。我們的細(xì)化模塊還可以附加到現(xiàn)有的深度估計(jì)方法,以提高其精度。我們還表明,我們的框架僅針對(duì)深度估計(jì)進(jìn)行訓(xùn)練,也可以用于深度完成。該代碼位于https://github.com/baegwangbin/IronDepth.
Depth Map Decomposition for Monocular Depth Estimation
ECCV 2022
https://arxiv.org/abs/2208.10762
https://github.com/jyjunmcl/Depth-Map-Decomposition
我們提出了一種新的單目深度估計(jì)算法,該算法將度量深度圖分解為歸一化深度圖和尺度特征。所提出的網(wǎng)絡(luò)由一個(gè)共享編碼器和三個(gè)解碼器組成,分別稱為G-Net、N-Net和M-Net,它們分別估計(jì)梯度圖、歸一化深度圖和度量深度圖。M-Net學(xué)會(huì)使用G-Net和N-Net提取的相對(duì)深度特征更準(zhǔn)確地估計(jì)度量深度。該算法的優(yōu)點(diǎn)是可以使用沒(méi)有度量深度標(biāo)簽的數(shù)據(jù)集來(lái)提高度量深度估計(jì)的性能。在各種數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提出的算法不僅提供了與最先進(jìn)的算法相比具有競(jìng)爭(zhēng)力的性能,而且即使只有少量度量深度數(shù)據(jù)可用于其訓(xùn)練,也能產(chǎn)生可接受的結(jié)果。
Towards Comprehensive Representation Enhancement in Semantics-guided Self-supervised Monocular Depth Estimation
ECCV 2022
https://link.springer.com/chapter/10.1007/978-3-031-19769-7_18
https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136610299.pdf
由于深度和語(yǔ)義的強(qiáng)跨任務(wù)相關(guān)性,語(yǔ)義引導(dǎo)的自監(jiān)督單目深度估計(jì)已被廣泛研究。然而,由于深度估計(jì)和語(yǔ)義分割基本上是兩種類(lèi)型的任務(wù):一種是回歸,另一種是分類(lèi),因此深度特征和語(yǔ)義特征的分布自然不同。以往在深度估計(jì)中利用語(yǔ)義信息的工作大多忽略了這種表征區(qū)分,這導(dǎo)致深度特征的表征增強(qiáng)不足。在這項(xiàng)工作中,我們提出了一個(gè)基于注意力的模塊,通過(guò)解決實(shí)例中任務(wù)特定特征的唯一性來(lái)增強(qiáng)任務(wù)特定特征。此外,我們提出了一種基于度量學(xué)習(xí)的方法,通過(guò)在特征空間中創(chuàng)建實(shí)例之間的分離來(lái)實(shí)現(xiàn)深度特征的全面增強(qiáng)。大量的實(shí)驗(yàn)和分析證明了我們提出的方法的有效性。最后,我們的方法在KITTI數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的性能。
MonoViT: Self-Supervised Monocular Depth Estimation with a Vision Transformer
6 Aug 2022
https://github.com/zxcqlf/MonoViT
https://arxiv.org/abs/2208.03543
自監(jiān)督的單目深度估計(jì)是一種有吸引力的解決方案,它不需要很難找到用于訓(xùn)練的深度標(biāo)簽。卷積神經(jīng)網(wǎng)絡(luò)(CNN)最近在這項(xiàng)任務(wù)中取得了巨大成功。然而,它們有限的接受域限制了現(xiàn)有網(wǎng)絡(luò)架構(gòu)只能在局部推理,從而削弱了自監(jiān)督范式的有效性。鑒于視覺(jué)Transformer(ViT)最近取得的成功,我們提出了MonoViT,這是一個(gè)全新的框架,將ViT模型支持的全局推理與自監(jiān)督單目深度估計(jì)的靈活性相結(jié)合。通過(guò)將普通卷積與Transformer塊相結(jié)合,我們的模型可以在局部和全局進(jìn)行推理,以更高的細(xì)節(jié)和精度進(jìn)行深度預(yù)測(cè),從而使MonoViT能夠在已建立的KITTI數(shù)據(jù)集上實(shí)現(xiàn)最先進(jìn)的性能。此外,MonoViT在Make3D和DrivingStereo等其他數(shù)據(jù)集上證明了其優(yōu)越的泛化能力。
Deep Digging into the Generalization of Self-supervised Monocular Depth Estimation
AAAI 2023
https://arxiv.org/abs/2205.11083v2
https://github.com/sjg02122/MonoFormer
自監(jiān)督單目深度估計(jì)近年來(lái)得到了廣泛的研究。大部分工作都集中在提高基準(zhǔn)數(shù)據(jù)集(如KITTI)的性能上,但也提供了一些關(guān)于泛化性能的實(shí)驗(yàn)。在本文中,我們研究了骨干網(wǎng)絡(luò)(例如CNN、Transformer和CNN Transformer混合模型),以推廣單目深度估計(jì)。我們首先在不同的公共數(shù)據(jù)集上評(píng)估最先進(jìn)的模型,這在網(wǎng)絡(luò)培訓(xùn)期間從未見(jiàn)過(guò)。接下來(lái),我們使用我們生成的各種紋理偏移數(shù)據(jù)集研究紋理偏移和形狀偏移表示的效果。我們觀察到變形金剛呈現(xiàn)出強(qiáng)烈的形狀偏差,而CNN表現(xiàn)出強(qiáng)烈的紋理偏差。我們還發(fā)現(xiàn),與紋理偏向模型相比,形狀偏向模型在單目深度估計(jì)方面表現(xiàn)出更好的泛化性能?;谶@些觀察結(jié)果,我們新設(shè)計(jì)了一個(gè)具有多級(jí)自適應(yīng)特征融合模塊的CNN Transformer混合網(wǎng)絡(luò),稱為MonoFormer。MonoFormer背后的設(shè)計(jì)直覺(jué)是通過(guò)使用Transformer來(lái)增加形狀偏差,同時(shí)通過(guò)自適應(yīng)融合多級(jí)表示來(lái)補(bǔ)償Transformer的弱局部偏差。大量實(shí)驗(yàn)表明,所提出的方法在各種公共數(shù)據(jù)集上都達(dá)到了最先進(jìn)的性能。在競(jìng)爭(zhēng)方法中,我們的方法也顯示出最佳的泛化能力。
End-to-end Learning for Joint Depth and Image Reconstruction from Diffracted Rotation
14 Apr 2022
https://arxiv.org/abs/2204.07076
由于當(dāng)前問(wèn)題的不適定性,單目深度估計(jì)仍然是一個(gè)開(kāi)放的挑戰(zhàn)?;谏疃葘W(xué)習(xí)的技術(shù)已經(jīng)被廣泛研究并證明能夠產(chǎn)生可接受的深度估計(jì)精度,即使在單個(gè)RGB輸入圖像中缺乏有意義和魯棒的深度線索分別限制了它們的性能。使用相位和幅度掩模的基于編碼孔徑的方法以降低圖像質(zhì)量為代價(jià),通過(guò)依賴于深度的點(diǎn)擴(kuò)散函數(shù)(PSF)對(duì)2D圖像中的強(qiáng)深度線索進(jìn)行編碼。在本文中,我們提出了一種新的端到端衍射旋轉(zhuǎn)深度學(xué)習(xí)方法。產(chǎn)生作為散焦函數(shù)的旋轉(zhuǎn)點(diǎn)擴(kuò)散函數(shù)(RPSF)的相位掩模與深度估計(jì)神經(jīng)網(wǎng)絡(luò)的權(quán)重聯(lián)合優(yōu)化。為此,我們引入了孔徑掩模的可微物理模型,并對(duì)相機(jī)成像管道進(jìn)行了精確模擬。我們的方法需要一個(gè)明顯不那么復(fù)雜的模型和更少的訓(xùn)練數(shù)據(jù),但在室內(nèi)基準(zhǔn)的單目深度估計(jì)任務(wù)中,它優(yōu)于現(xiàn)有方法。此外,我們通過(guò)結(jié)合非盲和非均勻圖像去模糊模塊來(lái)從RPSF模糊圖像中恢復(fù)清晰的全聚焦圖像,從而解決了圖像退化的問(wèn)題。
P3Depth: Monocular Depth Estimation with a Piecewise Planarity Prior
CVPR 2022
https://arxiv.org/abs/2204.02091
https://github.com/syscv/p3depth??????????96 stars
單目深度估計(jì)對(duì)于場(chǎng)景理解和下游任務(wù)至關(guān)重要。我們專注于監(jiān)督設(shè)置,其中真值深度僅在訓(xùn)練時(shí)可用?;趯?duì)真實(shí)3D場(chǎng)景的高度規(guī)則性的了解,我們提出了一種學(xué)習(xí)選擇性地利用共面像素的信息來(lái)提高預(yù)測(cè)深度的方法。特別地,我們引入了分段平面性先驗(yàn),該先驗(yàn)聲明對(duì)于每個(gè)像素,都有一個(gè)種子像素,該種子像素與前者共享相同的平面3D表面。受此啟發(fā),我們?cè)O(shè)計(jì)了一個(gè)雙頭網(wǎng)絡(luò)。第一個(gè)頭輸出像素級(jí)平面系數(shù),而第二個(gè)頭輸出密集的偏移矢量場(chǎng),該矢量場(chǎng)標(biāo)識(shí)種子像素的位置。然后使用種子像素的平面系數(shù)來(lái)預(yù)測(cè)每個(gè)位置的深度。所得到的預(yù)測(cè)通過(guò)學(xué)習(xí)的置信度與來(lái)自第一頭部的初始預(yù)測(cè)自適應(yīng)地融合,以說(shuō)明與精確局部平面性的潛在偏差。由于所提出的模塊的可區(qū)分性,整個(gè)體系結(jié)構(gòu)進(jìn)行了端到端的訓(xùn)練,并學(xué)習(xí)預(yù)測(cè)規(guī)則的深度圖,在遮擋邊界處具有尖銳的邊緣。對(duì)我們的方法的廣泛評(píng)估表明,我們?cè)谟斜O(jiān)督的單目深度估計(jì)方面達(dá)到了最新水平,超過(guò)了NYU depth-v2和KITTI的Garg分割上的現(xiàn)有方法。我們的方法提供了深度圖,生成了輸入場(chǎng)景的可信3D重建。代碼位于:https://github.com/SysCV/P3Depth
Disentangling Object Motion and Occlusion for Unsupervised Multi-frame Monocular Depth
29 Mar 2022?
https://arxiv.org/abs/2203.15174v2
https://github.com/AutoAILab/DynamicDepth
傳統(tǒng)的自監(jiān)督單目深度預(yù)測(cè)方法基于靜態(tài)環(huán)境假設(shè),這導(dǎo)致動(dòng)態(tài)場(chǎng)景中由于對(duì)象運(yùn)動(dòng)引入的失配和遮擋問(wèn)題而導(dǎo)致精度下降?,F(xiàn)有的動(dòng)態(tài)對(duì)象聚焦方法僅部分解決了訓(xùn)練損失級(jí)別的失配問(wèn)題。在本文中,我們相應(yīng)地提出了一種新的多幀單目深度預(yù)測(cè)方法,以在預(yù)測(cè)和監(jiān)督損失水平上解決這些問(wèn)題。我們的方法稱為DynamicDepth,是一種通過(guò)自監(jiān)督循環(huán)一致性學(xué)習(xí)方案訓(xùn)練的新框架。提出了一種動(dòng)態(tài)物體運(yùn)動(dòng)解糾纏(DOMD)模塊來(lái)解糾纏物體運(yùn)動(dòng)以解決失配問(wèn)題。此外,設(shè)計(jì)了新的遮擋感知成本體積和重投影損失,以減輕對(duì)象運(yùn)動(dòng)的遮擋效應(yīng)。對(duì)Cityscapes和KITTI數(shù)據(jù)集的廣泛分析和實(shí)驗(yàn)表明,我們的方法顯著優(yōu)于最先進(jìn)的單目深度預(yù)測(cè)方法,尤其是在動(dòng)態(tài)對(duì)象領(lǐng)域。代碼位于https://github.com/AutoAILab/DynamicDepth
LocalBins: Improving Depth Estimation by Learning Local Distributions
28 Mar 2022
https://arxiv.org/abs/2203.15132
https://github.com/shariqfarooq123/localbins
我們提出了一種用于從單個(gè)圖像進(jìn)行深度估計(jì)的新架構(gòu)。該架構(gòu)本身基于流行的編碼器-解碼器架構(gòu),該架構(gòu)經(jīng)常用作所有密集回歸任務(wù)的起點(diǎn)。我們建立在AdaBins上,AdaBin估計(jì)輸入圖像的深度值的全局分布,并以兩種方式發(fā)展架構(gòu)。首先,我們預(yù)測(cè)每個(gè)像素的局部鄰域的深度分布,而不是預(yù)測(cè)全局深度分布。第二,我們不只是預(yù)測(cè)解碼器末端的深度分布,而是涉及解碼器的所有層。我們稱這種新架構(gòu)為L(zhǎng)ocalBins。我們的結(jié)果表明,在NYU Depth V2數(shù)據(jù)集上,所有指標(biāo)都明顯優(yōu)于最先進(jìn)的水平。代碼和預(yù)訓(xùn)練模型將公開(kāi)。
InvPT: Inverted Pyramid Multi-task Transformer for Dense Scene Understanding
https://arxiv.org/abs/2203.07997v3
https://github.com/prismformore/InvPT
多任務(wù)密集場(chǎng)景理解是一個(gè)蓬勃發(fā)展的研究領(lǐng)域,需要對(duì)一系列相關(guān)任務(wù)進(jìn)行同時(shí)感知和推理,并進(jìn)行像素預(yù)測(cè)。由于卷積運(yùn)算的大量使用,大多數(shù)現(xiàn)有的工作都遇到了局部建模的嚴(yán)重限制,而在全局空間位置和多任務(wù)上下文中學(xué)習(xí)交互和推理對(duì)于這個(gè)問(wèn)題至關(guān)重要。在本文中,我們提出了一種新的端到端倒金字塔多任務(wù)Transformer(InvPT),以在統(tǒng)一的框架中執(zhí)行空間位置和多個(gè)任務(wù)的同時(shí)建模。據(jù)我們所知,這是第一個(gè)探索設(shè)計(jì)用于場(chǎng)景理解的多任務(wù)密集預(yù)測(cè)的Transformer結(jié)構(gòu)的工作。此外,廣泛證明,更高的空間分辨率對(duì)密集預(yù)測(cè)非常有益,而由于空間尺寸的巨大復(fù)雜性,現(xiàn)有的Transformer以更高的分辨率進(jìn)行更深入的研究是非常具有挑戰(zhàn)性的。InvPT提供了一個(gè)高效的UP Transformer塊,以逐步提高的分辨率學(xué)習(xí)多任務(wù)特征交互,它還結(jié)合了有效的自注意消息傳遞和多尺度特征聚合,以高分辨率生成任務(wù)特定預(yù)測(cè)。我們的方法分別在NYUD-v2和PASCAL上下文數(shù)據(jù)集上實(shí)現(xiàn)了優(yōu)異的多任務(wù)性能,并顯著優(yōu)于現(xiàn)有技術(shù)。該代碼位于https://github.com/prismformore/InvPT
魔鬼在標(biāo)簽:句子的語(yǔ)義分割
The devil is in the labels: Semantic segmentation from sentences
https://arxiv.org/abs/2202.02002
我們提出了一種語(yǔ)義分割方法,當(dāng)應(yīng)用于零樣本設(shè)置時(shí),該方法可實(shí)現(xiàn)最先進(jìn)的監(jiān)督性能。因此,它在每個(gè)主要的語(yǔ)義分割數(shù)據(jù)集上實(shí)現(xiàn)了與監(jiān)督方法相同的結(jié)果,而無(wú)需對(duì)這些數(shù)據(jù)集進(jìn)行訓(xùn)練。這是通過(guò)用描述類(lèi)的短段落的向量值嵌入替換每個(gè)類(lèi)標(biāo)簽來(lái)實(shí)現(xiàn)的。這種方法的通用性和簡(jiǎn)單性使得能夠合并來(lái)自不同域的多個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集具有不同的類(lèi)標(biāo)簽和語(yǔ)義。由此產(chǎn)生的超過(guò)200萬(wàn)張圖像的合并語(yǔ)義分割數(shù)據(jù)集能夠訓(xùn)練一個(gè)模型,該模型在7個(gè)基準(zhǔn)數(shù)據(jù)集上實(shí)現(xiàn)與最先進(jìn)的監(jiān)督方法相同的性能,盡管沒(méi)有使用其中的任何圖像。通過(guò)在標(biāo)準(zhǔn)語(yǔ)義分割數(shù)據(jù)集上微調(diào)模型,我們還分別在60%和65%mIoU的NYUD-V2和PASCAL上下文上實(shí)現(xiàn)了對(duì)最先進(jìn)的監(jiān)督分割的顯著改進(jìn)?;谡Z(yǔ)言嵌入的緊密性,我們的方法甚至可以分割不可見(jiàn)的標(biāo)簽。大量實(shí)驗(yàn)表明,該方法對(duì)不可見(jiàn)圖像域和不可見(jiàn)標(biāo)簽具有很強(qiáng)的泛化能力,并且該方法能夠在下游應(yīng)用中實(shí)現(xiàn)令人印象深刻的性能改進(jìn),包括深度估計(jì)和實(shí)例分割。
TransDSSL: Transformer based Depth Estimation via Self-Supervised Learning
journal 2022
https://ieeexplore.ieee.org/document/9851497
最近,Transformer已被廣泛用于各種計(jì)算機(jī)視覺(jué)任務(wù),并且由于其能夠有效地編碼圖像中的長(zhǎng)距離空間依賴性而顯示出有希望的結(jié)果。然而,關(guān)于在自監(jiān)督深度估計(jì)中采用Transformer的研究很少。當(dāng)在深度的自監(jiān)督學(xué)習(xí)中用Transformer替換CNN架構(gòu)時(shí),我們遇到了幾個(gè)問(wèn)題,例如與Transformer一起使用時(shí)存在問(wèn)題的多尺度光度損失函數(shù),以及捕捉局部細(xì)節(jié)的能力不足。在本文中,我們提出了一種基于注意力的解碼器模塊,Pixel Wise Skip attention(PWSA),以增強(qiáng)特征圖中的精細(xì)細(xì)節(jié),同時(shí)保持全局上下文不受Transformer的影響。此外,我們建議利用具有單尺度光度損失的自蒸餾損失,通過(guò)使用正確的訓(xùn)練信號(hào)來(lái)減輕Transformer訓(xùn)練的不穩(wěn)定性。我們證明,所提出的模型對(duì)需要全局上下文和局部細(xì)節(jié)的大型對(duì)象和薄結(jié)構(gòu)執(zhí)行準(zhǔn)確的預(yù)測(cè)。我們的模型在KITTI和DDAD基準(zhǔn)上實(shí)現(xiàn)了自監(jiān)督單目深度估計(jì)方法中的最先進(jìn)性能
Global-Local Path Networks for Monocular Depth Estimation with Vertical CutDepth
https://arxiv.org/abs/2201.07436
https://github.com/vinvino02/GLPDepth????107 stars
https://paperswithcode.com/paper/global-local-path-networks-for-monocular
從單個(gè)圖像進(jìn)行深度估計(jì)是一項(xiàng)重要任務(wù),可以應(yīng)用于計(jì)算機(jī)視覺(jué)的各個(gè)領(lǐng)域,并且隨著卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展而迅速發(fā)展。在本文中,我們提出了一種用于單目深度估計(jì)的新結(jié)構(gòu)和訓(xùn)練策略,以進(jìn)一步提高網(wǎng)絡(luò)的預(yù)測(cè)精度。我們部署了一個(gè)分層變換編碼器來(lái)捕獲和傳遞全局上下文,并設(shè)計(jì)了一個(gè)輕量級(jí)但功能強(qiáng)大的解碼器來(lái)生成估計(jì)的深度圖,同時(shí)考慮到局部連接性。通過(guò)使用我們提出的選擇性特征融合模塊在多尺度局部特征和全局解碼流之間構(gòu)建連接路徑,網(wǎng)絡(luò)可以集成這兩種表示并恢復(fù)精細(xì)細(xì)節(jié)。此外,所提出的解碼器顯示出比先前提出的解碼器更好的性能,計(jì)算復(fù)雜度顯著降低。此外,我們通過(guò)利用深度估計(jì)中的一個(gè)重要觀測(cè)值來(lái)增強(qiáng)模型,從而改進(jìn)了深度特定增強(qiáng)方法。我們的網(wǎng)絡(luò)在具有挑戰(zhàn)性的深度數(shù)據(jù)集NYU depth V2上實(shí)現(xiàn)了最先進(jìn)的性能。已經(jīng)進(jìn)行了大量的實(shí)驗(yàn)來(lái)驗(yàn)證和顯示所提出的方法的有效性。最后,我們的模型顯示出比其他比較模型更好的泛化能力和魯棒性。
Channel-Wise Attention-Based Network for Self-Supervised Monocular Depth Estimation
24 Dec 2021?
https://github.com/kamiLight/CADepth-master
https://arxiv.org/abs/2112.13047v1
自監(jiān)督學(xué)習(xí)已顯示出非常有希望的單目深度估計(jì)結(jié)果。場(chǎng)景結(jié)構(gòu)和局部細(xì)節(jié)都是高質(zhì)量深度估計(jì)的重要線索。最近的作品缺乏場(chǎng)景結(jié)構(gòu)的顯式建模和細(xì)節(jié)信息的正確處理,這導(dǎo)致了性能瓶頸和預(yù)測(cè)結(jié)果中的模糊偽影。在本文中,我們提出了基于通道的注意力深度估計(jì)網(wǎng)絡(luò)(CADepth Net),該網(wǎng)絡(luò)具有兩個(gè)有效貢獻(xiàn):1)結(jié)構(gòu)感知模塊采用自注意機(jī)制來(lái)捕獲長(zhǎng)距離依賴性,并聚合通道維度中的辨別特征,顯式增強(qiáng)場(chǎng)景結(jié)構(gòu)的感知,獲得更好的場(chǎng)景理解和豐富的特征表示。2) 細(xì)節(jié)強(qiáng)調(diào)模塊重新校準(zhǔn)通道特征圖,并選擇性地強(qiáng)調(diào)信息特征,旨在突出關(guān)鍵的局部細(xì)節(jié)信息,并更有效地融合不同級(jí)別的特征,從而實(shí)現(xiàn)更精確、更清晰的深度預(yù)測(cè)。此外,廣泛的實(shí)驗(yàn)驗(yàn)證了我們方法的有效性,并表明我們的模型在KITTI基準(zhǔn)和Make3D數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的結(jié)果。
X-Distill: Improving Self-Supervised Monocular Depth via Cross-Task Distillation
24 Oct 2021
https://arxiv.org/abs/2110.12516v1
在本文中,我們提出了一種新的方法X-Distille,通過(guò)從語(yǔ)義分割到深度估計(jì)的跨任務(wù)知識(shí)提取來(lái)改進(jìn)單目深度的自監(jiān)督訓(xùn)練。更具體地說(shuō),在培訓(xùn)過(guò)程中,我們使用預(yù)訓(xùn)練的語(yǔ)義分割教師網(wǎng)絡(luò),并將其語(yǔ)義知識(shí)轉(zhuǎn)移到深度網(wǎng)絡(luò)。為了在兩個(gè)不同的視覺(jué)任務(wù)中實(shí)現(xiàn)這樣的知識(shí)提取,我們引入了一個(gè)可訓(xùn)練的小網(wǎng)絡(luò),該網(wǎng)絡(luò)將預(yù)測(cè)的深度圖轉(zhuǎn)換為語(yǔ)義分割圖,然后可以由教師網(wǎng)絡(luò)監(jiān)督。通過(guò)這種方式,這個(gè)小網(wǎng)絡(luò)能夠在訓(xùn)練期間從語(yǔ)義分割教師的監(jiān)督反向傳播到深度網(wǎng)絡(luò)。此外,由于語(yǔ)義分割中常用的對(duì)象類(lèi)不能直接轉(zhuǎn)移到深度,我們研究了對(duì)象的視覺(jué)和幾何特征,并設(shè)計(jì)了一種可以由兩個(gè)任務(wù)共享的新的分組方法。值得注意的是,我們的方法只修改了訓(xùn)練過(guò)程,并且在推理過(guò)程中不會(huì)產(chǎn)生額外的計(jì)算。我們廣泛評(píng)估了我們?cè)跇?biāo)準(zhǔn)KITTI基準(zhǔn)上提出的方法的有效性,并將其與最新的技術(shù)狀態(tài)進(jìn)行了比較。我們進(jìn)一步測(cè)試了我們?cè)贛ake3D上的方法的可推廣性。總體而言,結(jié)果表明,我們的方法顯著提高了深度估計(jì)精度,并優(yōu)于現(xiàn)有技術(shù)。
Self-Supervised Monocular Depth Estimation with Internal Feature Fusion
BMVC2021
https://github.com/brandleyzhou/diffnet????97 stars
https://arxiv.org/abs/2110.09482v3
用于深度估計(jì)的自監(jiān)督學(xué)習(xí)使用圖像序列中的幾何結(jié)構(gòu)進(jìn)行監(jiān)督,并顯示出有前景的結(jié)果。與許多計(jì)算機(jī)視覺(jué)任務(wù)一樣,深度網(wǎng)絡(luò)性能取決于從圖像中學(xué)習(xí)準(zhǔn)確的空間和語(yǔ)義表示的能力。因此,利用語(yǔ)義分割網(wǎng)絡(luò)進(jìn)行深度估計(jì)是很自然的。在這項(xiàng)工作中,基于一個(gè)成熟的語(yǔ)義分割網(wǎng)絡(luò)HRNet,我們提出了一個(gè)新的深度估計(jì)網(wǎng)絡(luò)DIFFNet,它可以在下采樣和上采樣過(guò)程中使用語(yǔ)義信息。通過(guò)應(yīng)用特征融合和注意力機(jī)制,我們提出的方法在KITTI基準(zhǔn)上優(yōu)于最先進(jìn)的單目深度估計(jì)方法。我們的方法在高分辨率訓(xùn)練數(shù)據(jù)上也顯示出更大的潛力。我們提出了一個(gè)額外的擴(kuò)展評(píng)估策略,通過(guò)建立一組具有挑戰(zhàn)性的案例,從標(biāo)準(zhǔn)基準(zhǔn)經(jīng)驗(yàn)得出。
Excavating the Potential Capacity of Self-Supervised Monocular Depth Estimation
ICCV 2021?
https://github.com/prstrive/EPCDepth
https://arxiv.org/abs/2109.12484v1
自監(jiān)督方法由于其巨大的潛力和較低的注釋成本,在單目深度估計(jì)中發(fā)揮著越來(lái)越重要的作用。為了彌補(bǔ)與監(jiān)督方法的差距,最近的工作利用了額外的約束,例如語(yǔ)義分割。然而,這些方法將不可避免地增加模型的負(fù)擔(dān)。在本文中,我們展示了理論和經(jīng)驗(yàn)證據(jù),表明可以在不增加成本的情況下挖掘自監(jiān)督單目深度估計(jì)的潛在容量。特別是,我們提出了(1)一種稱為數(shù)據(jù)嫁接的新數(shù)據(jù)增強(qiáng)方法,該方法迫使模型探索除垂直圖像位置之外的更多線索以推斷深度,設(shè)計(jì)用于賦予編碼器深度估計(jì)任務(wù)的專業(yè)化,并增強(qiáng)模型的表示能力。廣泛的實(shí)驗(yàn)表明,我們的貢獻(xiàn)可以在更少的計(jì)算開(kāi)銷(xiāo)的情況下為基線帶來(lái)顯著的性能改進(jìn),并且我們的模型EPCDepth超越了以前的最先進(jìn)的方法,即使是那些受到額外約束的方法。
CutDepth:Edge-aware Data Augmentation in Depth Estimation
https://arxiv.org/abs/2107.07684
在單目深度估計(jì)中很難大規(guī)模收集數(shù)據(jù),因?yàn)樵撊蝿?wù)需要同時(shí)采集RGB圖像和深度。因此,數(shù)據(jù)擴(kuò)充對(duì)這項(xiàng)任務(wù)很重要。然而,對(duì)于諸如單目深度估計(jì)之類(lèi)的任務(wù)的數(shù)據(jù)增強(qiáng)研究很少,其中轉(zhuǎn)換是逐像素執(zhí)行的。在本文中,我們提出了一種稱為CutDepth的數(shù)據(jù)增強(qiáng)方法。在CutDepth中,部分深度在訓(xùn)練期間粘貼到輸入圖像上。該方法在不破壞邊緣特征的情況下擴(kuò)展變化數(shù)據(jù)。實(shí)驗(yàn)客觀和主觀地表明,該方法優(yōu)于傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法。使用CutDepth可以提高估計(jì)精度,即使在遠(yuǎn)距離很少有訓(xùn)練數(shù)據(jù)。
Monocular Depth Estimation Using Laplacian Pyramid-Based Depth Residuals
Jan 2021
IEEE Transactions on Circuits and Systems for Video Technology
https://ieeexplore.ieee.org/document/9316778
https://github.com/tjqansthd/LapDepth-release
隨著通過(guò)深度神經(jīng)網(wǎng)絡(luò)生成模型的巨大成功,單目深度估計(jì)已經(jīng)通過(guò)利用各種編碼器-解碼器架構(gòu)被積極研究。然而,大多數(shù)以前方法中的解碼過(guò)程重復(fù)簡(jiǎn)單的上采樣操作,可能無(wú)法充分利用編碼良好的特征的潛在財(cái)產(chǎn)進(jìn)行單目深度估計(jì)。為了解決這個(gè)問(wèn)題,我們提出了一種簡(jiǎn)單但有效的方案,將拉普拉斯金字塔結(jié)合到解碼器架構(gòu)中。具體地,編碼特征被饋送到不同的流中,用于解碼深度殘差,深度殘差由拉普拉斯金字塔的分解定義,并且相應(yīng)的輸出被逐步組合以從粗尺度到細(xì)尺度重建最終深度圖。這對(duì)于精確估計(jì)深度邊界以及全局布局是相當(dāng)理想的。我們還建議將權(quán)重標(biāo)準(zhǔn)化應(yīng)用于解碼器架構(gòu)的預(yù)激活卷積塊,這極大地幫助改善梯度流,從而使優(yōu)化更容易。在各種室內(nèi)和室外環(huán)境下構(gòu)建的基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有模型相比,所提出的方法對(duì)于單目深度估計(jì)是有效的。代碼和模型可在以下網(wǎng)址公開(kāi)獲取:https://github.com/tjqansthd/LapDepth-release.
LeReS:學(xué)習(xí)從單個(gè)圖像恢復(fù)3D場(chǎng)景形狀
Learning to Recover 3D Scene Shape from a Single Image
CVPR2021
https://arxiv.org/abs/2012.09365
https://github.com/aim-uofa/AdelaiDepth
盡管在野外單目深度估計(jì)方面取得了重大進(jìn)展,但由于在混合數(shù)據(jù)深度預(yù)測(cè)訓(xùn)練中使用的移位不變重建損失導(dǎo)致的未知深度移位,以及可能的未知相機(jī)焦距,最近最先進(jìn)的方法無(wú)法用于恢復(fù)準(zhǔn)確的3D場(chǎng)景形狀。我們?cè)敿?xì)研究了這個(gè)問(wèn)題,并提出了一個(gè)兩階段框架,該框架首先預(yù)測(cè)未知尺度的深度和從單個(gè)單目圖像的偏移,然后使用3D點(diǎn)云編碼器預(yù)測(cè)缺失的深度偏移和焦距,從而使我們能夠恢復(fù)真實(shí)的3D場(chǎng)景形狀。此外,我們提出了圖像級(jí)歸一化回歸損失和基于正態(tài)的幾何損失,以增強(qiáng)在混合數(shù)據(jù)集上訓(xùn)練的深度預(yù)測(cè)模型。我們?cè)诰艂€(gè)不可見(jiàn)的數(shù)據(jù)集上測(cè)試了我們的深度模型,并在零樣本數(shù)據(jù)集泛化上實(shí)現(xiàn)了最先進(jìn)的性能。代碼位于:https://git.io/Depth
HR-Depth: High Resolution Self-Supervised Monocular Depth Estimation
14 Dec 2020?
https://github.com/shawLyu/HR-Depth
https://arxiv.org/abs/2012.07356v1
自監(jiān)督學(xué)習(xí)在單目深度估計(jì)中顯示出巨大的潛力,使用圖像序列作為唯一的監(jiān)督來(lái)源。盡管人們嘗試使用高分辨率圖像進(jìn)行深度估計(jì),但預(yù)測(cè)的準(zhǔn)確性并沒(méi)有顯著提高。在這項(xiàng)工作中,我們發(fā)現(xiàn)主要原因是大梯度區(qū)域中的深度估計(jì)不準(zhǔn)確,使得雙線性插值誤差隨著分辨率的增加而逐漸消失。為了在大梯度區(qū)域中獲得更精確的深度估計(jì),需要獲得具有空間和語(yǔ)義信息的高分辨率特征。因此,我們提出了一種改進(jìn)的DepthNet,即HR Depth,它有兩種有效的策略:(1)重新設(shè)計(jì)DepthNet中的跳躍連接,以獲得更好的高分辨率特征,HR深度在高分辨率和低分辨率下都以最小的參數(shù)超過(guò)了所有先前最先進(jìn)的(SoTA)方法。此外,以前的最先進(jìn)的方法基于相當(dāng)復(fù)雜和深度的網(wǎng)絡(luò),具有大量的參數(shù),這限制了它們的實(shí)際應(yīng)用。因此,我們還構(gòu)建了一個(gè)使用MobileNetV3作為編碼器的輕量級(jí)網(wǎng)絡(luò)。實(shí)驗(yàn)表明,輕量級(jí)網(wǎng)絡(luò)可以在只有20%的參數(shù)的情況下,在高分辨率下與許多大型模型(如Monodepth2)相媲美。所有代碼和型號(hào)將在https://github.com/shawLyu/HR-Depth.
On Deep Learning Techniques to Boost Monocular Depth Estimation for Autonomous Navigation
13 Oct 2020
https://arxiv.org/abs/2010.06626
推斷圖像的深度是計(jì)算機(jī)視覺(jué)領(lǐng)域中的一個(gè)基本逆問(wèn)題,因?yàn)樯疃刃畔⑹峭ㄟ^(guò)2D圖像獲得的,可以從觀察到的真實(shí)場(chǎng)景的無(wú)限可能性中生成。得益于卷積神經(jīng)網(wǎng)絡(luò)(CNN)在探索結(jié)構(gòu)特征和空間圖像信息方面的進(jìn)展,單圖像深度估計(jì)(SIDE)在科技創(chuàng)新領(lǐng)域中經(jīng)常被強(qiáng)調(diào),因?yàn)樵摳拍罹哂袑?shí)現(xiàn)成本低和對(duì)環(huán)境條件的魯棒性等優(yōu)點(diǎn)。在自動(dòng)駕駛汽車(chē)的背景下,最先進(jìn)的神經(jīng)網(wǎng)絡(luò)通過(guò)生成高質(zhì)量的深度圖來(lái)優(yōu)化SIDE任務(wù),這在不同地點(diǎn)的自動(dòng)導(dǎo)航過(guò)程中至關(guān)重要。然而,這樣的網(wǎng)絡(luò)通常由來(lái)自光探測(cè)和測(cè)距(LiDAR)激光掃描的稀疏且有噪聲的深度數(shù)據(jù)監(jiān)控,并且以高計(jì)算成本執(zhí)行,需要高性能的圖形處理單元(GPU)。因此,我們提出了一種新的輕量級(jí)和快速監(jiān)督的CNN架構(gòu),結(jié)合了新的特征提取模型,該模型專為真實(shí)世界的自主導(dǎo)航而設(shè)計(jì)。我們還引入了一個(gè)有效的曲面法線模塊,以及一個(gè)簡(jiǎn)單的幾何2.5D損失函數(shù),以解決SIDE問(wèn)題。我們還通過(guò)結(jié)合多種深度學(xué)習(xí)技術(shù)進(jìn)行創(chuàng)新,例如使用加密算法和其他語(yǔ)義、表面法線和深度信息來(lái)訓(xùn)練我們的框架。本工作中介紹的方法側(cè)重于室內(nèi)和室外環(huán)境中的機(jī)器人應(yīng)用,其結(jié)果在競(jìng)爭(zhēng)性和公開(kāi)可用的NYU Depth V2和KITTI Depth數(shù)據(jù)集上進(jìn)行了評(píng)估。
Feature-metric Loss for Self-supervised Learning of Depth and Egomotion
ECCV 2020
https://arxiv.org/abs/2007.10603v1
https://github.com/sconlyshootery/FeatDepth
光度損失被廣泛用于自監(jiān)督深度和自運(yùn)動(dòng)估計(jì)。然而,光度差異導(dǎo)致的損失景觀對(duì)于優(yōu)化來(lái)說(shuō)通常是有問(wèn)題的,這是由無(wú)紋理區(qū)域中的像素的高原景觀或低分辨像素的多個(gè)局部最小值造成的。在這項(xiàng)工作中,提出并定義了特征表示上的特征度量損失,其中特征表示也以自監(jiān)督的方式學(xué)習(xí),并通過(guò)一階導(dǎo)數(shù)和二階導(dǎo)數(shù)進(jìn)行正則化,以約束損失景觀以形成適當(dāng)?shù)氖諗颗璧?。通過(guò)可視化進(jìn)行的綜合實(shí)驗(yàn)和詳細(xì)分析證明了所提出的特征度量損失的有效性。特別是,我們的方法將KITTI的最先進(jìn)方法從0.885提高到0.925,通過(guò)并且顯著優(yōu)于先前的視覺(jué)里程測(cè)量方法。
Enforcing geometric constraints of virtual normal for depth prediction
ICCV 2019
https://github.com/aim-uofa/AdelaiDepth
https://paperswithcode.com/paper/enforcing-geometric-constraints-of-virtual
單目深度預(yù)測(cè)在理解3D場(chǎng)景幾何中起著至關(guān)重要的作用。盡管最近的方法在評(píng)估度量(如像素相對(duì)誤差)方面取得了令人印象深刻的進(jìn)展,但大多數(shù)方法忽略了3D空間中的幾何約束。在這項(xiàng)工作中,我們展示了高階3D幾何約束對(duì)深度預(yù)測(cè)的重要性。通過(guò)設(shè)計(jì)一個(gè)損失項(xiàng),該損失項(xiàng)實(shí)施一種簡(jiǎn)單的幾何約束,即由重建的3D空間中隨機(jī)采樣的三個(gè)點(diǎn)確定的虛擬法線方向,我們可以顯著提高深度預(yù)測(cè)精度。值得注意的是,這種預(yù)測(cè)深度足夠精確的副產(chǎn)品是,我們現(xiàn)在能夠直接從深度恢復(fù)場(chǎng)景的良好3D結(jié)構(gòu),例如點(diǎn)云和表面法線,消除了像以前那樣訓(xùn)練新子模型的必要性。在NYU Depth-V2和KITTI兩個(gè)基準(zhǔn)上的實(shí)驗(yàn)證明了我們方法的有效性和最先進(jìn)的性能。
Structure-Aware Residual Pyramid Network for Monocular Depth Estimation
IJCAI 2019
https://arxiv.org/abs/1907.06023
https://github.com/Xt-Chen/SARPN????????????82 stars
單目深度估計(jì)是場(chǎng)景理解的重要任務(wù)。復(fù)雜場(chǎng)景中對(duì)象和填充物的底層結(jié)構(gòu)對(duì)于恢復(fù)準(zhǔn)確且視覺(jué)上令人愉悅的深度圖至關(guān)重要。全局結(jié)構(gòu)傳達(dá)場(chǎng)景布局,而局部結(jié)構(gòu)反映形狀細(xì)節(jié)。最近開(kāi)發(fā)的基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法顯著提高了深度估計(jì)的性能。然而,它們中很少考慮復(fù)雜場(chǎng)景中的多尺度結(jié)構(gòu)。在本文中,我們提出了一種結(jié)構(gòu)感知?dú)埐罱鹱炙W(wǎng)絡(luò)(SARPN)來(lái)利用多尺度結(jié)構(gòu)進(jìn)行精確的深度預(yù)測(cè)。我們提出了一種殘差金字塔解碼器(RPD),它在上層表達(dá)全局場(chǎng)景結(jié)構(gòu)以表示布局,在下層表達(dá)局部結(jié)構(gòu)以表示形狀細(xì)節(jié)。在每一級(jí),我們提出了殘差細(xì)化模塊(RRM),該模塊預(yù)測(cè)殘差映射,以逐步在上層預(yù)測(cè)的較粗結(jié)構(gòu)上添加更精細(xì)的結(jié)構(gòu)。為了充分利用多尺度圖像特征,引入了自適應(yīng)密集特征融合(ADFF)模塊,該模塊自適應(yīng)地融合所有尺度的有效特征,以推斷每個(gè)尺度的結(jié)構(gòu)。在具有挑戰(zhàn)性的NYU深度v2數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,我們提出的方法在定性和定量評(píng)估方面都達(dá)到了最先進(jìn)的性能。該代碼位于https://github.com/Xt-Chen/SARPN.
Generating and Exploiting Probabilistic Monocular Depth Estimates
CVPR 2020
https://github.com/likesum/prdepth
https://arxiv.org/abs/1906.05739v2
除了從單個(gè)圖像進(jìn)行深度估計(jì)之外,單目線索在更廣泛的深度推斷應(yīng)用和設(shè)置中是有用的,例如當(dāng)人們可以利用其他可用的深度線索來(lái)提高準(zhǔn)確性時(shí)。目前,具有不同推理任務(wù)和深度線索組合的不同應(yīng)用程序是通過(guò)不同的專門(mén)網(wǎng)絡(luò)來(lái)解決的——針對(duì)每個(gè)應(yīng)用程序分別進(jìn)行訓(xùn)練。相反,我們提出了一種通用的任務(wù)不可知單目模型,該模型在給定輸入彩色圖像的情況下輸出場(chǎng)景深度上的概率分布,作為逐塊條件VAE輸出的樣本近似。我們表明,這種分布式輸出可以用于在不同的設(shè)置中實(shí)現(xiàn)各種推理任務(wù),而不需要為每個(gè)應(yīng)用程序重新訓(xùn)練。在一系列不同的應(yīng)用中(深度完成、用戶引導(dǎo)估計(jì)等),我們的通用模型產(chǎn)生了高精度的結(jié)果——與依賴于特定應(yīng)用網(wǎng)絡(luò)的最先進(jìn)方法相當(dāng)或超過(guò)。
Pattern-Affinitive Propagation across Depth, Surface Normal and Semantic Segmentation
CVPR 2019
https://arxiv.org/abs/1906.03525
在本文中,我們提出了一種新的模式仿射傳播(PAP)框架來(lái)聯(lián)合預(yù)測(cè)深度、表面法線和語(yǔ)義分割。其背后的動(dòng)機(jī)來(lái)自于統(tǒng)計(jì)觀察,即模式親和對(duì)在不同任務(wù)之間以及在任務(wù)內(nèi)頻繁重復(fù)。因此,我們可以進(jìn)行兩種類(lèi)型的傳播,跨任務(wù)傳播和特定于任務(wù)的傳播,以自適應(yīng)地傳播這些相似的模式。前者集成了跨任務(wù)關(guān)聯(lián)模式,以通過(guò)對(duì)非局部關(guān)系的計(jì)算來(lái)適應(yīng)其中的每個(gè)任務(wù)。接下來(lái),后者在特征空間中執(zhí)行迭代擴(kuò)散,使得跨任務(wù)親和性模式可以在任務(wù)內(nèi)廣泛傳播。因此,每項(xiàng)任務(wù)的學(xué)習(xí)都可以通過(guò)互補(bǔ)的任務(wù)級(jí)親和性來(lái)規(guī)范和促進(jìn)。大量實(shí)驗(yàn)證明了我們方法在聯(lián)合三項(xiàng)任務(wù)中的有效性和優(yōu)越性。同時(shí),我們?cè)谌齻€(gè)相關(guān)數(shù)據(jù)集(NYUD-v2、SUN-RGBD和KITTI)上取得了最先進(jìn)或有競(jìng)爭(zhēng)力的結(jié)果。
Monocular Depth Estimation Using Relative Depth Maps
CVPR 2019
https://openaccess.thecvf.com/content_CVPR_2019/html/Lee_Monocular_Depth_Estimation_Using_Relative_Depth_Maps_CVPR_2019_paper.html
我們提出了一種使用相對(duì)深度圖進(jìn)行單目深度估計(jì)的新算法。首先,使用卷積神經(jīng)網(wǎng)絡(luò),我們估計(jì)不同尺度下成對(duì)區(qū)域之間的相對(duì)深度以及普通深度。其次,我們基于成對(duì)比較矩陣的秩1特性,從選擇性估計(jì)的數(shù)據(jù)中恢復(fù)相對(duì)深度圖。第三,我們將普通深度圖和相對(duì)深度圖分解為組件,并對(duì)它們進(jìn)行優(yōu)化重組,以重建最終的深度圖。實(shí)驗(yàn)結(jié)果表明,所提出的算法提供了最先進(jìn)的深度估計(jì)性能。
SharpNet: Fast and Accurate Recovery of Occluding Contours in Monocular Depth Estimation
21 May 2019
https://github.com/MichaelRamamonjisoa/SharpNet????123 stars
https://arxiv.org/abs/1905.08598
我們介紹了SharpNet,這是一種預(yù)測(cè)輸入彩色圖像的精確深度圖的方法,特別注意遮擋輪廓的重建:遮擋輪廓是對(duì)象識(shí)別和增強(qiáng)現(xiàn)實(shí)中虛擬對(duì)象真實(shí)集成的重要線索,但它們也很難準(zhǔn)確重建。例如,它們是基于立體的重建方法的挑戰(zhàn),因?yàn)檎趽踺喞車(chē)狞c(diǎn)僅在一幅圖像中可見(jiàn)。受最近引入正態(tài)估計(jì)以改進(jìn)深度預(yù)測(cè)的方法的啟發(fā),我們引入了一個(gè)約束深度和遮擋輪廓預(yù)測(cè)的新術(shù)語(yǔ)。由于真值深度很難沿著遮擋輪廓以像素完美精度獲得,我們使用合成圖像進(jìn)行訓(xùn)練,然后對(duì)真實(shí)數(shù)據(jù)進(jìn)行微調(diào)。我們?cè)诰哂刑魬?zhàn)性的NYUv2深度數(shù)據(jù)集上演示了我們的方法,并表明我們的方法在遮擋輪廓上優(yōu)于最先進(jìn)的方法,同時(shí)在其余圖像上的表現(xiàn)與最新的方法相當(dāng)。它沿著遮擋輪廓的準(zhǔn)確度實(shí)際上比基于結(jié)構(gòu)光的深度相機(jī)獲得的“地面真相”要好。我們通過(guò)引入基于NYUv2深度的新基準(zhǔn)來(lái)評(píng)估單目重建中的咬合輪廓,這是我們的第二個(gè)貢獻(xiàn)。
Attention-based Context Aggregation Network for Monocular Depth Estimation
29 Jan 2019
https://github.com/miraiaroha/ACAN
https://arxiv.org/abs/1901.10137
深度估計(jì)是一項(xiàng)傳統(tǒng)的計(jì)算機(jī)視覺(jué)任務(wù),它在理解3D場(chǎng)景幾何中起著至關(guān)重要的作用。最近,基于深度卷積神經(jīng)網(wǎng)絡(luò)的方法在單目深度估計(jì)領(lǐng)域取得了很有希望的結(jié)果。具體而言,結(jié)合了由基于擴(kuò)展卷積的塊(萎縮空間金字塔池,ASPP)提取的多尺度特征的框架在密集標(biāo)記任務(wù)中獲得了顯著改進(jìn)。然而,離散化和預(yù)定義的膨脹率不能捕獲在不同場(chǎng)景中不同的連續(xù)上下文信息,并且容易在深度估計(jì)中引入網(wǎng)格偽影。在本文中,我們提出了一種基于注意力的上下文聚合網(wǎng)絡(luò)(ACAN)來(lái)解決這些問(wèn)題?;谧宰⒁饽P停珹CAN自適應(yīng)地學(xué)習(xí)像素之間的任務(wù)特定相似性,以對(duì)上下文信息進(jìn)行建模。首先,我們將單目深度估計(jì)重新定義為密集標(biāo)記多類(lèi)分類(lèi)問(wèn)題。然后,我們提出了一種軟序數(shù)推理來(lái)將預(yù)測(cè)概率轉(zhuǎn)換為連續(xù)深度值,這可以減少離散化誤差(RMSE減少約1%)。第二,所提出的ACAN聚合圖像級(jí)和像素級(jí)上下文信息用于深度估計(jì),其中前者表示整個(gè)圖像的統(tǒng)計(jì)特征,后者提取每個(gè)像素的長(zhǎng)距離空間相關(guān)性。第三,為了進(jìn)一步減少RGB圖像和深度圖之間的不一致性,我們構(gòu)造了注意力損失以最小化它們的信息熵。我們?cè)诠矄文可疃裙烙?jì)基準(zhǔn)數(shù)據(jù)集(包括NYU depth V2、KITTI)上進(jìn)行評(píng)估。實(shí)驗(yàn)證明了我們提出的ACAN的優(yōu)越性,并取得了與現(xiàn)有技術(shù)相比具有競(jìng)爭(zhēng)力的結(jié)果。
High Quality Monocular Depth Estimation via Transfer Learning
31 Dec 2018
https://arxiv.org/abs/1812.11941
https://github.com/ialhashim/DenseDepth
https://github.com/alinstein/Depth_estimation
在包括場(chǎng)景理解和重建在內(nèi)的許多應(yīng)用中,從圖像中精確地估計(jì)深度是一項(xiàng)基本任務(wù)。現(xiàn)有的深度估計(jì)解決方案通常產(chǎn)生低分辨率的模糊近似。本文提出了一種卷積神經(jīng)網(wǎng)絡(luò),用于在給定單個(gè)RGB圖像的情況下,借助轉(zhuǎn)移學(xué)習(xí)來(lái)計(jì)算高分辨率深度圖。遵循標(biāo)準(zhǔn)的編碼器-解碼器架構(gòu),我們?cè)诔跏蓟幋a器時(shí)利用使用高性能預(yù)訓(xùn)練網(wǎng)絡(luò)提取的特征,以及增強(qiáng)和訓(xùn)練策略,從而獲得更準(zhǔn)確的結(jié)果。我們展示了即使對(duì)于非常簡(jiǎn)單的解碼器,我們的方法也能夠?qū)崿F(xiàn)詳細(xì)的高分辨率深度圖。我們的網(wǎng)絡(luò)具有較少的參數(shù)和訓(xùn)練迭代,在兩個(gè)數(shù)據(jù)集上的性能優(yōu)于最先進(jìn)的技術(shù),并且產(chǎn)生了質(zhì)量更好的結(jié)果,可以更忠實(shí)地捕捉對(duì)象邊界。公開(kāi)提供代碼和相應(yīng)的預(yù)訓(xùn)練權(quán)重。
Fast Neural Architecture Search of Compact Semantic Segmentation Models via Auxiliary Cells
CVPR 2019
https://arxiv.org/abs/1810.10804v3
https://github.com/drsleep/nas-segm-pytorch
https://github.com/mindspore-ai/models/tree/master/research/cv/adelaide_ea
為特定任務(wù)量身定制的神經(jīng)網(wǎng)絡(luò)架構(gòu)的自動(dòng)化設(shè)計(jì)是一個(gè)非常有前途的,但本質(zhì)上很難探索的途徑。雖然該領(lǐng)域的大多數(shù)結(jié)果都是在圖像分類(lèi)和語(yǔ)言建模問(wèn)題上取得的,但這里我們專注于密集的每像素任務(wù),特別是使用完全卷積網(wǎng)絡(luò)的語(yǔ)義圖像分割。與上述領(lǐng)域不同,完全卷積網(wǎng)絡(luò)的設(shè)計(jì)選擇需要進(jìn)行幾項(xiàng)改變,從需要使用的操作類(lèi)型(例如,擴(kuò)展卷積)到解決更困難的優(yōu)化問(wèn)題。在這項(xiàng)工作中,我們特別感興趣的是尋找能夠使用有限資源實(shí)時(shí)運(yùn)行的高性能緊湊分割架構(gòu)。為了實(shí)現(xiàn)這一點(diǎn),我們有意在訓(xùn)練期間通過(guò)一組輔助單元過(guò)度參數(shù)化架構(gòu),這些輔助單元提供中間監(jiān)控信號(hào),并且可以在評(píng)估階段省略。輔助單元的設(shè)計(jì)由控制器發(fā)出,該控制器是一個(gè)使用強(qiáng)化學(xué)習(xí)訓(xùn)練的固定結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)。更重要的是,我們演示了如何在有限的時(shí)間和計(jì)算預(yù)算內(nèi)高效地搜索這些架構(gòu)。特別是,我們依賴于一種漸進(jìn)式策略,該策略終止了沒(méi)有前途的體系結(jié)構(gòu)的進(jìn)一步訓(xùn)練,并依賴于Polyak平均與知識(shí)蒸餾相結(jié)合來(lái)加速收斂。從數(shù)量上講,在8個(gè)GPU天內(nèi),我們的方法發(fā)現(xiàn)了一組在語(yǔ)義分割、姿態(tài)估計(jì)和深度預(yù)測(cè)任務(wù)上與最先進(jìn)的緊湊模型相比性能相當(dāng)?shù)募軜?gòu)。代碼將在此處提供:https://github.com/drsleep/nas-segm-pytorch
用于單目深度估計(jì)的深度序列回歸網(wǎng)絡(luò)
Deep Ordinal Regression Network for Monocular Depth Estimation
CVPR 2018
https://github.com/hufu6371/DORN
https://arxiv.org/abs/1806.02446
https://paperswithcode.com/paper/deep-ordinal-regression-network-for-monocular
單目深度估計(jì)是一個(gè)不適定問(wèn)題,它在理解3D場(chǎng)景幾何中起著至關(guān)重要的作用。通過(guò)從深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)中探索圖像級(jí)信息和分層特征,最近的方法得到了顯著的改進(jìn)。這些方法將深度估計(jì)建模為回歸問(wèn)題,并通過(guò)最小化均方誤差來(lái)訓(xùn)練回歸網(wǎng)絡(luò),均方誤差存在收斂速度慢和局部解不令人滿意的問(wèn)題。此外,現(xiàn)有的深度估計(jì)網(wǎng)絡(luò)使用重復(fù)的空間池操作,導(dǎo)致不期望的低分辨率特征圖。為了獲得高分辨率深度圖,需要跳連或多層反卷積網(wǎng)絡(luò),這會(huì)使網(wǎng)絡(luò)訓(xùn)練復(fù)雜化,并消耗更多的計(jì)算。為了消除或至少在很大程度上減少這些問(wèn)題,我們引入了間距增加離散化(SID)策略來(lái)離散化深度,并將深度網(wǎng)絡(luò)學(xué)習(xí)重新定義為有序回歸問(wèn)題。通過(guò)使用普通回歸損失訓(xùn)練網(wǎng)絡(luò),我們的方法實(shí)現(xiàn)了更高的精度和更快的同步收斂。此外,我們采用了多尺度網(wǎng)絡(luò)結(jié)構(gòu),避免了不必要的空間池,并并行捕獲多尺度信息。本文中描述的方法在四個(gè)具有挑戰(zhàn)性的基準(zhǔn)上取得了最先進(jìn)的結(jié)果,即KITTI[17]、ScanNet[9]、Make3D[50]和NYU Depth v2[42],并贏得了2018年穩(wěn)健視覺(jué)挑戰(zhàn)賽的一等獎(jiǎng)。代碼已在以下網(wǎng)址提供:https://github.com/hufu6371/DORN.
Revisiting Single Image Depth Estimation: Toward Higher Resolution Maps with Accurate Object Boundaries
23 Mar 2018
https://arxiv.org/abs/1803.08673v2
https://github.com/JunjH/Revisiting_Single_Depth_Estimation
https://github.com/Xt-Chen/SARPN
本文研究了單圖像深度估計(jì)問(wèn)題。卷積神經(jīng)網(wǎng)絡(luò)(CNN)的應(yīng)用最近在這一問(wèn)題的研究中取得了重大進(jìn)展。然而,大多數(shù)現(xiàn)有方法在估計(jì)的深度圖中存在空間分辨率的損失;典型的癥狀是對(duì)象邊界的扭曲和模糊重建。在這篇論文中,為了更精確地估計(jì),重點(diǎn)注意具有更高空間分辨率的深度圖,我們對(duì)現(xiàn)有方法提出了兩個(gè)改進(jìn)。一個(gè)是關(guān)于融合在不同尺度上提取的特征的策略,為此我們提出了一種改進(jìn)的網(wǎng)絡(luò)架構(gòu),包括四個(gè)模塊:編碼器、解碼器、多尺度特征融合模塊和細(xì)化模塊。另一個(gè)是用于測(cè)量訓(xùn)練中使用的推斷誤差的損失函數(shù)。我們表明,分別測(cè)量深度、梯度和表面法線誤差的三個(gè)損失項(xiàng)有助于以互補(bǔ)的方式提高精度。實(shí)驗(yàn)結(jié)果表明,這兩種改進(jìn)能夠獲得比現(xiàn)有技術(shù)更高的精度,現(xiàn)有技術(shù)通過(guò)更精細(xì)的分辨率重建(例如,使用小對(duì)象和對(duì)象邊界)來(lái)實(shí)現(xiàn)。