Learning to Relate Depth and Semantics for Unsupervised Domain Adaptation
https://arxiv.org/abs/2105.07830
https://github.com/susaha/ctrl-uda
我們提出了一種在無(wú)監(jiān)督域自適應(yīng)(UDA)設(shè)置中編碼視覺(jué)任務(wù)關(guān)系以提高模型性能的方法。語(yǔ)義分割和單目深度估計(jì)被證明是互補(bǔ)的任務(wù);在多任務(wù)學(xué)習(xí)環(huán)境中,對(duì)它們之間的關(guān)系進(jìn)行適當(dāng)編碼可以進(jìn)一步提高兩項(xiàng)任務(wù)的性能。基于這一觀察,我們提出了一種新的跨任務(wù)關(guān)系層(CTRL),它編碼語(yǔ)義和深度預(yù)測(cè)之間的任務(wù)依賴(lài)關(guān)系。為了捕捉跨任務(wù)關(guān)系,我們提出了一種包含任務(wù)特定和跨任務(wù)細(xì)化頭部的神經(jīng)網(wǎng)絡(luò)架構(gòu)。此外,我們提出了一種迭代自學(xué)習(xí)(ISL)訓(xùn)練方案,該方案利用語(yǔ)義偽標(biāo)簽來(lái)提供對(duì)目標(biāo)域的額外監(jiān)督。我們通過(guò)實(shí)驗(yàn)觀察到兩項(xiàng)任務(wù)的性能都有所改善,因?yàn)檫@些任務(wù)中存在的補(bǔ)充信息被更好地捕獲。具體而言,我們表明:(1)當(dāng)所有任務(wù)互補(bǔ)且相互依賴(lài)時(shí),我們的方法提高了所有任務(wù)的性能;(2) CTRL有助于在具有挑戰(zhàn)性的UDA設(shè)置中提高語(yǔ)義分割和深度估計(jì)任務(wù)的性能;(3) 所提出的ISL訓(xùn)練方案進(jìn)一步提高了語(yǔ)義分割性能。此https URL提供了實(shí)現(xiàn)。




MultiMAE: Multi-modal Multi-task Masked
https://multimae.epfl.ch/
https://arxiv.org/abs/2204.01678
我們提出了一種稱(chēng)為多模態(tài)多任務(wù)掩碼自動(dòng)編碼器(MultiMAE)的預(yù)訓(xùn)練策略。它與標(biāo)準(zhǔn)掩碼自動(dòng)編碼在兩個(gè)關(guān)鍵方面有所不同:I)它可以選擇性地接受輸入中除了RGB圖像之外的其他形式的信息(因此是“多模式”),以及II)其訓(xùn)練目標(biāo)相應(yīng)地包括預(yù)測(cè)RGB圖像以外的多個(gè)輸出(因此是多任務(wù)”)。
我們利用掩蔽(跨圖像塊和輸入模態(tài))使訓(xùn)練MultiMAE易于處理,并確??缒B(tài)預(yù)測(cè)編碼確實(shí)由網(wǎng)絡(luò)學(xué)習(xí)。我們表明,這種預(yù)訓(xùn)練策略導(dǎo)致了一個(gè)靈活、簡(jiǎn)單和高效的框架,并改善了向下游任務(wù)的轉(zhuǎn)移結(jié)果。特別是,當(dāng)除了RGB圖像之外的附加信息可用時(shí),或者當(dāng)除了RGB之外的信息不可用時(shí),可以靈活地使用相同的精確預(yù)訓(xùn)練網(wǎng)絡(luò)-在所有配置中,都會(huì)產(chǎn)生與基線相比具有競(jìng)爭(zhēng)力或明顯更好的結(jié)果。為了避免需要具有多個(gè)模態(tài)和任務(wù)的訓(xùn)練數(shù)據(jù)集,我們完全使用偽標(biāo)記來(lái)訓(xùn)練MultiMAE,這使得該框架廣泛適用于任何RGB數(shù)據(jù)集。
實(shí)驗(yàn)在多個(gè)轉(zhuǎn)移任務(wù)(圖像分類(lèi)、語(yǔ)義分割、深度估計(jì))和數(shù)據(jù)集(ImageNet、ADE20K、Taskonomy、Hypersim、NYUv2)上進(jìn)行。結(jié)果表明,該模型在跨模式/任務(wù)預(yù)測(cè)編碼和傳輸中具有令人印象深刻的能力。

Semi-supervised Multi-task Learning for Semantics and Depth
https://arxiv.org/pdf/2110.07197.pdf
多任務(wù)學(xué)習(xí)(MTL)旨在通過(guò)在相關(guān)任務(wù)之間共享表示來(lái)增強(qiáng)模型泛化,以獲得更好的性能。典型的MTL方法與所有任務(wù)的大量地面真相同時(shí)進(jìn)行聯(lián)合訓(xùn)練。然而,一個(gè)數(shù)據(jù)集可能不包含每個(gè)感興趣任務(wù)的注釋。為了解決這個(gè)問(wèn)題,我們提出了半監(jiān)督多任務(wù)學(xué)習(xí)(SemiMTL)方法,以利用來(lái)自不同數(shù)據(jù)集的可用監(jiān)督信號(hào),特別是用于語(yǔ)義分割和深度估計(jì)任務(wù)。為此,我們?cè)诎氡O(jiān)督訓(xùn)練中設(shè)計(jì)了一種對(duì)抗性學(xué)習(xí)方案,通過(guò)利用未標(biāo)記的數(shù)據(jù)同時(shí)優(yōu)化所有任務(wù)分支,并使用部分注釋完成跨數(shù)據(jù)集的所有任務(wù)。我們進(jìn)一步提出了一種具有不同對(duì)齊公式的域感知鑒別器結(jié)構(gòu),以緩解數(shù)據(jù)集之間的域差異問(wèn)題。最后,我們證明了所提出的方法在具有挑戰(zhàn)性的街景和遙感基準(zhǔn)上跨不同數(shù)據(jù)集學(xué)習(xí)的有效性。



PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmentation (CVPR2022)
https://arxiv.org/abs/2206.00468
https://github.com/NaiyuGao/PanopticDepth
本文提出了一種統(tǒng)一的深度感知全景分割(DPS)框架,該框架旨在從單個(gè)圖像中重建具有實(shí)例級(jí)語(yǔ)義的三維場(chǎng)景。先前的工作通過(guò)簡(jiǎn)單地將密集深度回歸頭添加到全景分割(PS)網(wǎng)絡(luò)來(lái)解決這個(gè)問(wèn)題,從而產(chǎn)生兩個(gè)獨(dú)立的任務(wù)分支。這忽略了這兩個(gè)任務(wù)之間的互惠關(guān)系,因此無(wú)法利用方便的實(shí)例級(jí)語(yǔ)義線索來(lái)提高深度準(zhǔn)確性,同時(shí)也無(wú)法生成次優(yōu)深度圖。為了克服這些限制,我們通過(guò)將動(dòng)態(tài)卷積技術(shù)應(yīng)用于PS和深度預(yù)測(cè)任務(wù),提出了DPS任務(wù)的統(tǒng)一框架。具體來(lái)說(shuō),我們不是一次預(yù)測(cè)所有像素的深度,而是生成特定于實(shí)例的內(nèi)核來(lái)預(yù)測(cè)每個(gè)實(shí)例的深度和分割掩碼。此外,利用實(shí)例級(jí)深度估計(jì)方案,我們添加了額外的實(shí)例級(jí)深度線索,以幫助通過(guò)新的深度損失來(lái)監(jiān)督深度學(xué)習(xí)。在Cityscapes DPS和SemKITTI DPS上的大量實(shí)驗(yàn)表明了我們方法的有效性和前景。我們希望我們的DPS統(tǒng)一解決方案能夠引領(lǐng)這一領(lǐng)域的新范式。此https URL提供代碼。


MulT: An End-to-End Multitask Learning Transformer
https://arxiv.org/abs/2205.08303
https://ivrl.github.io/MulT/
https://github.com/IVRL/MulT
我們提出了一個(gè)名為MulT的端到端多任務(wù)學(xué)習(xí)轉(zhuǎn)換器框架,以同時(shí)學(xué)習(xí)多個(gè)高級(jí)視覺(jué)任務(wù),包括深度估計(jì)、語(yǔ)義分割、重新加載、表面法線估計(jì)、2D關(guān)鍵點(diǎn)檢測(cè)和邊緣檢測(cè)?;赟win變換器模型,我們的框架將輸入圖像編碼為共享表示,并使用基于任務(wù)特定變換器的解碼器頭對(duì)每個(gè)視覺(jué)任務(wù)進(jìn)行預(yù)測(cè)。我們方法的核心是一個(gè)共享注意力機(jī)制,它對(duì)任務(wù)之間的依賴(lài)關(guān)系進(jìn)行建模。我們?cè)趲讉€(gè)多任務(wù)基準(zhǔn)上評(píng)估了我們的模型,表明我們的MulT框架優(yōu)于最先進(jìn)的多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)模型和所有相應(yīng)的單任務(wù)變換器模型。我們的實(shí)驗(yàn)進(jìn)一步強(qiáng)調(diào)了在所有任務(wù)中共享注意力的好處,并證明了我們的MulT模型是魯棒的,并且可以很好地推廣到新的領(lǐng)域。我們的項(xiàng)目網(wǎng)站位于https URL。




Composite Learning for Robust and Effective Dense Predictions
https://arxiv.org/abs/2210.07239
多任務(wù)學(xué)習(xí)通過(guò)與輔助任務(wù)聯(lián)合優(yōu)化目標(biāo)任務(wù),可以更好地對(duì)目標(biāo)任務(wù)進(jìn)行模型泛化。然而,當(dāng)前的實(shí)踐需要對(duì)輔助任務(wù)進(jìn)行額外的標(biāo)記工作,同時(shí)不能保證更好的模型性能。在本文中,我們發(fā)現(xiàn),聯(lián)合訓(xùn)練密集預(yù)測(cè)(目標(biāo))任務(wù)和自監(jiān)督(輔助)任務(wù)可以一致地提高目標(biāo)任務(wù)的性能,同時(shí)消除對(duì)輔助任務(wù)的標(biāo)記需求。我們將這種聯(lián)合培訓(xùn)稱(chēng)為復(fù)合學(xué)習(xí)(CompL)。CompL在單目深度估計(jì)、語(yǔ)義分割和邊界檢測(cè)上的實(shí)驗(yàn)表明,在完全和部分標(biāo)記的數(shù)據(jù)集中,性能得到了一致的改善。對(duì)深度估計(jì)的進(jìn)一步分析表明,具有自我監(jiān)督的聯(lián)合訓(xùn)練優(yōu)于大多數(shù)標(biāo)記的輔助任務(wù)。我們還發(fā)現(xiàn),當(dāng)在新的領(lǐng)域中評(píng)估模型時(shí),CompL可以提高模型的魯棒性。這些結(jié)果證明了自我監(jiān)督作為輔助任務(wù)的好處,并為未來(lái)的多任務(wù)學(xué)習(xí)研究建立了一個(gè)新的調(diào)查軸,即設(shè)計(jì)新的任務(wù)特定的自我監(jiān)督方法。


Multi-Task Meta Learning: learn how to adapt to unseen tasks
https://arxiv.org/abs/2210.06989
這項(xiàng)工作提出了多任務(wù)元學(xué)習(xí)(MTML),將多任務(wù)學(xué)習(xí)(MTL)和元學(xué)習(xí)兩種學(xué)習(xí)范式結(jié)合起來(lái),以將兩個(gè)世界中的最好的結(jié)合在一起。特別是,它專(zhuān)注于多個(gè)任務(wù)的同時(shí)學(xué)習(xí),這是MTL的一個(gè)要素,并以較少的數(shù)據(jù)迅速適應(yīng)新任務(wù),這是元學(xué)習(xí)的質(zhì)量。需要強(qiáng)調(diào)的是,我們關(guān)注的是不同類(lèi)型的異構(gòu)任務(wù),而不是通常認(rèn)為的同質(zhì)任務(wù)(例如,如果所有任務(wù)都是分類(lèi)任務(wù)或如果所有任務(wù)是回歸任務(wù))。基本思想是訓(xùn)練一個(gè)多任務(wù)模型,這樣當(dāng)引入一個(gè)不可見(jiàn)的任務(wù)時(shí),它可以以更少的步驟進(jìn)行學(xué)習(xí),同時(shí)在新任務(wù)或MTL中提供至少與傳統(tǒng)的單任務(wù)學(xué)習(xí)一樣好的性能。通過(guò)進(jìn)行各種實(shí)驗(yàn),我們?cè)趦蓚€(gè)數(shù)據(jù)集和四個(gè)任務(wù)上演示了這種范式:NYU-v2和任務(wù)組數(shù)據(jù)集,我們對(duì)其執(zhí)行語(yǔ)義分割、深度估計(jì)、表面法線估計(jì)和邊緣檢測(cè)。MTML在大多數(shù)任務(wù)中都取得了最先進(jìn)的結(jié)果。盡管語(yǔ)義分割在數(shù)量上受到影響,但我們的MTML方法學(xué)習(xí)識(shí)別任務(wù)組數(shù)據(jù)集的偽標(biāo)記基本事實(shí)中缺少的分割類(lèi)。




Improving Semi-Supervised and Domain-Adaptive Semantic Segmentation with Self-Supervised Depth Estimation
https://arxiv.org/abs/2108.12545
https://github.com/lhoyer/improving_segmentation_with_selfsupervised_depth (216 Stars)
CVPR21
為語(yǔ)義分割訓(xùn)練深度網(wǎng)絡(luò)需要大量標(biāo)記的訓(xùn)練數(shù)據(jù),這在實(shí)踐中是一個(gè)主要挑戰(zhàn),因?yàn)闃?biāo)記分割掩碼是一個(gè)高度勞動(dòng)密集的過(guò)程。為了解決這個(gè)問(wèn)題,我們提出了一種半監(jiān)督和域自適應(yīng)語(yǔ)義分割框架,該框架通過(guò)僅在未標(biāo)記圖像序列上訓(xùn)練的自監(jiān)督單目深度估計(jì)(SDE)來(lái)增強(qiáng)。
特別是,我們?cè)谡麄€(gè)學(xué)習(xí)框架中全面利用SDE作為輔助任務(wù):首先,我們基于SDE和語(yǔ)義分割之間的樣本多樣性和難度的相關(guān)性,自動(dòng)選擇要注釋的最有用的樣本用于語(yǔ)義分割。其次,我們通過(guò)使用場(chǎng)景的幾何結(jié)構(gòu)混合圖像和標(biāo)簽來(lái)實(shí)現(xiàn)強(qiáng)大的數(shù)據(jù)增強(qiáng)。第三,我們通過(guò)轉(zhuǎn)移和多任務(wù)學(xué)習(xí),將SDE過(guò)程中學(xué)習(xí)到的特征中的知識(shí)轉(zhuǎn)移到語(yǔ)義分割。第四,我們利用交叉域深度混合和匹配幾何采樣的附加標(biāo)記合成數(shù)據(jù)來(lái)對(duì)齊合成數(shù)據(jù)和真實(shí)數(shù)據(jù)。
我們?cè)贑ityscapes數(shù)據(jù)集上驗(yàn)證了所提出的模型,其中所有四個(gè)貢獻(xiàn)都顯示了顯著的性能提高,并在半監(jiān)督語(yǔ)義分割和半監(jiān)督域自適應(yīng)方面獲得了最先進(jìn)的結(jié)果。特別是,只有1/30的Cityscapes標(biāo)簽,我們的方法實(shí)現(xiàn)了92%的完全監(jiān)督基線性能,甚至在利用GTA的額外數(shù)據(jù)時(shí)達(dá)到了97%。源代碼位于此https URL。









Instance-Level Task Parameters: A Robust Multi-task Weighting Framework
https://arxiv.org/pdf/2106.06129.pdf
最近的研究表明,深度神經(jīng)網(wǎng)絡(luò)通過(guò)學(xué)習(xí)多個(gè)相關(guān)任務(wù)的共享表示而受益于多任務(wù)學(xué)習(xí)。然而,這種系統(tǒng)的性能取決于訓(xùn)練期間所涉及的各種損失之間的相對(duì)權(quán)重。先前關(guān)于損失加權(quán)方案的工作假設(shè),對(duì)于所有任務(wù)來(lái)說(shuō),實(shí)例都同樣容易或困難。為了打破這一假設(shè),我們讓訓(xùn)練過(guò)程為數(shù)據(jù)集中的每個(gè)實(shí)例指定任務(wù)的最佳權(quán)重。更具體地說(shuō),我們?yōu)閿?shù)據(jù)集中的每個(gè)實(shí)例配備了一組可學(xué)習(xí)的參數(shù)(實(shí)例級(jí)任務(wù)參數(shù)),其中基數(shù)等于模型學(xué)習(xí)的任務(wù)數(shù)。這些參數(shù)為實(shí)例的每個(gè)任務(wù)的權(quán)重建模。它們通過(guò)梯度下降進(jìn)行更新,不需要手工制定規(guī)則。我們?cè)赟URREAL和CityScapes數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn),用于人體形狀和姿勢(shì)估計(jì)、深度估計(jì)和語(yǔ)義分割任務(wù)。在這些任務(wù)中,我們的方法優(yōu)于最近的動(dòng)態(tài)損失加權(quán)方法,例如在SURREAL上減少8.97%的表面估計(jì)誤差。當(dāng)應(yīng)用于一個(gè)或多個(gè)任務(wù)可能具有噪聲注釋的數(shù)據(jù)集時(shí),所提出的方法學(xué)習(xí)對(duì)給定任務(wù)的干凈標(biāo)簽的學(xué)習(xí)進(jìn)行優(yōu)先級(jí)排序,例如將表面估計(jì)誤差減少高達(dá)60%。我們還表明,我們可以可靠地檢測(cè)給定任務(wù)的損壞標(biāo)簽,作為學(xué)習(xí)到的實(shí)例級(jí)任務(wù)參數(shù)的副產(chǎn)品。




Cross-task Attention Mechanism for Dense Multi-task Learning
https://arxiv.org/abs/2206.08927
https://github.com/astra-vision/DenseMTL
多任務(wù)學(xué)習(xí)最近已成為全面理解復(fù)雜場(chǎng)景的一個(gè)有前途的解決方案。具有適當(dāng)設(shè)計(jì)的多任務(wù)模型不僅具有記憶效率,而且有利于在任務(wù)之間交換互補(bǔ)信號(hào)。在這項(xiàng)工作中,我們共同解決了二維語(yǔ)義分割和兩個(gè)與幾何相關(guān)的任務(wù),即密集深度、表面法線估計(jì)以及邊緣估計(jì),它們?cè)谑覂?nèi)和室外數(shù)據(jù)集上顯示了它們的優(yōu)勢(shì)。我們提出了一種新的多任務(wù)學(xué)習(xí)架構(gòu),該架構(gòu)通過(guò)相關(guān)性引導(dǎo)的注意力和自我注意力來(lái)利用成對(duì)的跨任務(wù)交換,以增強(qiáng)所有任務(wù)的平均表示學(xué)習(xí)。我們?cè)诳紤]三種多任務(wù)設(shè)置的情況下進(jìn)行了廣泛的實(shí)驗(yàn),顯示了我們的建議與綜合基準(zhǔn)和實(shí)際基準(zhǔn)中的競(jìng)爭(zhēng)基準(zhǔn)相比的優(yōu)勢(shì)。我們還將我們的方法擴(kuò)展到新的多任務(wù)無(wú)監(jiān)督域自適應(yīng)設(shè)置。我們的代碼可從https URL獲取。


Which Tasks Should Be Learned Together in Multi-task Learning?
ICML 2020
在MulT中是baseline
https://arxiv.org/abs/1905.07553
http://taskgrouping.stanford.edu/
許多計(jì)算機(jī)視覺(jué)應(yīng)用需要實(shí)時(shí)解決多個(gè)任務(wù)。可以訓(xùn)練神經(jīng)網(wǎng)絡(luò)以使用多任務(wù)學(xué)習(xí)同時(shí)解決多個(gè)任務(wù)。這可以節(jié)省推理時(shí)間的計(jì)算,因?yàn)橹恍枰u(píng)估單個(gè)網(wǎng)絡(luò)。不幸的是,這通常會(huì)導(dǎo)致整體表現(xiàn)不佳,因?yàn)槿蝿?wù)目標(biāo)可能會(huì)相互競(jìng)爭(zhēng),這就提出了一個(gè)問(wèn)題:當(dāng)采用多任務(wù)學(xué)習(xí)時(shí),哪些任務(wù)應(yīng)該和不應(yīng)該在一個(gè)網(wǎng)絡(luò)中一起學(xué)習(xí)?我們研究了幾種不同學(xué)習(xí)環(huán)境下的任務(wù)協(xié)作和競(jìng)爭(zhēng),并提出了一種將任務(wù)分配給少數(shù)神經(jīng)網(wǎng)絡(luò)的框架,使得協(xié)作任務(wù)由同一神經(jīng)網(wǎng)絡(luò)計(jì)算,而競(jìng)爭(zhēng)任務(wù)由不同網(wǎng)絡(luò)計(jì)算。我們的框架提供了時(shí)間精度權(quán)衡,并且可以使用更少的推理時(shí)間來(lái)產(chǎn)生更好的精度,這不僅比單個(gè)大型多任務(wù)神經(jīng)網(wǎng)絡(luò),而且比許多單個(gè)任務(wù)網(wǎng)絡(luò)都要少。



Robust Learning Through Cross-Task Consistency
https://arxiv.org/abs/2006.04096
CVPR 2020 (Oral).
https://consistency.epfl.ch/
https://zhuanlan.zhihu.com/p/520157127
視覺(jué)感知需要解決一系列廣泛的任務(wù),例如物體檢測(cè)、深度估計(jì)等。對(duì)同一圖像中的多個(gè)任務(wù)所做的預(yù)測(cè)不是獨(dú)立的,因此,預(yù)期是一致的。我們提出了一種廣泛適用且完全計(jì)算的方法,用于增強(qiáng)跨任務(wù)一致性學(xué)習(xí)。所提出的公式基于任意任務(wù)圖上的推理路徑不變性。我們觀察到,具有跨任務(wù)一致性的學(xué)習(xí)會(huì)導(dǎo)致更準(zhǔn)確的預(yù)測(cè)和對(duì)分布外輸入的更好概括。該框架還基于測(cè)量系統(tǒng)的內(nèi)在一致性得出了一個(gè)信息量,稱(chēng)為一致性能量。一致性能量與監(jiān)督誤差相關(guān)良好(r=0.67),因此它可以用作無(wú)監(jiān)督置信度度量以及檢測(cè)分布外輸入(ROC-AUC=0.95)。評(píng)估在多個(gè)數(shù)據(jù)集上進(jìn)行,包括Taskonomy、Replica、CocoDoom和ApolloScape,他們將跨任務(wù)一致性與各種基線進(jìn)行比較,包括傳統(tǒng)的多任務(wù)學(xué)習(xí)、周期一致性和分析一致性。




