2020CVPR
主要貢獻(xiàn):
揭示了目前無監(jiān)督域適應(yīng)問題的限制(2個(gè))。
提出了ARC模組解決上述問題。
用了大量實(shí)驗(yàn)證明ARC合理,并且具有很高的可解釋性。
限制
Low-level vs. high-level domain adaptation.
無監(jiān)督生成的數(shù)據(jù)在顏色和紋理(low-level)上可以修改,但是對于物體(high-level)不能解決。如下圖,在風(fēng)格轉(zhuǎn)換后,毛巾依然在圖片上,而在深度估計(jì)中,這區(qū)域的深度和前面同一深度對任務(wù)表現(xiàn)更好。這種情況的發(fā)生會使得在毛巾區(qū)域估計(jì)出偏置較大的深度。

Input vs. output domain adaptation.
目前很多訓(xùn)練都采用少量有標(biāo)簽的訓(xùn)練數(shù)據(jù)和大量合成數(shù)據(jù)。作者在訓(xùn)練中發(fā)現(xiàn),這種訓(xùn)練方式和只用少量訓(xùn)練數(shù)據(jù)的差異不大。和分類任務(wù)不同,深度估計(jì)的輸出是連續(xù)的變量。分類任務(wù)不會很在意在原圖上的修改,而深度估計(jì)任務(wù)原圖的改變會對標(biāo)簽產(chǎn)生很大的影響。我在合成數(shù)據(jù)時(shí),只能在low-level做改變,否則對標(biāo)簽會變偏差很大。這種做法和augmentation差不了多少,對提高訓(xùn)練的意義不大。
ARC模組(attend, remove and complete)
以上的兩種問題存在的原因是真實(shí)圖片和合成圖片直接存在的間隙(domain gap between real image and synthetic image)。一個(gè)肯定的答案是:合成數(shù)據(jù)實(shí)際上可以提高深度估計(jì)的精度,但是需要以一種與眾不同的方式參與訓(xùn)練。即要考慮到在現(xiàn)實(shí)世界中存在的復(fù)雜物體,而在合成圖像中沒有出現(xiàn)。

這里的技術(shù)細(xì)節(jié)不討論,從上圖可以看出作者的訓(xùn)練思路。T將真實(shí)域的圖片轉(zhuǎn)換為合成域(T),這個(gè)過程可以將low-level的細(xì)節(jié)轉(zhuǎn)換為同一分布。(A)是一個(gè)attention機(jī)制,將多余的(那些干擾預(yù)測的)物體mask掉。對于mask掉的區(qū)域使用(I)對其補(bǔ)全。最終模型在真實(shí)域?qū)?yīng)的合成域上做深度預(yù)測,并且該合成域的圖片剔除掉了干擾的物體和紋理。
訓(xùn)練策略
以上的的各個(gè)模組如果同時(shí)訓(xùn)練難度是很大的,需要單個(gè)模組訓(xùn)練,然后將其組合。
第一步,訓(xùn)練D在真實(shí)域和合成域,作為預(yù)訓(xùn)練。
第二步,以cyclegan的形式訓(xùn)練T。
第三步,將T,A,D同時(shí)訓(xùn)練,固定T,D的參數(shù),值選了A的參數(shù)。此后我們假設(shè)A已經(jīng)學(xué)到了我們預(yù)期的知識,即需要remove的區(qū)域。
第四步,I作為一個(gè)單獨(dú)的模組訓(xùn)練。
第五部,以上所有模塊組合到一起訓(xùn)練,訓(xùn)練策略如下。

性能表現(xiàn)
對于那些容易估計(jì)錯(cuò)誤的物體,確實(shí)有理改善。

總結(jié)
這種域適應(yīng)的策略將問題轉(zhuǎn)換:從輸入真實(shí)圖轉(zhuǎn)為輸入合成圖。這樣的好處是排除掉了真實(shí)圖片中的噪聲。但是這是在有效去除噪聲的前提下。我認(rèn)為作者的訓(xùn)練策略存在有效去除噪聲的合理性。
作者從問題出發(fā),提出解決問題的方法,整理思路研究。提出的方法也是有效的,訓(xùn)練策略我認(rèn)為也是一個(gè)亮點(diǎn)。我還是比較喜歡這篇文章。