Adversarial Discriminative Domain Adaptation 論文翻譯

版權(quán)聲明:本文為原創(chuàng)文章,未經(jīng)博主允許不得轉(zhuǎn)載。?

本論文發(fā)表于2017年 CVPR,論文地址??Adversarial Discriminative Domain Adaptation

摘要

????對(duì)抗性學(xué)習(xí)方法是一種用于訓(xùn)練健壯的深度網(wǎng)絡(luò)的有前景的方法,并且可以在不同的域中生成復(fù)雜的樣本。盡管存在域移位或數(shù)據(jù)集偏差,它們也可以提高識(shí)別率:最近引入了幾種針對(duì)無(wú)監(jiān)督域自適應(yīng)的對(duì)抗方法,這減少了訓(xùn)練和測(cè)試域分布之間的差異,從而提高了泛化性能。先前的生成方法顯示出引人注目的可視化,但在判別任務(wù)上并不是最優(yōu)的,并且可能限于較小的域移位。先前的判別方法可以處理更大的域移位,但是對(duì)模型施加綁定權(quán)重并且沒(méi)有利用基于GAN的損失,我們首先概述了一種新的對(duì)抗性適應(yīng)的通用框架,它將最新的方法作為特殊情況包含在內(nèi),并且我們使用這種廣義視圖來(lái)更好地聯(lián)系先前的方法。我們提出了一個(gè)以前未探索的我們的通用框架實(shí)例,它結(jié)合了判別模型,無(wú)條件權(quán)重共享和GAN損失,我們稱之為Adversarial Discriminative Domain Adaptation(ADDA)。我們證明ADDA比競(jìng)爭(zhēng)的域?qū)狗椒ǜ行У喈?dāng)簡(jiǎn)單,并通過(guò)在標(biāo)準(zhǔn)跨域數(shù)字分類任務(wù)和新的更難以跨模態(tài)的對(duì)象分類任務(wù)上超越最先進(jìn)的無(wú)監(jiān)督適應(yīng)結(jié)果來(lái)證明我們的方法的前景。

1 介紹

? ??深度卷積網(wǎng)絡(luò),當(dāng)在大規(guī)模數(shù)據(jù)集上訓(xùn)練時(shí),可以學(xué)習(xí)在各種任務(wù)和視覺(jué)領(lǐng)域中通用的表示[1,2]。 然而,由于稱為數(shù)據(jù)集偏差域移位[3]的現(xiàn)象,在一個(gè)大型數(shù)據(jù)集上與這些表示一起訓(xùn)練的識(shí)別模型不能很好地推廣到新的數(shù)據(jù)集和任務(wù)[4,1]。 典型的解決方案是在任務(wù)特定的數(shù)據(jù)集上進(jìn)一步微調(diào)這些網(wǎng)絡(luò) - 但是,它往往非常困難且昂貴獲得足夠的標(biāo)記數(shù)據(jù),以適當(dāng)微調(diào)深層多層網(wǎng)絡(luò)所使用的大量參數(shù)。

? ??域適應(yīng)方法試圖減輕域移位的有害影響。 最近的域適應(yīng)方法學(xué)習(xí)深度神經(jīng)變換,將兩個(gè)域映射到共同的特征空間。 這通常通過(guò)優(yōu)化表示來(lái)實(shí)現(xiàn),以最小化域移位的一些度量,例如最大平均差異[5,6]或相關(guān)距離[7,8]。 另一種方法是從源表示中重建目標(biāo)域[9]。

????對(duì)抗性適應(yīng)方法已成為這種類型的方法的越來(lái)越流行的化身,其尋求通過(guò)關(guān)于域鑒別器的對(duì)抗性目標(biāo)來(lái)最小化近似域差異距離。這些方法與生成式對(duì)抗性學(xué)習(xí)密切相關(guān)[10],它使兩個(gè)網(wǎng)絡(luò)相互對(duì)立 - 一個(gè)生成器和一個(gè)鑒別器。生成器以混淆鑒別器的方式產(chǎn)生圖像,鑒別器又試圖將它們與真實(shí)圖像示例區(qū)分開來(lái)。在域適應(yīng)中,已采用該原理來(lái)確保網(wǎng)絡(luò)無(wú)法區(qū)分其訓(xùn)練和測(cè)試域示例的分布[11,12,13]。但是,每種算法都會(huì)做出不同的設(shè)計(jì)選擇,例如是否使用生成器,使用哪種丟失函數(shù),或者是否跨域共享權(quán)重。例如,[11,12]共享權(quán)重并學(xué)習(xí)源圖像和目標(biāo)圖像的對(duì)稱映射到共享特征空間,而[13]解耦一些層,從而學(xué)習(xí)部分不對(duì)稱的映射。

? ??在這項(xiàng)工作中,我們提出了一個(gè)新的統(tǒng)一的對(duì)抗域適應(yīng)框架,使我們能夠有效地檢查現(xiàn)有方法之間不同因素的差異性,并清楚地查看它們各自共享的相似性。我們的框架統(tǒng)一了設(shè)計(jì)選擇,如權(quán)重共享,基礎(chǔ)模型和對(duì)抗性損失,并包含以前的工作,同時(shí)也促進(jìn)了新穎的設(shè)計(jì)改進(jìn)現(xiàn)有實(shí)例的實(shí)例化。

? ??特別是,我們觀察到輸入圖像分布的生成建模不是必需的,因?yàn)樽罱K的任務(wù)是學(xué)習(xí)判別表示。另一方面,非對(duì)稱映射可以比對(duì)稱映射更好地模擬低級(jí)特征3的差異。因此,我們提出了一種先前未探索的無(wú)監(jiān)督對(duì)抗性適應(yīng)方法,即對(duì)抗性判別域適應(yīng)(ADDA),如圖1所示.ADDA首先使用源域中的標(biāo)簽學(xué)習(xí)判別表示,然后使用單獨(dú)的編碼來(lái)映射目標(biāo)數(shù)據(jù)到同一空間通過(guò)域?qū)剐該p失學(xué)習(xí)的非對(duì)稱映射。我們的方法簡(jiǎn)單但功能強(qiáng)大,并且在MNIST,USPS和SVHN數(shù)字?jǐn)?shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的視覺(jué)自適應(yīng)結(jié)果。我們還通過(guò)將對(duì)象分類器從RGB彩色圖像轉(zhuǎn)移到深度觀察來(lái)測(cè)試其彌合更困難的跨模態(tài)轉(zhuǎn)換之間的差距的潛力,而不需要實(shí)例約束。

圖1?我們提出了一種改進(jìn)的無(wú)監(jiān)督域自適應(yīng)方法,它將對(duì)抗性學(xué)習(xí)與判別性特征學(xué)習(xí)相結(jié)合。 具體來(lái)說(shuō),我們通過(guò)欺騙嘗試從源圖片中區(qū)分編碼目標(biāo)圖像的域鑒別器來(lái)學(xué)習(xí)目標(biāo)圖像到源特征空間(目標(biāo)編碼器)的判別映射。

2相關(guān)工作

????關(guān)于域轉(zhuǎn)移學(xué)習(xí)的廣泛的先前工作,參見(jiàn)例如[3]。 最近的工作集中在將標(biāo)記的源數(shù)據(jù)集的深度神經(jīng)網(wǎng)絡(luò)表示轉(zhuǎn)移到標(biāo)記數(shù)據(jù)稀疏或不存在的目標(biāo)域。 在未標(biāo)記的目標(biāo)域(本文的重點(diǎn))的情況下,主要策略是通過(guò)最小化源和目標(biāo)特征分布之間的差異來(lái)指導(dǎo)特征學(xué)習(xí)[11,12,5,6,8,9,13]。

? ??為此目的,有幾種方法使用最大平均差異(MMD)[3]損失。 MMD計(jì)算兩個(gè)域均值之間差異的范數(shù)。 除了源上的常規(guī)分類丟失之外,DDC方法[5]使用MMD來(lái)學(xué)習(xí)既具有判別性又具有域不變性的表示。 深度適應(yīng)網(wǎng)絡(luò)(DAN)[6]將MMD應(yīng)用于嵌入在再生內(nèi)核Hilbert空間中的層,有效地匹配兩個(gè)分布的高階統(tǒng)計(jì)量。 相比之下,深度相關(guān)對(duì)齊(CORAL)[8]方法被提議用于匹配兩個(gè)分布的均值和協(xié)方差。

????其他方法選擇了對(duì)抗性損失以最小化域移位,學(xué)習(xí)同時(shí)區(qū)分源標(biāo)簽而不能區(qū)分域的表示。 [12]建議添加域分類器(單個(gè)完全連接層),預(yù)測(cè)輸入的二進(jìn)制域標(biāo)簽,并設(shè)計(jì)域混淆損失,以鼓勵(lì)其預(yù)測(cè)盡可能接近二進(jìn)制標(biāo)簽上的均勻分布。 [11]中提出的梯度反轉(zhuǎn)算法(ReverseGrad)也將域不變性視為二元分類問(wèn)題,但通過(guò)反轉(zhuǎn)其梯度直接最大化域分類器的損失。 DRCN [9]采用了類似的方法,但也學(xué)會(huì)了重建目標(biāo)域圖像。

? ??在相關(guān)工作中,已經(jīng)針對(duì)生成任務(wù)探索了對(duì)抗性學(xué)習(xí)。生成對(duì)抗網(wǎng)絡(luò)(GAN)方法[10]是一種生成性深層模型,它將兩個(gè)網(wǎng)絡(luò)相互對(duì)立:捕獲數(shù)據(jù)分布的生成模型G和區(qū)分從G中抽取的樣本和從通過(guò)預(yù)測(cè)成一個(gè)二進(jìn)制標(biāo)簽的訓(xùn)練數(shù)據(jù)中抽取的圖像的判別模型D.通過(guò)預(yù)測(cè)二進(jìn)制標(biāo)簽來(lái)訓(xùn)練數(shù)據(jù)。在標(biāo)簽預(yù)測(cè)上使用反向傳播以最小-最大方式聯(lián)合訓(xùn)練網(wǎng)絡(luò):同時(shí)更新G以最小化損失,同時(shí)更新D以最大化損失(欺騙鑒別器)。 GAN優(yōu)于其他生成方法的優(yōu)點(diǎn)是在訓(xùn)練期間不需要復(fù)雜的采樣或推理;缺點(diǎn)是可能很難訓(xùn)練。已經(jīng)應(yīng)用GAN來(lái)生成物體的自然圖像,例如數(shù)字和面部,并且已經(jīng)以多種方式擴(kuò)展。BiGAN方法[14]擴(kuò)展了GAN,也學(xué)習(xí)了從圖像數(shù)據(jù)到潛在空間的逆映射,并表明這可以學(xué)習(xí)對(duì)圖像分類任務(wù)有用的特征。條件生成對(duì)抗網(wǎng)(CGAN)[15]是GAN的擴(kuò)展,其中網(wǎng)絡(luò)G和D都接收附加的信息向量作為輸入。這可能包含有關(guān)訓(xùn)練示例類的信息。作者應(yīng)用CGAN生成(可能是多模態(tài)的)標(biāo)簽向量分布,條件是圖像特征。

? ??最近,CoGAN [13]方法通過(guò)訓(xùn)練兩個(gè)GAN分別生成源圖像和目標(biāo)圖像,將GANs應(yīng)用于域轉(zhuǎn)移問(wèn)題。 該方法通過(guò)綁定兩個(gè)GAN的高級(jí)層參數(shù)來(lái)實(shí)現(xiàn)域不變特征空間,并且展示出相同的噪聲輸入可以從兩個(gè)分布生成相應(yīng)的一對(duì)圖像。 通過(guò)在鑒別器輸出上訓(xùn)練分類器并應(yīng)用于MNIST和USPS數(shù)字之間的移位來(lái)執(zhí)行域自適應(yīng)數(shù)據(jù)集。 但是,此方法依賴于生成器查找從共享高級(jí)別圖層特征空間到兩個(gè)域中的完整圖像的映射。 這可以很好地說(shuō)明在更多不同域的情況下可能很難區(qū)分不同的數(shù)字。 在本文中,我們觀察到,只要潛在特征空間是域不變的,對(duì)圖像分布進(jìn)行建模并不是實(shí)現(xiàn)域自適應(yīng)所必需的,并提出了一種判別方法。

3通用的對(duì)抗性適應(yīng)

????我們提出了對(duì)抗無(wú)監(jiān)督適應(yīng)方法的通用框架。 在無(wú)監(jiān)督的自適應(yīng)中,我們假設(shè)訪問(wèn)源圖像Xs和從源域分布ps(x,y)繪制的標(biāo)簽Ys,以及從目標(biāo)分布pt(x,y)繪制的目標(biāo)圖像Xt,其中沒(méi)有標(biāo)簽觀察結(jié)果。 我們的目標(biāo)是學(xué)習(xí)目標(biāo)表示,Mt和分類器Ct,它可以在測(cè)試時(shí)將目標(biāo)圖像正確地分類為K類別中的一個(gè),盡管缺少域注釋。 由于無(wú)法對(duì)目標(biāo)進(jìn)行直接監(jiān)督學(xué)習(xí),因此域自適應(yīng)學(xué)習(xí)源表示映射Ms以及源分類器Cs,然后學(xué)習(xí)如何使該模型適用于目標(biāo)域。

? ??在對(duì)抗自適應(yīng)方法中,主要目標(biāo)是規(guī)范源和目標(biāo)映射(Ms和Mt)的學(xué)習(xí),以便最小化經(jīng)驗(yàn)源和目標(biāo)映射分布之間的距離:Ms(Xs)和Mt(Xt)。 如果是這種情況,那么源分類模型Cs可以直接應(yīng)用于目標(biāo)表示,從而消除了學(xué)習(xí)單獨(dú)目標(biāo)分類器的需要,而是設(shè)置C = Cs = Ct。

? ??然后使用下面的標(biāo)準(zhǔn)監(jiān)督損失訓(xùn)練源分類模型:

????我們現(xiàn)在能夠描述對(duì)抗性適應(yīng)方法的完整總體框架視圖。我們注意到,所有方法都通過(guò)兩個(gè)函數(shù)之間的交替最小化來(lái)最小化源和目標(biāo)表示距離。 首先是域鑒別器D,它分類器是是否從源域還是目標(biāo)域繪制數(shù)據(jù)點(diǎn)。 因此,D根據(jù)標(biāo)準(zhǔn)監(jiān)督損失LadvD(Xs,Xt,Ms,Mt)進(jìn)行優(yōu)化,其中標(biāo)簽代表源域,定義如下:

????其次,源映射和目標(biāo)映射根據(jù)約束的對(duì)抗目標(biāo)進(jìn)行優(yōu)化,其特定的實(shí)例可以在不同方法之間變化。 因此,我們可以推導(dǎo)出以下域?qū)辜夹g(shù)的通用公式:

????在接下來(lái)的部分中,我們通過(guò)在框架中定位最近的域?qū)狗椒▉?lái)展示我們框架的價(jià)值。 我們描述了潛在的映射結(jié)構(gòu),映射優(yōu)化約束(ψ(Ms,Mt))選擇以及最終選擇對(duì)抗映射損失,LadvM。

圖2:我們用于對(duì)抗域適應(yīng)的通用架構(gòu)。 現(xiàn)有的對(duì)抗性適應(yīng)方法可以被視為我們框架的實(shí)例,其中有關(guān)其屬性的不同選擇。

3.1源和目標(biāo)映射

????在單獨(dú)學(xué)習(xí)源映射Ms的情況下,顯然使用已知標(biāo)記Ys通過(guò)潛在空間判別性損失的監(jiān)督訓(xùn)練導(dǎo)致最終源識(shí)別的最佳表示。 但是,鑒于我們的目標(biāo)域未標(biāo)記,如何最好地最小化源映射和目標(biāo)映射之間的距離仍然是一個(gè)懸而未決的問(wèn)題。 因此,要做的第一個(gè)選擇是這些映射的特定參數(shù)化。

????因?yàn)闊o(wú)監(jiān)督域適應(yīng)通??紤]目標(biāo)判別任務(wù),例如分類,所以先前的適應(yīng)方法通常依賴于適應(yīng)域之間的判別模型[12,16]。 利用判別基礎(chǔ)模型,輸入圖像被映射到特征空間,該特征空間對(duì)于諸如圖像分類的辨別任務(wù)是有用的。 例如,在數(shù)字分類的情況下,這可能是標(biāo)準(zhǔn)的LeNet模型。 然而,Liu和Tuzel使用兩個(gè)生成對(duì)抗網(wǎng)絡(luò)在無(wú)監(jiān)督的MNIST-USPS上取得了最先進(jìn)的結(jié)果[13]。 這些生成模型使用隨機(jī)噪聲作為輸入以在圖像空間中生成樣本 - 通常,對(duì)抗性鑒別器的中間特征用作訓(xùn)練任務(wù)特定分類器的特征。

? ??一旦確定了源的映射參數(shù)化,我們必須決定如何參數(shù)化目標(biāo)映射Mt. 通常,目標(biāo)映射幾乎總是在特定功能層(架構(gòu))方面與源匹配,但是不同的方法已經(jīng)提出了各種正則化技術(shù)。 所有方法都使用源初始化目標(biāo)映射參數(shù),但不同的方法在源映射和目標(biāo)映射之間選擇不同的約束,ψ(Ms,Mt)。 目標(biāo)是確保設(shè)置目標(biāo)映射,以便在它們各自的映射下最小化源域和目標(biāo)域之間的距離,同時(shí)關(guān)鍵地還保持目標(biāo)映射是類別判別的。

? ?考慮一個(gè)分層表示,其中每個(gè)層參數(shù)表示為M`s或M`t,對(duì)于給定的一組等效層,{`1 ,.。。 ,`n}。 然后,文獻(xiàn)中探討的約束空間可以通過(guò)分層等式約束來(lái)描述如下:

? ??其中每個(gè)單獨(dú)的層可以獨(dú)立約束。 一種非常常見(jiàn)的約束形式是源和目標(biāo)分層相等。

????保持層不受約束也是很常見(jiàn)的。通過(guò)權(quán)重共享,可以在卷積網(wǎng)絡(luò)框架內(nèi)輕松實(shí)施這些平等約束。

? ??對(duì)于許多先前的對(duì)抗性適應(yīng)方法[16,12],所有層都受到約束,從而實(shí)現(xiàn)精確的源和目標(biāo)映射一致性。 學(xué)習(xí)對(duì)稱變換可以減少模型中參數(shù)的數(shù)量,并確保至少在應(yīng)用于源域時(shí),用于目標(biāo)的映射是有區(qū)別的。 然而,這可能使得優(yōu)化條件很差,因?yàn)橄嗤木W(wǎng)絡(luò)必須處理來(lái)自兩個(gè)單獨(dú)域的圖像。

? ??另一種方法是學(xué)習(xí)非對(duì)稱變換,只有一部分層被約束,從而強(qiáng)制部分對(duì)齊。 Rozantsev等。 [17]表明,部分共享權(quán)重可以導(dǎo)致有監(jiān)督和無(wú)監(jiān)督設(shè)置的有效適應(yīng)。 因此,最近的一些方法有利于在兩個(gè)域之間解除權(quán)重(完全或部分),允許模型單獨(dú)學(xué)習(xí)每個(gè)域的參數(shù)。

3.2 對(duì)抗損失

????一旦我們決定了Mt的參數(shù)化,我們就會(huì)利用對(duì)抗性損失來(lái)學(xué)習(xí)實(shí)際的映射。 對(duì)抗性損失函數(shù)有各種不同的可能選擇,每種函數(shù)都有自己獨(dú)特的用例。 所有對(duì)抗性損失都使用標(biāo)準(zhǔn)分類損失LadvD訓(xùn)練對(duì)抗性鑒別器,之前在方程式2中說(shuō)明。然而,它們?cè)谟糜谟?xùn)練映射的損失方面有所不同,LadvM。

????[16]的梯度反轉(zhuǎn)層優(yōu)化了映射,以直接最大化鑒別器損失:

????這種優(yōu)化對(duì)應(yīng)于生成對(duì)抗性網(wǎng)絡(luò)的真正極小極大目標(biāo)。 然而,這個(gè)目標(biāo)可能是有問(wèn)題的,因?yàn)樵谟?xùn)練期間早期鑒別器快速收斂,導(dǎo)致梯度消失。

? ??在訓(xùn)練GAN時(shí),不是直接使用極小極大損失,而是通常使用帶有倒置標(biāo)簽的標(biāo)準(zhǔn)損失函數(shù)訓(xùn)練生成[10]。 這將優(yōu)化分為兩個(gè)獨(dú)立的目標(biāo),一個(gè)用于生成器,一個(gè)用于鑒別器,其中LadvD保持不變,但LadvM變?yōu)椋?/p>

? ??????該目標(biāo)具有與極小極大損失相同的定點(diǎn)屬性,但為目標(biāo)映射提供了更強(qiáng)的梯度。我們將這種修改的損失函數(shù)稱為本文其余部分的“GAN損失函數(shù)”。

????請(qǐng)注意,在此設(shè)置中,我們使用源和目標(biāo)的獨(dú)立映射,并且只能學(xué)習(xí)對(duì)抗性的Mt.這模仿了GAN設(shè)置,其中實(shí)際圖像分布保持固定,并且學(xué)習(xí)生成分布以匹配它。

? ??GAN損失函數(shù)是生成器試圖模仿另一個(gè)不變分布的設(shè)置中的標(biāo)準(zhǔn)選擇。 然而,在兩個(gè)分布都在變化的設(shè)置中,這個(gè)目標(biāo)將導(dǎo)致振蕩 - 當(dāng)映射收斂到其最優(yōu)時(shí),鑒別器可以簡(jiǎn)單地翻轉(zhuǎn)其預(yù)測(cè)的符號(hào)作為回應(yīng)。 Tzeng等。 相反,提出了域混淆目標(biāo),在該目標(biāo)下,使用交叉熵?fù)p失函數(shù)對(duì)均勻分布訓(xùn)練映射[12]:

? ??
這種損失確保了對(duì)抗性鑒別器以相同的方式查看這兩個(gè)域。

4 對(duì)抗判別域適應(yīng)

????我們的域?qū)狗椒ǖ耐ㄓ每蚣艿暮锰幨撬苯又С珠_發(fā)新的自適應(yīng)方法。 實(shí)際上,設(shè)計(jì)一種新方法現(xiàn)在已經(jīng)簡(jiǎn)化為三種設(shè)計(jì)選擇的空間:是使用生成性還是判別性基礎(chǔ)模型,是否綁定或解除權(quán)重,以及使用哪種對(duì)抗性學(xué)習(xí)目標(biāo)。 根據(jù)這種觀點(diǎn),我們可以根據(jù)我們的選擇(參見(jiàn)表1“ADDA”)總結(jié)我們的方法,對(duì)抗性判別域適應(yīng)(ADDA),以及它與先前工作的關(guān)系。 具體來(lái)說(shuō),我們使用判別基礎(chǔ)模型,非共享權(quán)重和標(biāo)準(zhǔn)的GAN損失。 我們?cè)趫D3中說(shuō)明了我們的整體訓(xùn)練順序過(guò)程。


圖3:我們提出的Adversarial Discrimtivetive Domain Adaptation(ADDA)方法的概述。 我們首先使用標(biāo)記的源圖像示例預(yù)訓(xùn)練源編碼器CNN。 接下來(lái),我們通過(guò)學(xué)習(xí)目標(biāo)編碼器CNN來(lái)執(zhí)行對(duì)抗自適應(yīng),目標(biāo)編碼器就像一個(gè)判別器,可以看見(jiàn)源和目標(biāo)數(shù)據(jù)但不可靠地預(yù)測(cè)他們的域標(biāo)簽。在測(cè)試期間,目標(biāo)圖像與目標(biāo)編碼器一起映射到共享特征空間并由源分類器分類。 虛線表示固定的網(wǎng)絡(luò)參數(shù)。

????首先,我們選擇一個(gè)判別基礎(chǔ)模型,因?yàn)槲覀兗僭O(shè)生成令人信服的域內(nèi)樣本所需的大部分參數(shù)與判別性適應(yīng)任務(wù)無(wú)關(guān)。 由于這個(gè)原因,大多數(shù)先前的對(duì)抗性自適應(yīng)方法直接在判別空間中進(jìn)行優(yōu)化。 一個(gè)反例是CoGAN。 然而,這種方法僅在源和目標(biāo)域非常相似的設(shè)置中顯示出優(yōu)勢(shì),例如MNIST和USPS,并且在我們的實(shí)驗(yàn)中,我們難以使其收斂以進(jìn)行更大的分布轉(zhuǎn)移。

? ??接下來(lái),我們選擇通過(guò)解開權(quán)重來(lái)允許獨(dú)立的源和目標(biāo)映射。 這是一種更靈活的學(xué)習(xí)范式,因?yàn)樗试S學(xué)習(xí)更多領(lǐng)域特定的特征提取。 但是,請(qǐng)注意目標(biāo)域沒(méi)有標(biāo)簽訪問(wèn)權(quán)限,因此如果我們不注意正確的初始化和培訓(xùn)過(guò)程,如果沒(méi)有權(quán)重共享,目標(biāo)模型可能會(huì)很快學(xué)會(huì)退化解決方案。 因此,我們使用預(yù)先訓(xùn)練的源模型作為目標(biāo)表示空間的初始化,并在對(duì)抗訓(xùn)練期間固定源模型。

? ??在這樣做的過(guò)程中,我們正在有效地學(xué)習(xí)非對(duì)稱映射,在該映射中我們修改目標(biāo)模型以匹配源分布。 這與原始的生成對(duì)抗性學(xué)習(xí)設(shè)置最相似,其中生成的空間被更新,直到它與固定的真實(shí)空間無(wú)法區(qū)分。 因此,我們選擇上一節(jié)中描述的反轉(zhuǎn)標(biāo)簽GAN損失。

? ?因此,我們提出的方法ADDA對(duì)應(yīng)于以下無(wú)約束優(yōu)化:

? ??我們選擇分階段優(yōu)化這一目標(biāo)。 我們首先通過(guò)使用標(biāo)記的源數(shù)據(jù)Xs和Ys進(jìn)行訓(xùn)練來(lái)優(yōu)化Ms和C上的Lcl。 因?yàn)槲覀冞x擇在學(xué)習(xí)Mt時(shí)選擇固定Ms,所以我們可以優(yōu)化LadvD和LadvM,而無(wú)需重新審視第一個(gè)目標(biāo)術(shù)語(yǔ)。 圖3提供了整個(gè)訓(xùn)練過(guò)程的總結(jié)。

? ??我們注意到,上一節(jié)中介紹的統(tǒng)一框架使我們能夠比較先前的域?qū)狗椒?,并?duì)不同的變異因素做出明智的決策。 通過(guò)這個(gè)框架,我們能夠激發(fā)一種新的領(lǐng)域適應(yīng)方法ADDA,并提供對(duì)我們的設(shè)計(jì)決策的洞察力。 在下一節(jié)中,我們展示了對(duì)無(wú)監(jiān)督的適應(yīng)基準(zhǔn)任務(wù)的有希望的結(jié)果,研究了跨數(shù)字和跨模態(tài)的適應(yīng)性。

5 實(shí)驗(yàn)

????我們現(xiàn)在評(píng)估ADDA在四個(gè)不同的域移位中的無(wú)監(jiān)督分類適應(yīng)。我們探索了不同難度的三個(gè)數(shù)據(jù)集:MNIST [18],USPS和SVHN [19]。我們另外評(píng)估了NYUD [20]數(shù)據(jù)集,以研究跨模態(tài)的適應(yīng)性。來(lái)自所有實(shí)驗(yàn)數(shù)據(jù)集的示例圖像在圖4中提供。

? ??對(duì)于數(shù)字自適應(yīng)的情況,我們與多種最先進(jìn)的無(wú)監(jiān)督自適應(yīng)方法進(jìn)行比較,所有這些都基于域?qū)剐詫W(xué)習(xí)目標(biāo)。 在我們的4個(gè)實(shí)驗(yàn)設(shè)置中的3個(gè)中,我們的方法優(yōu)于所有競(jìng)爭(zhēng)方法,并且在所研究的最后一個(gè)域移位中,我們的方法優(yōu)于除了一種競(jìng)爭(zhēng)方法之外的所有方法。

????我們還使用NYU深度數(shù)據(jù)集在真實(shí)世界模態(tài)適應(yīng)任務(wù)上驗(yàn)證我們的模型。 盡管RGB和深度模態(tài)之間存在較大的域移位,但ADDA在沒(méi)有任何標(biāo)記深度數(shù)據(jù)的情況下學(xué)習(xí)了有用的深度表示,并且在非自適應(yīng)基線上的改進(jìn)超過(guò)了50%(相對(duì))。

5.1 MNIST,USPS和SVHN數(shù)字?jǐn)?shù)據(jù)集

? ??我們?cè)贛NIST [18],USPS和SVHN [19]數(shù)字?jǐn)?shù)據(jù)集之間的無(wú)監(jiān)督調(diào)整任務(wù)中實(shí)驗(yàn)驗(yàn)證了我們提出的方法,該數(shù)據(jù)集由10個(gè)數(shù)字類組成。 來(lái)自每個(gè)數(shù)據(jù)集的示例圖像在圖4和表2中可視化。對(duì)于MNIST和USPS之間的適應(yīng),我們遵循在[21]中建立的訓(xùn)練協(xié)議,從MNIST采樣2000圖像和從USPS采樣1800.對(duì)于SVHN和MNIST之間的適應(yīng),我們 使用完整的訓(xùn)練集進(jìn)行比較[16]。 所有實(shí)驗(yàn)都在無(wú)監(jiān)督的設(shè)置中進(jìn)行,其中目標(biāo)域中的標(biāo)簽被保留,我們考慮在三個(gè)方向上進(jìn)行適應(yīng):MNIST→USPS,USPS→MNIST和SVHN→MNIST.

圖4:我們?cè)趦煞N不同設(shè)置中對(duì)四個(gè)域移位的無(wú)監(jiān)督自適應(yīng)評(píng)估ADDA。 第一個(gè)設(shè)置是MNIST,USPS和SVHN數(shù)據(jù)集之間的適應(yīng)(左)。 第二個(gè)設(shè)置是來(lái)自紐約大學(xué)深度數(shù)據(jù)集的RGB和深度模態(tài)之間具有挑戰(zhàn)性的跨模態(tài)適應(yīng)任務(wù)(右)。

? ??對(duì)于這些實(shí)驗(yàn),我們使用Caffe源代碼[18,22]中提供的簡(jiǎn)單修改的LeNet架構(gòu)。 在使用ADDA進(jìn)行訓(xùn)練時(shí),我們的對(duì)抗性鑒別器由3個(gè)完全連接的層組成:兩層具有500個(gè)隱藏單元,后面是最終鑒別器輸出。 每個(gè)500單元層使用ReLU激活功能。

????我們的實(shí)驗(yàn)結(jié)果在表2中提供。在更簡(jiǎn)單的MNIST和USPS轉(zhuǎn)換中,ADDA實(shí)現(xiàn)了與當(dāng)前最先進(jìn)的CoGAN [13]相當(dāng)?shù)男阅埽M管它是一個(gè)相當(dāng)簡(jiǎn)單的模型。 這提供了令人信服的證據(jù),證明生成圖像所需的機(jī)器與實(shí)現(xiàn)有效適應(yīng)無(wú)關(guān)。 此外,與其他方法相比,我們?cè)诰哂刑魬?zhàn)性的SVHN和MNIST任務(wù)中顯示出令人信服的結(jié)果,表明我們的方法有可能推廣到各種設(shè)置。 相比之下,我們無(wú)法讓CoGAN收斂到SVHN和MNIST--因?yàn)檫@些域非常不同,我們無(wú)法為它們訓(xùn)練耦合發(fā)生器。

表2:MNIST,USPS和 SVHN之間無(wú)監(jiān)督適應(yīng)的實(shí)驗(yàn)結(jié)果

5.2 模態(tài)適應(yīng)

????我們使用NYU深度數(shù)據(jù)集[20],其中包含來(lái)自室內(nèi)場(chǎng)景的1449個(gè)圖像中的19個(gè)對(duì)象類的邊界框注釋。 數(shù)據(jù)集被分成火車(381圖像),val(414圖像)和測(cè)試(654)。 為了執(zhí)行我們的跨模態(tài)自適應(yīng),我們首先圍繞數(shù)據(jù)集中存在的這19個(gè)類的實(shí)例裁剪出緊密的邊界框,并評(píng)估對(duì)象作物的19向分類任務(wù)。 為了確保相同的實(shí)例不是在兩個(gè)域中都可以看到,我們使用來(lái)自train的分割的RGB圖像作為源域,并將來(lái)自val的深度圖像分割為目標(biāo)域。 這對(duì)應(yīng)于2,186個(gè)標(biāo)記的源圖像和2,401個(gè)未標(biāo)記的目標(biāo)圖像。 圖4顯示了兩個(gè)域中每個(gè)域的樣本。

? ??我們考慮這些RGB和HHA編碼深度圖像之間的適應(yīng)任務(wù)[23],分別使用它們作為源域和目標(biāo)域。 由于邊界框緊密且分辨率相對(duì)較低,因此即使在域內(nèi)進(jìn)行評(píng)估時(shí),準(zhǔn)確分類也非常困難。 此外,數(shù)據(jù)集對(duì)于某些類別(例如廁所和浴缸)的示例非常少,這直接轉(zhuǎn)化為降低的分類性能。

????對(duì)于這個(gè)實(shí)驗(yàn),我們的基礎(chǔ)架構(gòu)是VGG-16架構(gòu),從ImageNet上預(yù)先訓(xùn)練的權(quán)重進(jìn)行初始化[24]。 然后使用批量大小128在源域上對(duì)該網(wǎng)絡(luò)進(jìn)行20000次迭代的完全微調(diào)。當(dāng)使用ADDA進(jìn)行訓(xùn)練時(shí),對(duì)抗性鑒別器由三個(gè)額外的完全連接層組成:1024個(gè)隱藏單元,2048個(gè)隱藏單元,然后是對(duì)抗性鑒別器輸出。 除輸出外,這些額外完全連接的層使用ReLU激活功能。 然后,ADDA培訓(xùn)再進(jìn)行20,000次迭代,批次大小為128次。

????我們發(fā)現(xiàn)我們的方法ADDA極大地提高了該任務(wù)的分類準(zhǔn)確性。 對(duì)于某些類別,如計(jì)數(shù)器,分類準(zhǔn)確度從僅來(lái)源基線下的2.9%到適應(yīng)后的44.7%。 一般而言,所有類的平均準(zhǔn)確率從13.9%顯著提高到21.1%。 但是,并非所有類都有所改進(jìn)。在適應(yīng)之前,三個(gè)類沒(méi)有正確標(biāo)記的目標(biāo)圖像,并且適應(yīng)后無(wú)法恢復(fù)這些類的性能。 此外,枕頭和床頭柜的類別在適應(yīng)后遭受性能損失。

? ??有關(guān)ADDA對(duì)分類的影響的其他見(jiàn)解,圖5繪制了適應(yīng)之前,適應(yīng)之后以及存在目標(biāo)標(biāo)簽的假設(shè)最佳情況下的混淆矩陣。 檢查僅源基準(zhǔn)的混淆矩陣表明域移位非常大 - 因此,網(wǎng)絡(luò)條件很差并且錯(cuò)誤地預(yù)測(cè)了大部分?jǐn)?shù)據(jù)集的枕頭。 這種輸出枕頭的趨勢(shì)也解釋了為什么僅有源模型在枕頭類上達(dá)到如此異常高的精度,盡管其他類別的表現(xiàn)不佳。

? ??相反,使用ADDA訓(xùn)練的分類器預(yù)測(cè)了更多種類。 這導(dǎo)致枕頭類別的準(zhǔn)確度降低,但是對(duì)于許多其他類別而言顯著更高的準(zhǔn)確度。 此外,與“目標(biāo)訓(xùn)練”模型的比較表明,ADDA模型所犯的許多錯(cuò)誤都是合理的,例如椅子和桌子類之間的混淆,表明ADDA模型正在學(xué)習(xí)深度圖像的有用表示。


表3:NYUD [20]數(shù)據(jù)集的自適應(yīng)結(jié)果,使用來(lái)自訓(xùn)練集的RGB圖像作為源和來(lái)自val集的深度圖像作為目標(biāo)域。 由于目標(biāo)集中的大類不平衡(在#實(shí)例中表示),我們?cè)诖藞?bào)告每個(gè)類的準(zhǔn)確性。 總體而言,我們的方法將每類別的平均準(zhǔn)確度從13.9%提高到21.1%。
圖5:僅源,ADDA和?在NYUD RGB到深度適應(yīng)實(shí)驗(yàn)的oracle監(jiān)督目標(biāo)模型的混淆矩陣。 我們觀察到我們的無(wú)監(jiān)督自適應(yīng)算法產(chǎn)生了更有利于識(shí)別最流行的椅子類的空間。

6 結(jié)論

????我們已經(jīng)提出了一個(gè)基于對(duì)抗性學(xué)習(xí)目標(biāo)的無(wú)監(jiān)督域自適應(yīng)技術(shù)的統(tǒng)一框架。我們的框架提供了一種簡(jiǎn)化和有凝聚力的視圖,通過(guò)該視圖我們可以理解并聯(lián)系最近提出的適應(yīng)方法之間的相似點(diǎn)和不同點(diǎn)通過(guò)這種比較,我們能夠理解每種方法的好處和關(guān)鍵思想,并將這些策略結(jié)合到一種新的適應(yīng)方法ADDA中。

????我們針對(duì)無(wú)監(jiān)督的適應(yīng)方法提出了四個(gè)域移位的評(píng)估。我們的方法可以很好地概括各種任務(wù),在基準(zhǔn)適應(yīng)數(shù)據(jù)集上獲得強(qiáng)大的結(jié)果,以及具有挑戰(zhàn)性的交叉模態(tài)適應(yīng)任務(wù)。附加分析表明,通過(guò)ADDA學(xué)習(xí)的表示類似于在目標(biāo)域中使用監(jiān)控?cái)?shù)據(jù)學(xué)習(xí)的特征比未適應(yīng)的特征更接近,提供了進(jìn)一步的證據(jù),即ADDA可有效地部分地消除域移位的影響。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容