Propagate Yourself: Exploring Pixel-Level Consistency for Unsupervised Visual Representation Learning

https://arxiv.org/abs/2011.10043
https://hub.fastgit.org/zdaxie/PixPro
https://hub.fastgit.org/lucidrains/pixel-level-contrastive-learning
https://hub.fastgit.org/CoinCheung/SelfSup/tree/master/PixPro
https://ancientmooner.github.io/doc/recent-progress-self-supervised-learning-cv-hanhu.pdf
https://mp.weixin.qq.com/s/ZYp6T1TBpjx_2J1W1oQWYA
非監(jiān)督視覺表征學(xué)習(xí)的對比學(xué)習(xí)方法在遷移學(xué)習(xí)上達(dá)到了顯著水平。我們認(rèn)為,對比學(xué)習(xí)的力量還沒有完全釋放出來,因?yàn)槟壳暗姆椒ㄖ辉趯?shí)例級的代理任務(wù)上進(jìn)行訓(xùn)練,導(dǎo)致視覺表示對于需要密集像素預(yù)測的下游任務(wù)來說可能是次優(yōu)的。在本文中,我們介紹了像素級的代理任務(wù)學(xué)習(xí)密集的特征表示。第一個任務(wù)是在像素級直接運(yùn)用對比學(xué)習(xí)。此外,我們還提出了一個像素到傳播一致性任務(wù),該任務(wù)可以產(chǎn)生更好的結(jié)果,甚至大大超過最先進(jìn)的方法。具體來說,當(dāng)使用ResNet-50的主干時,其遷移至Pascal VOC檢測、COCO檢測、Cityscapes語義分割時,分別達(dá)到60.2AP、41.4/40.5 mAP和77.2mIoU,比之前實(shí)例級對比學(xué)習(xí)的最佳結(jié)果要好2.6AP、0.8/1.0 mAP、1.0mIoU。此外,像素級的代理任務(wù)不僅可用于主干網(wǎng)絡(luò),也可用于密集下游任務(wù)的頭網(wǎng)絡(luò),是實(shí)例級對比方法的補(bǔ)充。這些結(jié)果顯示了在像素級定義代理任務(wù)的強(qiáng)大潛力,并為無監(jiān)督視覺表示學(xué)習(xí)提供了一條新的途徑。

1. 引言
Yann LeCun認(rèn)為,“如果智力是一塊蛋糕,那么蛋糕的大部分就是無監(jiān)督的學(xué)習(xí)”。這句話反映了他的信念,即人類對世界的理解主要是從其中大量未標(biāo)記的信息中學(xué)到的。隨著無監(jiān)督和自監(jiān)督學(xué)習(xí)的實(shí)質(zhì)性進(jìn)展,機(jī)器智能的研究越來越朝著這個方向發(fā)展[41,19,29,9,35]。在計(jì)算機(jī)視覺中,最近的進(jìn)展很大程度上可以歸因于一種被稱為實(shí)例辨別(instance discrimination)的代理任務(wù)的使用,該任務(wù)將訓(xùn)練集中的每幅圖像視為一個單獨(dú)的類,目的是學(xué)習(xí)能辨別每個類的特征表示。
雖然自監(jiān)督學(xué)習(xí)已被證明是非常成功的,我們認(rèn)為,仍然有很大的潛力尚未開發(fā)。在現(xiàn)有的表征學(xué)習(xí)方法中,表征學(xué)習(xí)的自監(jiān)督是基于圖像級比較的。這導(dǎo)致,預(yù)訓(xùn)練表示可能非常適合于圖像級的推斷,例如圖像分類,但是可能缺乏需要像素級預(yù)測的下游任務(wù)所需的空間敏感性,例如,物體檢測和語義分割。如何在像素級進(jìn)行自監(jiān)督表示學(xué)習(xí)是一個迄今為止還沒有被探索過的問題。
在本文中,我們通過引入像素級的代理任務(wù)來解決這個問題。受最近實(shí)例辨別方法的啟發(fā),我們的第一個嘗試是構(gòu)建一個像素級的對比學(xué)習(xí)任務(wù),將圖像中的每個像素視為一個單獨(dú)的類,目標(biāo)是將圖像中的每個像素與其他像素區(qū)分開來。通過包含同一像素的兩個隨機(jī)裁剪區(qū)域來提取同一像素的特征,并利用這些特征形成正的訓(xùn)練對。另一方面,從不同像素獲得的特征被視為負(fù)對。通過這種自監(jiān)督的方式收集訓(xùn)練數(shù)據(jù),采用對比損失來學(xué)習(xí)表示。我們稱這種方法為PixContrast。
除此之外,我們還提出了一種基于像素到傳播一致性的方法,通過兩條非對稱管道從同一像素中提取特征來獲得正對。第一條管道是帶有投影頭的標(biāo)準(zhǔn)主干網(wǎng)。另一條管道具有類似的形式,但后接的是我們提出的
像素傳播模塊(pixel propagation module,PPM),該模塊通過向像素傳播相似像素的特征來濾波像素的特征。這種濾波引入了一定的平滑效果,而標(biāo)準(zhǔn)特征保持了空間敏感性。這種方法與PixContrast的一個不同之處在于,它鼓勵正例之間的一致性,而不考慮負(fù)例對。眾所周知,對比學(xué)習(xí)的表現(xiàn)很大程度上受負(fù)例對處理方式的影響[19,9],但在這種基于一致性的代理任務(wù)中,這個影響是可以避免的。經(jīng)驗(yàn)上,我們發(fā)現(xiàn)這種像素到傳播的一致性方法,我們稱之為PixPro,在各種下游任務(wù)中顯著優(yōu)于PixContrast方法。
除了學(xué)習(xí)良好的像素級表示外,本文提出的像素級代理任務(wù)不僅對主干網(wǎng)有效,而且對用于密集下游任務(wù)的頭網(wǎng)絡(luò)也有效,而實(shí)例級對比學(xué)習(xí)方法只能用于主干網(wǎng)絡(luò)。這對于具有有限注釋數(shù)據(jù)的下游任務(wù)尤其有利,因?yàn)樗袑佣伎梢院芎玫爻跏蓟?。此外,所提出的像素級方法是對現(xiàn)有實(shí)例級方法的補(bǔ)充,前者擅長學(xué)習(xí)空間敏感的表示,后者提供更好的分類能力。將兩種方法組合起來使用可以利用它們各自的優(yōu)點(diǎn),而且保持了預(yù)訓(xùn)練的計(jì)算效率,因?yàn)閮烧呖梢怨蚕?data loader和主干編碼器。
所提出的PixPro在需要密集預(yù)測的常見下游基準(zhǔn)上實(shí)現(xiàn)了最先進(jìn)的遷移性能。具體來說,使用ResNet-50主干,它使用Faster R-CNN檢測器(C4版本)在Pascal VOC對象檢測上獲得60.2 AP,使用Mask R-CNN檢測器在COCO檢測上獲得41.4/40.5 mAP(兩者都是FPN/C4版本,1x設(shè)置),以及使用FCN方法的77.2 mIoU的Cityscapes語義分割,比之前實(shí)例級對比學(xué)習(xí)的最佳結(jié)果要好2.6AP、0.8/1.0 mAP、1.0mIoU。盡管過去對無監(jiān)督表示學(xué)習(xí)的評價大多偏向于ImageNet上的線性分類,但我們主張將注意力轉(zhuǎn)移到下游任務(wù)的性能上,這是無監(jiān)督表示學(xué)習(xí)的主要目的,也是像素級方法的一個很有前景的設(shè)置。
2 相關(guān)工作
實(shí)例辨別????無監(jiān)督的視覺表征學(xué)習(xí)目前主要是以實(shí)例辨別為代理任務(wù),它將每個圖像作為一個類,通過區(qū)分每個圖像和所有其他圖像來學(xué)習(xí)表征。這一研究路線可追溯到[15],經(jīng)過多年的發(fā)展[41、34、22、46、1、43],MoCo[19]在廣泛的下游任務(wù)中實(shí)現(xiàn)了優(yōu)于監(jiān)督方法的遷移性能。在這一里程碑之后,相當(dāng)多的工作集中在這個方向上[9,35,3,18,5]。雖然后續(xù)工作已使用ResNet-50主干將ImageNet-1K的線性評估精度(top-1)從約60%[19]快速提高到75%[5]以上,但對下游任務(wù)(如Pascal VOC和COCO上的目標(biāo)檢測)的改進(jìn)微不足道。
我們的工作不是使用實(shí)例級的代理任務(wù),而是在像素級探索用于無監(jiān)督特征學(xué)習(xí)的代理任務(wù)。本文主要研究對象檢測和語義分割等下游任務(wù)的遷移性能,這些問題在以往的研究中沒有得到很多的關(guān)注。我們證明了像素級的表示學(xué)習(xí)可以大大超過現(xiàn)有的實(shí)例級方法,顯示了這一方向的潛力。
使用單個圖像的其他代理任務(wù)????除了實(shí)例辨別之外,還有許多其他代理任務(wù),包括上下文預(yù)測[14]、灰度圖像彩色化[44]、拼圖[30]、split-brain auto-encoding[45]、旋轉(zhuǎn)預(yù)測[17]、學(xué)習(xí)聚類[4]和缺失部分預(yù)測[22、37、8]。由于這些方法在結(jié)構(gòu)和訓(xùn)練策略上很復(fù)雜,而且性能差,在這些方法上的無監(jiān)督特征學(xué)習(xí)的興趣已經(jīng)大大降低。在這些方法中,與我們最相關(guān)的方法是缺失部分預(yù)測[22,37,8],這是受到自然語言處理中成功的借代理任務(wù)的啟發(fā)[13,2]。像我們的像素傳播一致性技術(shù)一樣,這種方法也是關(guān)注于局部模式。然而,缺失部分預(yù)測要么將圖像分割成塊[37,22],要么需要特殊的結(jié)構(gòu)/訓(xùn)練策略才能很好地執(zhí)行[22,8],而我們的方法直接操作像素,對編碼網(wǎng)絡(luò)沒有特殊要求。用我們的方法訓(xùn)練也很簡單,不需要什么花里胡哨的東西(with few bells and whistles)。更重要的是,我們的方法在目標(biāo)檢測和語義分割等重要的密集預(yù)測任務(wù)上實(shí)現(xiàn)了最先進(jìn)的遷移性能。
視頻或多幅圖像的像素級自監(jiān)督學(xué)習(xí)????視頻或多幅圖像自然會在多個視圖上提供重復(fù)的像素,用于相關(guān)性學(xué)習(xí)(correspondence learning)[38、25、23、24]。由于不同圖像上的真值像素對應(yīng)關(guān)系未知,這些工作通常通過前后關(guān)聯(lián)的弱循環(huán)一致性檢驗(yàn)形成像素級的代理任務(wù)。與這些工作相反,我們通過對一幅圖像的不同視角直接構(gòu)建像素級的對應(yīng)代理任務(wù),從而可以精確地計(jì)算出真值對應(yīng)關(guān)系。利用單個圖像還可以利用大規(guī)模圖像數(shù)據(jù)集進(jìn)行訓(xùn)練(如ImageNet-1K)。
利用單個圖像進(jìn)行像素級學(xué)習(xí)的同期/后續(xù)工作????在我們工作的同時,也有一些論文探討了像素級的自我監(jiān)督表征學(xué)習(xí)代理任務(wù)[31,6,39,42]。其中大部分是基于對比學(xué)習(xí)的,在對比學(xué)習(xí)中,負(fù)例對需要仔細(xì)調(diào)整。在我們的方法中,我們將對比學(xué)習(xí)作為實(shí)例辨別方法的一個直接擴(kuò)展,同時我們還提倡在像素級表示學(xué)習(xí)中使用一致性代理任務(wù)。我們還研究了像素級學(xué)習(xí)和實(shí)例級學(xué)習(xí)的互補(bǔ)性、預(yù)訓(xùn)練頭部網(wǎng)絡(luò)的優(yōu)點(diǎn)以及在半監(jiān)督目標(biāo)檢測中的應(yīng)用。我們的方法在基準(zhǔn)測試上,尤其是在Pascal VOC目標(biāo)檢測基準(zhǔn)測試上,也取得了顯著的提高。
3. 方法
3.1 像素級對比學(xué)習(xí)
目前最先進(jìn)的無監(jiān)督表征學(xué)習(xí)方法都是建立在實(shí)例辨別的代理任務(wù)上。在這一節(jié)中,我們展示了實(shí)例辨別的思想也可以應(yīng)用于像素級的學(xué)習(xí)視覺表征,從而很好地推廣到下游任務(wù)。我們采用了流行的對比損失來實(shí)例化像素級的辨別任務(wù),并將此方法稱為PixContrast。
與大多數(shù)實(shí)例級對比學(xué)習(xí)方法一樣,PixContrast首先從同一幅圖像中抽取兩個增強(qiáng)視圖。這兩個視圖都被重新調(diào)整為固定分辨率(例如,224x224),并通過常規(guī)編碼器網(wǎng)絡(luò)和動量編碼器網(wǎng)絡(luò)(momentum encoder network)[19,10,18]來計(jì)算圖像特征。編碼器網(wǎng)絡(luò)由主干網(wǎng)絡(luò)和投影頭網(wǎng)絡(luò)組成,前者可以是任何一個圖像神經(jīng)網(wǎng)絡(luò)(我們默認(rèn)采用ResNet),后者由兩個連續(xù)的1×1卷積層組成(2048和256個輸出通道,分別使用批處理歸一化層和中間的ReLU層生成特定分辨率的圖像特征圖,例如7×7。以前的方法為每個增強(qiáng)視圖計(jì)算一個單一的圖像特征向量,而PixContrast計(jì)算一個特征圖,在這個特征圖上可以應(yīng)用像素級的代理任務(wù)。學(xué)習(xí)的主干表示然后用于特征遷移。該體系結(jié)構(gòu)的圖示如圖2所示。

像素對比????通過從兩個視圖計(jì)算出的兩個特征映射,我們可以構(gòu)造像素對比度代理任務(wù)來進(jìn)行表征學(xué)習(xí)。首先將特征圖中的每個像素warped到原始圖像空間,然后計(jì)算兩個特征圖中所有像素對之間的距離。將距離標(biāo)準(zhǔn)化為特征圖bin的對角線長度以考慮增強(qiáng)視圖之間的比例差異,并且基于閾值使用標(biāo)準(zhǔn)化過的距離來生成正對和負(fù)對:

其中和
是分別來自兩個視圖中的像素,
表示原始圖像空間中像素
和
之間的歸一化距離;閾值默認(rèn)設(shè)置為
。
與實(shí)例級對比學(xué)習(xí)方法類似,我們采用對比學(xué)習(xí)的損失:

其中是來自第一個視圖中的像素并且也位于第二個視圖中;
和
是第二個視圖中被指定為相對于
是正例或負(fù)例的像素集合。
和
是兩個視圖中的像素特征向量;
是標(biāo)量溫度超參數(shù),默認(rèn)設(shè)置為0.3。損失是兩個視圖相交處第一個視圖上所有像素的平均值。類似地,第二個視圖上像素
的對比損失也被計(jì)算并取平均。最終的損失是一個小批量中所有圖像對的平均值。
如后面的實(shí)驗(yàn)所示,這種將實(shí)例級對比學(xué)習(xí)直接擴(kuò)展到像素級的方法在表征學(xué)習(xí)中表現(xiàn)得很好。
3.2. 像素到傳播一致性
學(xué)習(xí)到的表征的空間敏感性和空間平滑性可能會影響密集預(yù)測的下游任務(wù)的遷移性能。前者衡量的是區(qū)分空間上相近像素的能力,在標(biāo)簽變化的邊界區(qū)域需要精確預(yù)測的情況下是很有用的。而空間平滑性鼓勵空間上接近的像素相似,這有助于預(yù)測屬于同一標(biāo)簽的區(qū)域。上一小節(jié)中描述的PixContrast方法只鼓勵學(xué)習(xí)到的表示具有空間敏感性。接下來,我們提出了一個新的像素級代理任務(wù),它在表示學(xué)習(xí)中引入了空間平滑性。
這項(xiàng)新的代理任務(wù)涉及兩個關(guān)鍵部分。第一個是像素傳播模塊(pixel propagation module),它通過傳播相似像素的特征來濾波像素的特征。這種傳播對所學(xué)習(xí)的表示具有特征去噪/平滑效果,從而在像素級預(yù)測任務(wù)中導(dǎo)致像素之間更一致(coherent)的解。第二個組件是非對稱架構(gòu)設(shè)計(jì),其中一個分支生成規(guī)則的特征圖,另一個分支包含像素傳播模塊。代理任務(wù)在不考慮負(fù)對的情況下,尋求兩個分支特征之間的一致性。一方面,由于規(guī)則分支的存在,這種設(shè)計(jì)在一定程度上保持了學(xué)習(xí)表征的空間敏感性。另一方面,盡管對比學(xué)習(xí)的表現(xiàn)受到負(fù)例處理的嚴(yán)重影響[19,9],不對稱設(shè)計(jì)使得表征學(xué)習(xí)只依賴于正例之間的一致性,而不需要面對仔細(xì)調(diào)整負(fù)例對的問題[18]。我們將此代理任務(wù)稱為像素到傳播一致性(PPC),并在下面描述這些主要組件。
像素傳播模塊????對于每個像素特征,像素傳播模塊通過在同一圖像
內(nèi)傳播來自所有像素
的特征來計(jì)算其平滑變換
:

其中是相似性函數(shù),定義為:

其中是指數(shù),用來控制相似函數(shù)的尖銳程度,默認(rèn)值是2。
是一個變換函數(shù),它可以是
個線性層,每兩層之間有一個BN層和一個ReLU激活層。當(dāng)
,
就是一個恒等映射,公式(3)就是一個無參數(shù)模塊。我們實(shí)驗(yàn)發(fā)現(xiàn)
效果都挺好,我們默認(rèn)設(shè)為
因?yàn)槠湫阅苌晕⒑靡稽c(diǎn)。圖3是我們提的像素傳播模塊。

像素到傳播一致性損失????在非對稱結(jié)構(gòu)設(shè)計(jì)中,有兩種不同的編碼器:一種是帶有像素傳播模塊的常規(guī)編碼器,用于產(chǎn)生平滑的特征;另一種是沒有傳播模塊的動量編碼器。兩個增強(qiáng)視圖都通過兩個編碼器,并且鼓勵來自不同編碼器的特征一致:

其中和
是根據(jù)等式(1)中的分配規(guī)則來自兩個增強(qiáng)視圖的正像素對;
和
分別是動量編碼器和傳播編碼器的像素特征向量。該損失在每幅圖像的所有正對上取平均,然后在小批量圖像上進(jìn)一步平均,以驅(qū)動表征學(xué)習(xí)。
與PixContrast的比較????像素到傳播一致性(PPC)方法的總體架構(gòu)如圖2所示。與3.1節(jié)中描述的PixContrast方法(參見圖2中的藍(lán)色損失)相比,有兩個區(qū)別:引入像素傳播模塊(PPM)和用一致性損失替換對比損失。表2c和表3表明,這兩個區(qū)別對特征傳輸性能至關(guān)重要。
計(jì)算復(fù)雜度????所提出的PixContrast和PixPro方法采用了與基于實(shí)例識別的表示學(xué)習(xí)方法相同的data loader和backbone結(jié)構(gòu)。因此,預(yù)訓(xùn)練中的計(jì)算復(fù)雜度與對應(yīng)實(shí)例級方法(即BYOL[18])類似:使用ResNet-50主干架構(gòu)的8.6G對8.2G的FLOPs,其中頭部和損失在頭部上貢獻(xiàn)約0.4G的FLOPs。
3.3. 根據(jù)下游網(wǎng)絡(luò)調(diào)整預(yù)訓(xùn)練????以往的視覺特征預(yù)訓(xùn)練方法一般局限于分類主干。對于有監(jiān)督的預(yù)訓(xùn)練,即通過ImageNet圖像分類為代理任務(wù),在應(yīng)用預(yù)訓(xùn)練模型時是僅將預(yù)訓(xùn)練的主干特征轉(zhuǎn)移到下游任務(wù)。最近的無監(jiān)督預(yù)訓(xùn)方法延續(xù)了這一做法。一個原因是,預(yù)訓(xùn)練方法在實(shí)例級運(yùn)行,使得它們與下游任務(wù)的頭部網(wǎng)絡(luò)所需的密集預(yù)測不太兼容。
相比之下,像素級代理任務(wù)的細(xì)粒度空間推斷更自然地與密集的下游任務(wù)保持一致。為了檢驗(yàn)這一點(diǎn),我們考慮了一種物體檢測方法FCOS[36],用于密集COCO檢測。FCOS[36]從P3(8x下采樣)到P7(128x下采樣)應(yīng)用了特征金字塔網(wǎng)絡(luò)(FPN)[26],然后在ResNet主干的輸出特征圖上應(yīng)用兩個單獨(dú)的卷積頭網(wǎng)絡(luò)(所有金字塔級別共享),以產(chǎn)生分類和回歸結(jié)果。
從輸入圖像,到頭部網(wǎng)絡(luò)的第3個3x3卷積層,我們使用相同的網(wǎng)絡(luò)結(jié)構(gòu)。在FPN中。我們使用P3到P6級的特征圖,P7分辨率太小了所以我們不用。具有共享權(quán)重的像素傳播模塊(PPM)和第3.2節(jié)中描述的像素到傳播一致性(PPC)損失應(yīng)用于每個金字塔層級。最后的損失首先在每個金字塔水平上取平均值,然后在所有金字塔上取平均值。
預(yù)訓(xùn)練FPN層和用于下游任務(wù)的頭部網(wǎng)絡(luò)通??梢蕴岣哌w移精度,如表5和表6所示。
3.4.與實(shí)例級對比學(xué)習(xí)結(jié)合
所提出的像素級代理任務(wù)采用與最新實(shí)例級辨別方法相同的data loader和編碼器[19,18],從每幅圖像中采樣兩個增強(qiáng)視圖,并將其輸入主干編碼器。因此,通過共享相同的data loader和主干編碼器,我們的像素級方法可以方便地與實(shí)例級代理任務(wù)相結(jié)合,而預(yù)訓(xùn)練開銷很小。
具體地,使用獨(dú)立于像素級任務(wù)的投影頭,在第五級的輸出上應(yīng)用實(shí)例級代理任務(wù)。在這里,我們使用一種流行的實(shí)例級方法SimCLR[9],其包含一個動量編碼器與像素級的代理任務(wù)對齊。在這種組合中,像素級和實(shí)例級代理任務(wù)的兩個損失由乘法因子(默認(rèn)設(shè)置為1)來平衡,如下所示:

一般來說,這兩個任務(wù)是互補(bǔ)的:像素級的代理任務(wù)學(xué)習(xí)有利于空間推理的表征,而實(shí)例級的借口任務(wù)學(xué)習(xí)有利于分類表征。表4顯示,額外的實(shí)例級對比損失可以顯著改善ImageNet-1K的線性評估,表明學(xué)習(xí)了更好的分類表示。很可能是因?yàn)楦玫姆诸惸芰?,它用FCOS[36]在COCO目標(biāo)檢測的下游任務(wù)上顯著提高了遷移精度(大約提高了1個mAP)。
4實(shí)驗(yàn)
4.1. 預(yù)訓(xùn)練設(shè)置
數(shù)據(jù)集????我們采用廣泛使用的ImageNet-1K[12]數(shù)據(jù)集進(jìn)行特征預(yù)訓(xùn)練,該數(shù)據(jù)集由128萬張訓(xùn)練圖像組成。
結(jié)構(gòu)????遵循最近的無監(jiān)督方法[19,18],我們采用ResNet-50[21]模型作為骨干網(wǎng)絡(luò)。這兩個分支使用不同的編碼器,一個使用常規(guī)主干網(wǎng)和常規(guī)投影頭,另一個使用動量網(wǎng)絡(luò),并對常規(guī)主干網(wǎng)和投影頭的參數(shù)進(jìn)行移動平均。我們提出的像素傳播模塊(PPM)應(yīng)用于常規(guī)分支。在一些實(shí)驗(yàn)里還測試了FPN結(jié)構(gòu)(從P3到P6)。
數(shù)據(jù)增強(qiáng)????在預(yù)訓(xùn)練中,數(shù)據(jù)增強(qiáng)策略遵循[18],其中兩個圖形塊是分別獨(dú)立地隨機(jī)裁剪于一張圖像,并隨機(jī)水平翻轉(zhuǎn),并縮放至224×224,然后是顏色畸變、高斯模糊和日光化操作(solarization operation)。我們跳過了無重疊的裁剪對的損失計(jì)算,因?yàn)樗鼈冎徽妓胁眉魧Φ囊恍〔糠帧?/p>
優(yōu)化????訓(xùn)練長度從50到400個epoch不等,在我們的消融研究中使用100個epoch的訓(xùn)練。學(xué)習(xí)率衰減為cosine,優(yōu)化器為LARS,基本學(xué)習(xí)率為1。學(xué)習(xí)率與批量大小成線性比例,。權(quán)重衰減為1e-5。總批量大小設(shè)置為1024,使用8個V100 gpu。對于動量編碼器,動量值從0.99開始增加至1,和[18]一樣。訓(xùn)練期間啟用同步批處理規(guī)范化(Synchronized batch normalization)。
4.2. 下游任務(wù)和設(shè)置
我們評估了四個下游任務(wù)的特征遷移性能:Pascal VOC上的目標(biāo)檢測[16]、COCO上的目標(biāo)檢測[27]、Cityscapes上的語義分割[11]和COCO上的半監(jiān)督目標(biāo)檢測[33]。在一些實(shí)驗(yàn)中,我們還報道了ImageNet-1K[12]的線性評價性能,以供參考。
Pascal VOC目標(biāo)檢測????我們嚴(yán)格遵循[19]中介紹的設(shè)置,即Faster R-CNN檢測器[32],具有ResNet50-C4主干,它使用Conv4特征圖生成物體候選框,并使用Conv5階段進(jìn)行分類和回歸。在微調(diào)中,我們同步所有批處理規(guī)范化層并優(yōu)化所有層。在測試中,我們報告了2007年測試集上的AP、AP50和AP75。在代碼里使用了Detectron2[40]。
COCO目標(biāo)檢測與實(shí)例分割????我們分別采用ResNet50-FPN和ResNet50-C4[20,26]主干的Mask R-CNN檢測器。在優(yōu)化中,我們遵循1x設(shè)置,所有批處理規(guī)范化層同步,所有層微調(diào)[19]。我們采用Detectron2[40]作為這些實(shí)驗(yàn)的代碼。
我們還考慮了其他具有完全卷積結(jié)構(gòu)的檢測器,例如FCOS[36]。對于這些實(shí)驗(yàn),我們遵循1x設(shè)置并使用mmdetection代碼[7]。
Cityscapes語義分割????我們遵循MoCo的設(shè)置[19],其中使用了基于FCN的結(jié)構(gòu)[28]。FCN網(wǎng)絡(luò)由一個ResNet-50主干組成,conv5的3x3卷積層的擴(kuò)張率為2,滑動步幅為1,后面再接2個通道數(shù)為256、擴(kuò)張率為6的卷積層。再接一個1x1卷積層作為分類層。
半監(jiān)督目標(biāo)檢測????我們還研究了半監(jiān)督學(xué)習(xí)在COCO上的目標(biāo)檢測。為此,從訓(xùn)練集中隨機(jī)抽樣的一小部分(1%-10%)圖像被分配標(biāo)簽并用于微調(diào)。每種方法五次隨機(jī)試驗(yàn)的結(jié)果取平均值。
ImageNet-1K線性評估????在這個任務(wù)中,我們固定預(yù)訓(xùn)練的特征,只微調(diào)了一個額外的線性分類層,完全遵循MoCo的設(shè)置[19]。我們報告這些結(jié)果以供參考。
4.3. 主要的遷移學(xué)習(xí)結(jié)果
表1比較了所提出的方法與以前最先進(jìn)的無監(jiān)督預(yù)訓(xùn)練方法對4個下游任務(wù),這4個任務(wù)都需要密集的預(yù)測。我們的Pix Pro在Pascal VOC對象檢測(R50-C4)、COCO對象檢測(R50-FPN/R50-C4)和Cityscapes語義分割(R50)上實(shí)現(xiàn)了60.2 AP、41.4/40.5 mAP和77.2 mIoU。該方法在Pascal-VOC上的性能優(yōu)于以往的最佳無監(jiān)督方法,在Pascal-VOC上的性能優(yōu)于2.6 AP,在COCO上的性能優(yōu)于0.8/1.0 mAP,在城市景觀上的性能優(yōu)于1.0 mIoU。

4.4. 消融研究
我們使用Pascal VOC(R50-C4)和COCO目標(biāo)檢測(R50-FPN)任務(wù)進(jìn)行消融研究。在一些實(shí)驗(yàn)中,包括了FCOS檢測器對COCO的檢測結(jié)果和半監(jiān)督檢測結(jié)果。
PixPro的超參數(shù)????表2檢驗(yàn)了PixPro對超參數(shù)的敏感性。對于每個超參數(shù)的消融,我們將所有其他超參數(shù)固定為以下默認(rèn)值:C5的特征映射,距離閾值,銳度指數(shù)
,像素到傳播模塊的變換層數(shù)
,訓(xùn)練長度為100個epoch。

表2a-b使用C5和P3的特征圖來消融距離閾值。對于這兩種情況,T=0.7會產(chǎn)生良好的性能。由于P3的分辨率較大,其結(jié)果更穩(wěn)定。
表2c列出了銳度指數(shù),其中顯示了最佳結(jié)果。過于平滑或過于尖銳的相似函數(shù)會損害傳輸性能。
表2d列出了中變換層的數(shù)量,其中
的性能略好于其他。注意,當(dāng)
時,也即像素傳播模塊(PPM)中沒有可學(xué)習(xí)參數(shù),預(yù)訓(xùn)練也能很好地執(zhí)行,而移除PPM模塊則導(dǎo)致模型崩潰。PPM模塊中的平滑操作引入了相對于其他規(guī)則分支的不對稱性,從而避免了崩潰解[18]。
表2e列出了特征圖的選擇??梢钥闯觯褂胮3和p4的高分辨率特征圖與使用c5的性能相似。使用所有的p3-p6特征圖可以顯著提高COCO目標(biāo)檢測的遷移學(xué)習(xí)準(zhǔn)確度,但在Pascal-VOC目標(biāo)檢測中的遷移準(zhǔn)確度較差。由于Pascal VOC數(shù)據(jù)集使用ResNet-C4主干,COCO數(shù)據(jù)集使用ResNet-FPN主干,這一結(jié)果表明,預(yù)訓(xùn)練和下游任務(wù)之間的一致架構(gòu)可能會給出更好的結(jié)果。
表2f說明了訓(xùn)練長度的影響。增加訓(xùn)練長度通常會導(dǎo)致更好的遷移學(xué)習(xí)性能。我們的最大訓(xùn)練長度是400。與200次epoch訓(xùn)練相比,對Pascal VOC的AP增益為0.7,而對COCO的AP增益幾乎為飽和。我們將在今后的工作中審查長期訓(xùn)練的結(jié)果。
PixPro與PixContrast的比較? ? 表3列出了具有不同的、使用或不使用像素傳播模塊(PPM)的PixContrast的遷移學(xué)習(xí)性能。表3還列出了使用或不使用PPM的PixPro方法的結(jié)果。可以看出,雖然PixContrast方法實(shí)現(xiàn)了合理的遷移性能,但是PixPro方法更好,特別是在Pascal VOC和COCO上分別比PixContrast方法好0.7AP和2.0MAP。

包含像素傳播模塊(PPM)會導(dǎo)致PixContrast方法的性能較差,可能是過度平滑的原因。相反,對于PixPro,在Pascal VOC和COCO上添加PPM分別提高了0.8 AP和1.1 mAP的傳輸性能,并且避免了使用超參數(shù)。注意:雖然直接刪除PPM會導(dǎo)致模型崩潰,但我們添加了一個線性變換層來避免這種崩潰問題。還請注意,表2c也證明了這種空間平滑在表征學(xué)習(xí)中的好處,其中過于平滑或過于尖銳的相似性函數(shù)會損害傳遞性能。
結(jié)合實(shí)例級對比方法
表4展示了將所提出的PixPro方法與實(shí)例級代理任務(wù)(Sim-CLR*)相結(jié)合進(jìn)行表征學(xué)習(xí)的效果。由于data loader和編碼器的共享,這種組合帶來的額外計(jì)算量微乎其微。

可以看出,額外的實(shí)例級代理任務(wù)可以顯著提高ImageNet-1K的線性評估準(zhǔn)確度,同時保持COCO(Mask R-CNN R50-FPN)和Pascal VOC的遷移準(zhǔn)確度。我們還觀察到在一些任務(wù)上1.2 mAP的顯著轉(zhuǎn)移改進(jìn),例如COCO上的FCOS[36],如表5所示。
頭網(wǎng)絡(luò)預(yù)訓(xùn)練的效果????表5列出了COCO目標(biāo)檢測的頭部網(wǎng)絡(luò)預(yù)訓(xùn)練(或使用更類似于微調(diào)任務(wù)的架構(gòu))。對于COCO目標(biāo)檢測,我們使用FCOS檢測器,它是完全卷積的。我們評估額外的FPN結(jié)構(gòu),一個由三個連續(xù)卷積層組成的頭部網(wǎng)絡(luò)的遷移性能??梢钥闯觯嗟念A(yù)訓(xùn)練層可以更好地傳遞下游任務(wù)的準(zhǔn)確性。

半監(jiān)督目標(biāo)檢測結(jié)果????表6顯示了使用1%和10%COCO標(biāo)記數(shù)據(jù)的半監(jiān)督結(jié)果。對Mask R-CNN(R50-FPN)檢測器進(jìn)行了測試。我們最好的預(yù)訓(xùn)練模型明顯優(yōu)于以前的實(shí)例級監(jiān)督/無監(jiān)督方法。使用1%和10%的訓(xùn)練數(shù)據(jù),增益分別為+3.9map和+2.3map。

結(jié)果表明,在預(yù)訓(xùn)練和下游任務(wù)之間對齊網(wǎng)絡(luò)具有優(yōu)勢。在預(yù)訓(xùn)練中加入額外的FPN層比只預(yù)訓(xùn)練骨干網(wǎng)的方法帶來+0.9和+0.7 mAP增益(14.1和26.6 vs.13.2和25.9)。
在ImageNet-1K預(yù)訓(xùn)練之后,我們還增加了一個額外的COCO預(yù)訓(xùn)練階段,使用我們提出的像素級代理任務(wù),訓(xùn)練120個epoch。當(dāng)分別使用1%和10%的訓(xùn)練數(shù)據(jù)時,它導(dǎo)致額外的+0.7 mAP增益和+0.2 mAP增益。當(dāng)只有稀缺的標(biāo)記數(shù)據(jù)可用時,直接對下游未標(biāo)記數(shù)據(jù)進(jìn)行額外的預(yù)訓(xùn)練可能有利于學(xué)習(xí)。
5 結(jié)論
本文探討了使用像素級的代理任務(wù)來學(xué)習(xí)密集的特征表示。我們首先直接在像素級應(yīng)用對比學(xué)習(xí),從而在需要密集預(yù)測的下游任務(wù)上獲得合理的傳輸性能。我們還提出了一個像素到傳播一致性任務(wù),該任務(wù)在表示學(xué)習(xí)過程中引入了一定的平滑度先驗(yàn),并且不需要對負(fù)樣本進(jìn)行處理。這種方法稱為PixPro,當(dāng)學(xué)習(xí)到的表示被轉(zhuǎn)移到Pascal VOC(Faster R-CNN R50-C4)和COCO目標(biāo)檢測(mask R-CNN R50-FPN/R50-C4)的下游任務(wù)時,達(dá)到60.2 AP和41.4/40.5 mAP精度,其中2.6ap和0.8/1.0map優(yōu)于以往的最佳監(jiān)督/無監(jiān)督預(yù)訓(xùn)練方法。這些結(jié)果顯示了在像素級代理任務(wù)的強(qiáng)大潛力,并為無監(jiān)督視覺表征學(xué)習(xí)提供了一條新的途徑。作為學(xué)習(xí)單個圖像的強(qiáng)表征的一個通用代理,該方法同樣適用于視頻和多模態(tài)信號的視覺表征學(xué)習(xí)。