精品Av熟女一区二区,亚洲操穴视频,国产成人av1

Propagate Yourself: Exploring Pixel-Level Consistency for Unsupervised Visual Representation Learning

https://arxiv.org/abs/2011.10043

https://hub.fastgit.org/zdaxie/PixPro

https://hub.fastgit.org/lucidrains/pixel-level-contrastive-learning

https://hub.fastgit.org/CoinCheung/SelfSup/tree/master/PixPro

https://ancientmooner.github.io/doc/recent-progress-self-supervised-learning-cv-hanhu.pdf

https://mp.weixin.qq.com/s/ZYp6T1TBpjx_2J1W1oQWYA

非監(jiān)督視覺表征學(xué)習(xí)的對比學(xué)習(xí)方法在遷移學(xué)習(xí)上達(dá)到了顯著水平。我們認(rèn)為，對比學(xué)習(xí)的力量還沒有完全釋放出來，因?yàn)槟壳暗姆椒ㄖ辉趯?shí)例級的代理任務(wù)上進(jìn)行訓(xùn)練，導(dǎo)致視覺表示對于需要密集像素預(yù)測的下游任務(wù)來說可能是次優(yōu)的。在本文中，我們介紹了像素級的代理任務(wù)學(xué)習(xí)密集的特征表示。第一個任務(wù)是在像素級直接運(yùn)用對比學(xué)習(xí)。此外，我們還提出了一個像素到傳播一致性任務(wù)，該任務(wù)可以產(chǎn)生更好的結(jié)果，甚至大大超過最先進(jìn)的方法。具體來說，當(dāng)使用ResNet-50的主干時，其遷移至Pascal VOC檢測、COCO檢測、Cityscapes語義分割時，分別達(dá)到60.2AP、41.4/40.5 mAP和77.2mIoU，比之前實(shí)例級對比學(xué)習(xí)的最佳結(jié)果要好2.6AP、0.8/1.0 mAP、1.0mIoU。此外，像素級的代理任務(wù)不僅可用于主干網(wǎng)絡(luò)，也可用于密集下游任務(wù)的頭網(wǎng)絡(luò)，是實(shí)例級對比方法的補(bǔ)充。這些結(jié)果顯示了在像素級定義代理任務(wù)的強(qiáng)大潛力，并為無監(jiān)督視覺表示學(xué)習(xí)提供了一條新的途徑。

圖1。提出了一種基于像素到傳播一致性借口任務(wù)的像素級視覺表征學(xué)習(xí)PixPro方法。在該方法中，從一幅圖像（黑色輪廓）中隨機(jī)裁剪出兩個視圖，并對這兩個視圖對應(yīng)像素的特征進(jìn)行編碼，使其具有一致性。對于其中一個，特征來自一個規(guī)則的像素表示（圖示為橙色十字）。另一個特征來自通過傳播相似像素的特征（如淺綠色區(qū)域所示）構(gòu)建的平滑像素表示（如綠點(diǎn)所示）。請注意，在示意圖中我們只是選取了一部分像素作為相似相似（淺綠區(qū)域），這是為了方便說明，。在實(shí)現(xiàn)中，同一視圖上的所有像素將用于傳播，每個像素的傳播權(quán)重由其與中心像素的特征相似性確定。

1. 引言

Yann LeCun認(rèn)為，“如果智力是一塊蛋糕，那么蛋糕的大部分就是無監(jiān)督的學(xué)習(xí)”。這句話反映了他的信念，即人類對世界的理解主要是從其中大量未標(biāo)記的信息中學(xué)到的。隨著無監(jiān)督和自監(jiān)督學(xué)習(xí)的實(shí)質(zhì)性進(jìn)展，機(jī)器智能的研究越來越朝著這個方向發(fā)展[41，19，29，9，35]。在計(jì)算機(jī)視覺中，最近的進(jìn)展很大程度上可以歸因于一種被稱為實(shí)例辨別(instance discrimination)的代理任務(wù)的使用，該任務(wù)將訓(xùn)練集中的每幅圖像視為一個單獨(dú)的類，目的是學(xué)習(xí)能辨別每個類的特征表示。

雖然自監(jiān)督學(xué)習(xí)已被證明是非常成功的，我們認(rèn)為，仍然有很大的潛力尚未開發(fā)。在現(xiàn)有的表征學(xué)習(xí)方法中，表征學(xué)習(xí)的自監(jiān)督是基于圖像級比較的。這導(dǎo)致，預(yù)訓(xùn)練表示可能非常適合于圖像級的推斷，例如圖像分類，但是可能缺乏需要像素級預(yù)測的下游任務(wù)所需的空間敏感性，例如，物體檢測和語義分割。如何在像素級進(jìn)行自監(jiān)督表示學(xué)習(xí)是一個迄今為止還沒有被探索過的問題。

在本文中，我們通過引入像素級的代理任務(wù)來解決這個問題。受最近實(shí)例辨別方法的啟發(fā)，我們的第一個嘗試是構(gòu)建一個像素級的對比學(xué)習(xí)任務(wù)，將圖像中的每個像素視為一個單獨(dú)的類，目標(biāo)是將圖像中的每個像素與其他像素區(qū)分開來。通過包含同一像素的兩個隨機(jī)裁剪區(qū)域來提取同一像素的特征，并利用這些特征形成正的訓(xùn)練對。另一方面，從不同像素獲得的特征被視為負(fù)對。通過這種自監(jiān)督的方式收集訓(xùn)練數(shù)據(jù)，采用對比損失來學(xué)習(xí)表示。我們稱這種方法為PixContrast。

除此之外，我們還提出了一種基于像素到傳播一致性的方法，通過兩條非對稱管道從同一像素中提取特征來獲得正對。第一條管道是帶有投影頭的標(biāo)準(zhǔn)主干網(wǎng)。另一條管道具有類似的形式，但后接的是我們提出的

像素傳播模塊(pixel propagation module，PPM)，該模塊通過向像素傳播相似像素的特征來濾波像素的特征。這種濾波引入了一定的平滑效果，而標(biāo)準(zhǔn)特征保持了空間敏感性。這種方法與PixContrast的一個不同之處在于，它鼓勵正例之間的一致性，而不考慮負(fù)例對。眾所周知，對比學(xué)習(xí)的表現(xiàn)很大程度上受負(fù)例對處理方式的影響[19,9]，但在這種基于一致性的代理任務(wù)中，這個影響是可以避免的。經(jīng)驗(yàn)上，我們發(fā)現(xiàn)這種像素到傳播的一致性方法，我們稱之為PixPro，在各種下游任務(wù)中顯著優(yōu)于PixContrast方法。

除了學(xué)習(xí)良好的像素級表示外，本文提出的像素級代理任務(wù)不僅對主干網(wǎng)有效，而且對用于密集下游任務(wù)的頭網(wǎng)絡(luò)也有效，而實(shí)例級對比學(xué)習(xí)方法只能用于主干網(wǎng)絡(luò)。這對于具有有限注釋數(shù)據(jù)的下游任務(wù)尤其有利，因?yàn)樗袑佣伎梢院芎玫爻跏蓟?。此外，所提出的像素級方法是對現(xiàn)有實(shí)例級方法的補(bǔ)充，前者擅長學(xué)習(xí)空間敏感的表示，后者提供更好的分類能力。將兩種方法組合起來使用可以利用它們各自的優(yōu)點(diǎn)，而且保持了預(yù)訓(xùn)練的計(jì)算效率，因?yàn)閮烧呖梢怨蚕?data loader和主干編碼器。

所提出的PixPro在需要密集預(yù)測的常見下游基準(zhǔn)上實(shí)現(xiàn)了最先進(jìn)的遷移性能。具體來說，使用ResNet-50主干，它使用Faster R-CNN檢測器（C4版本）在Pascal VOC對象檢測上獲得60.2 AP，使用Mask R-CNN檢測器在COCO檢測上獲得41.4/40.5 mAP（兩者都是FPN/C4版本，1x設(shè)置），以及使用FCN方法的77.2 mIoU的Cityscapes語義分割，比之前實(shí)例級對比學(xué)習(xí)的最佳結(jié)果要好2.6AP、0.8/1.0 mAP、1.0mIoU。盡管過去對無監(jiān)督表示學(xué)習(xí)的評價大多偏向于ImageNet上的線性分類，但我們主張將注意力轉(zhuǎn)移到下游任務(wù)的性能上，這是無監(jiān)督表示學(xué)習(xí)的主要目的，也是像素級方法的一個很有前景的設(shè)置。

2 相關(guān)工作

實(shí)例辨別????無監(jiān)督的視覺表征學(xué)習(xí)目前主要是以實(shí)例辨別為代理任務(wù)，它將每個圖像作為一個類，通過區(qū)分每個圖像和所有其他圖像來學(xué)習(xí)表征。這一研究路線可追溯到[15]，經(jīng)過多年的發(fā)展[41、34、22、46、1、43]，MoCo[19]在廣泛的下游任務(wù)中實(shí)現(xiàn)了優(yōu)于監(jiān)督方法的遷移性能。在這一里程碑之后，相當(dāng)多的工作集中在這個方向上[9，35，3，18，5]。雖然后續(xù)工作已使用ResNet-50主干將ImageNet-1K的線性評估精度（top-1）從約60%[19]快速提高到75%[5]以上，但對下游任務(wù)（如Pascal VOC和COCO上的目標(biāo)檢測）的改進(jìn)微不足道。

我們的工作不是使用實(shí)例級的代理任務(wù)，而是在像素級探索用于無監(jiān)督特征學(xué)習(xí)的代理任務(wù)。本文主要研究對象檢測和語義分割等下游任務(wù)的遷移性能，這些問題在以往的研究中沒有得到很多的關(guān)注。我們證明了像素級的表示學(xué)習(xí)可以大大超過現(xiàn)有的實(shí)例級方法，顯示了這一方向的潛力。

使用單個圖像的其他代理任務(wù)????除了實(shí)例辨別之外，還有許多其他代理任務(wù)，包括上下文預(yù)測[14]、灰度圖像彩色化[44]、拼圖[30]、split-brain auto-encoding[45]、旋轉(zhuǎn)預(yù)測[17]、學(xué)習(xí)聚類[4]和缺失部分預(yù)測[22、37、8]。由于這些方法在結(jié)構(gòu)和訓(xùn)練策略上很復(fù)雜，而且性能差，在這些方法上的無監(jiān)督特征學(xué)習(xí)的興趣已經(jīng)大大降低。在這些方法中，與我們最相關(guān)的方法是缺失部分預(yù)測[22，37，8]，這是受到自然語言處理中成功的借代理任務(wù)的啟發(fā)[13，2]。像我們的像素傳播一致性技術(shù)一樣，這種方法也是關(guān)注于局部模式。然而，缺失部分預(yù)測要么將圖像分割成塊[37，22]，要么需要特殊的結(jié)構(gòu)/訓(xùn)練策略才能很好地執(zhí)行[22，8]，而我們的方法直接操作像素，對編碼網(wǎng)絡(luò)沒有特殊要求。用我們的方法訓(xùn)練也很簡單，不需要什么花里胡哨的東西(with few bells and whistles)。更重要的是，我們的方法在目標(biāo)檢測和語義分割等重要的密集預(yù)測任務(wù)上實(shí)現(xiàn)了最先進(jìn)的遷移性能。

視頻或多幅圖像的像素級自監(jiān)督學(xué)習(xí)????視頻或多幅圖像自然會在多個視圖上提供重復(fù)的像素，用于相關(guān)性學(xué)習(xí)(correspondence learning)[38、25、23、24]。由于不同圖像上的真值像素對應(yīng)關(guān)系未知，這些工作通常通過前后關(guān)聯(lián)的弱循環(huán)一致性檢驗(yàn)形成像素級的代理任務(wù)。與這些工作相反，我們通過對一幅圖像的不同視角直接構(gòu)建像素級的對應(yīng)代理任務(wù)，從而可以精確地計(jì)算出真值對應(yīng)關(guān)系。利用單個圖像還可以利用大規(guī)模圖像數(shù)據(jù)集進(jìn)行訓(xùn)練（如ImageNet-1K）。

利用單個圖像進(jìn)行像素級學(xué)習(xí)的同期/后續(xù)工作????在我們工作的同時，也有一些論文探討了像素級的自我監(jiān)督表征學(xué)習(xí)代理任務(wù)[31，6，39，42]。其中大部分是基于對比學(xué)習(xí)的，在對比學(xué)習(xí)中，負(fù)例對需要仔細(xì)調(diào)整。在我們的方法中，我們將對比學(xué)習(xí)作為實(shí)例辨別方法的一個直接擴(kuò)展，同時我們還提倡在像素級表示學(xué)習(xí)中使用一致性代理任務(wù)。我們還研究了像素級學(xué)習(xí)和實(shí)例級學(xué)習(xí)的互補(bǔ)性、預(yù)訓(xùn)練頭部網(wǎng)絡(luò)的優(yōu)點(diǎn)以及在半監(jiān)督目標(biāo)檢測中的應(yīng)用。我們的方法在基準(zhǔn)測試上，尤其是在Pascal VOC目標(biāo)檢測基準(zhǔn)測試上，也取得了顯著的提高。

3. 方法

3.1 像素級對比學(xué)習(xí)

目前最先進(jìn)的無監(jiān)督表征學(xué)習(xí)方法都是建立在實(shí)例辨別的代理任務(wù)上。在這一節(jié)中，我們展示了實(shí)例辨別的思想也可以應(yīng)用于像素級的學(xué)習(xí)視覺表征，從而很好地推廣到下游任務(wù)。我們采用了流行的對比損失來實(shí)例化像素級的辨別任務(wù)，并將此方法稱為PixContrast。

與大多數(shù)實(shí)例級對比學(xué)習(xí)方法一樣，PixContrast首先從同一幅圖像中抽取兩個增強(qiáng)視圖。這兩個視圖都被重新調(diào)整為固定分辨率（例如，224x224），并通過常規(guī)編碼器網(wǎng)絡(luò)和動量編碼器網(wǎng)絡(luò)（momentum encoder network）[19，10，18]來計(jì)算圖像特征。編碼器網(wǎng)絡(luò)由主干網(wǎng)絡(luò)和投影頭網(wǎng)絡(luò)組成，前者可以是任何一個圖像神經(jīng)網(wǎng)絡(luò)（我們默認(rèn)采用ResNet），后者由兩個連續(xù)的1×1卷積層組成（2048和256個輸出通道，分別使用批處理歸一化層和中間的ReLU層生成特定分辨率的圖像特征圖，例如7×7。以前的方法為每個增強(qiáng)視圖計(jì)算一個單一的圖像特征向量，而PixContrast計(jì)算一個特征圖，在這個特征圖上可以應(yīng)用像素級的代理任務(wù)。學(xué)習(xí)的主干表示然后用于特征遷移。該體系結(jié)構(gòu)的圖示如圖2所示。

圖2 PixContrast和PixPro的結(jié)構(gòu)

像素對比????通過從兩個視圖計(jì)算出的兩個特征映射，我們可以構(gòu)造像素對比度代理任務(wù)來進(jìn)行表征學(xué)習(xí)。首先將特征圖中的每個像素warped到原始圖像空間，然后計(jì)算兩個特征圖中所有像素對之間的距離。將距離標(biāo)準(zhǔn)化為特征圖bin的對角線長度以考慮增強(qiáng)視圖之間的比例差異，并且基于閾值使用標(biāo)準(zhǔn)化過的距離來生成正對和負(fù)對：

其中 $i$ 和 $j$ 是分別來自兩個視圖中的像素， $dist(i,j)$ 表示原始圖像空間中像素 $i$ 和 $j$ 之間的歸一化距離；閾值默認(rèn)設(shè)置為 $T=0.7$ 。

與實(shí)例級對比學(xué)習(xí)方法類似，我們采用對比學(xué)習(xí)的損失：

其中 $i$ 是來自第一個視圖中的像素并且也位于第二個視圖中； ${\Omega }_{p}^i$ 和 ${\Omega }_{n}^i$ 是第二個視圖中被指定為相對于 $i$ 是正例或負(fù)例的像素集合。 $x_{i}$ 和 $x_{j}’$ 是兩個視圖中的像素特征向量； $\tau$ 是標(biāo)量溫度超參數(shù)，默認(rèn)設(shè)置為0.3。損失是兩個視圖相交處第一個視圖上所有像素的平均值。類似地，第二個視圖上像素 $j$ 的對比損失也被計(jì)算并取平均。最終的損失是一個小批量中所有圖像對的平均值。

如后面的實(shí)驗(yàn)所示，這種將實(shí)例級對比學(xué)習(xí)直接擴(kuò)展到像素級的方法在表征學(xué)習(xí)中表現(xiàn)得很好。

3.2. 像素到傳播一致性

學(xué)習(xí)到的表征的空間敏感性和空間平滑性可能會影響密集預(yù)測的下游任務(wù)的遷移性能。前者衡量的是區(qū)分空間上相近像素的能力，在標(biāo)簽變化的邊界區(qū)域需要精確預(yù)測的情況下是很有用的。而空間平滑性鼓勵空間上接近的像素相似，這有助于預(yù)測屬于同一標(biāo)簽的區(qū)域。上一小節(jié)中描述的PixContrast方法只鼓勵學(xué)習(xí)到的表示具有空間敏感性。接下來，我們提出了一個新的像素級代理任務(wù)，它在表示學(xué)習(xí)中引入了空間平滑性。

這項(xiàng)新的代理任務(wù)涉及兩個關(guān)鍵部分。第一個是像素傳播模塊(pixel propagation module)，它通過傳播相似像素的特征來濾波像素的特征。這種傳播對所學(xué)習(xí)的表示具有特征去噪/平滑效果，從而在像素級預(yù)測任務(wù)中導(dǎo)致像素之間更一致(coherent)的解。第二個組件是非對稱架構(gòu)設(shè)計(jì)，其中一個分支生成規(guī)則的特征圖，另一個分支包含像素傳播模塊。代理任務(wù)在不考慮負(fù)對的情況下，尋求兩個分支特征之間的一致性。一方面，由于規(guī)則分支的存在，這種設(shè)計(jì)在一定程度上保持了學(xué)習(xí)表征的空間敏感性。另一方面，盡管對比學(xué)習(xí)的表現(xiàn)受到負(fù)例處理的嚴(yán)重影響[19,9]，不對稱設(shè)計(jì)使得表征學(xué)習(xí)只依賴于正例之間的一致性，而不需要面對仔細(xì)調(diào)整負(fù)例對的問題[18]。我們將此代理任務(wù)稱為像素到傳播一致性（PPC），并在下面描述這些主要組件。

像素傳播模塊????對于每個像素特征 $x_{i}$ ，像素傳播模塊通過在同一圖像 $\Omega$ 內(nèi)傳播來自所有像素 $x_{j}$ 的特征來計(jì)算其平滑變換 $y_{i}$ ：

其中 $s(\cdot ,\cdot )$ 是相似性函數(shù)，定義為：

其中 $\gamma$ 是指數(shù)，用來控制相似函數(shù)的尖銳程度，默認(rèn)值是2。 $g(\cdot )$ 是一個變換函數(shù)，它可以是 $l$ 個線性層，每兩層之間有一個BN層和一個ReLU激活層。當(dāng) $l=0$ ， $g(\cdot )$ 就是一個恒等映射，公式(3)就是一個無參數(shù)模塊。我們實(shí)驗(yàn)發(fā)現(xiàn) $l=\left\{ {0,1,2} \right\}$ 效果都挺好，我們默認(rèn)設(shè)為 $l=1$ 因?yàn)槠湫阅苌晕⒑靡稽c(diǎn)。圖3是我們提的像素傳播模塊。

圖3 PPM模塊

像素到傳播一致性損失????在非對稱結(jié)構(gòu)設(shè)計(jì)中，有兩種不同的編碼器：一種是帶有像素傳播模塊的常規(guī)編碼器，用于產(chǎn)生平滑的特征；另一種是沒有傳播模塊的動量編碼器。兩個增強(qiáng)視圖都通過兩個編碼器，并且鼓勵來自不同編碼器的特征一致：

其中 $i$ 和 $j$ 是根據(jù)等式(1)中的分配規(guī)則來自兩個增強(qiáng)視圖的正像素對； $x_{i}’$ 和 $y_{i}$ 分別是動量編碼器和傳播編碼器的像素特征向量。該損失在每幅圖像的所有正對上取平均，然后在小批量圖像上進(jìn)一步平均，以驅(qū)動表征學(xué)習(xí)。

與PixContrast的比較????像素到傳播一致性（PPC）方法的總體架構(gòu)如圖2所示。與3.1節(jié)中描述的PixContrast方法（參見圖2中的藍(lán)色損失）相比，有兩個區(qū)別：引入像素傳播模塊（PPM）和用一致性損失替換對比損失。表2c和表3表明，這兩個區(qū)別對特征傳輸性能至關(guān)重要。

計(jì)算復(fù)雜度????所提出的PixContrast和PixPro方法采用了與基于實(shí)例識別的表示學(xué)習(xí)方法相同的data loader和backbone結(jié)構(gòu)。因此，預(yù)訓(xùn)練中的計(jì)算復(fù)雜度與對應(yīng)實(shí)例級方法（即BYOL[18]）類似：使用ResNet-50主干架構(gòu)的8.6G對8.2G的FLOPs，其中頭部和損失在頭部上貢獻(xiàn)約0.4G的FLOPs。

3.3. 根據(jù)下游網(wǎng)絡(luò)調(diào)整預(yù)訓(xùn)練????以往的視覺特征預(yù)訓(xùn)練方法一般局限于分類主干。對于有監(jiān)督的預(yù)訓(xùn)練，即通過ImageNet圖像分類為代理任務(wù)，在應(yīng)用預(yù)訓(xùn)練模型時是僅將預(yù)訓(xùn)練的主干特征轉(zhuǎn)移到下游任務(wù)。最近的無監(jiān)督預(yù)訓(xùn)方法延續(xù)了這一做法。一個原因是，預(yù)訓(xùn)練方法在實(shí)例級運(yùn)行，使得它們與下游任務(wù)的頭部網(wǎng)絡(luò)所需的密集預(yù)測不太兼容。

相比之下，像素級代理任務(wù)的細(xì)粒度空間推斷更自然地與密集的下游任務(wù)保持一致。為了檢驗(yàn)這一點(diǎn)，我們考慮了一種物體檢測方法FCOS[36]，用于密集COCO檢測。FCOS[36]從P3（8x下采樣）到P7（128x下采樣）應(yīng)用了特征金字塔網(wǎng)絡(luò)（FPN）[26]，然后在ResNet主干的輸出特征圖上應(yīng)用兩個單獨(dú)的卷積頭網(wǎng)絡(luò)（所有金字塔級別共享），以產(chǎn)生分類和回歸結(jié)果。

從輸入圖像，到頭部網(wǎng)絡(luò)的第3個3x3卷積層，我們使用相同的網(wǎng)絡(luò)結(jié)構(gòu)。在FPN中。我們使用P3到P6級的特征圖，P7分辨率太小了所以我們不用。具有共享權(quán)重的像素傳播模塊（PPM）和第3.2節(jié)中描述的像素到傳播一致性（PPC）損失應(yīng)用于每個金字塔層級。最后的損失首先在每個金字塔水平上取平均值，然后在所有金字塔上取平均值。

預(yù)訓(xùn)練FPN層和用于下游任務(wù)的頭部網(wǎng)絡(luò)通?？梢蕴岣哌w移精度，如表5和表6所示。

3.4.與實(shí)例級對比學(xué)習(xí)結(jié)合

所提出的像素級代理任務(wù)采用與最新實(shí)例級辨別方法相同的data loader和編碼器[19，18]，從每幅圖像中采樣兩個增強(qiáng)視圖，并將其輸入主干編碼器。因此，通過共享相同的data loader和主干編碼器，我們的像素級方法可以方便地與實(shí)例級代理任務(wù)相結(jié)合，而預(yù)訓(xùn)練開銷很小。

具體地，使用獨(dú)立于像素級任務(wù)的投影頭，在第五級的輸出上應(yīng)用實(shí)例級代理任務(wù)。在這里，我們使用一種流行的實(shí)例級方法SimCLR[9]，其包含一個動量編碼器與像素級的代理任務(wù)對齊。在這種組合中，像素級和實(shí)例級代理任務(wù)的兩個損失由乘法因子 $\alpha$ （默認(rèn)設(shè)置為1）來平衡，如下所示：

一般來說，這兩個任務(wù)是互補(bǔ)的：像素級的代理任務(wù)學(xué)習(xí)有利于空間推理的表征，而實(shí)例級的借口任務(wù)學(xué)習(xí)有利于分類表征。表4顯示，額外的實(shí)例級對比損失可以顯著改善ImageNet-1K的線性評估，表明學(xué)習(xí)了更好的分類表示。很可能是因?yàn)楦玫姆诸惸芰?，它用FCOS[36]在COCO目標(biāo)檢測的下游任務(wù)上顯著提高了遷移精度（大約提高了1個mAP）。

4實(shí)驗(yàn)

4.1. 預(yù)訓(xùn)練設(shè)置

數(shù)據(jù)集????我們采用廣泛使用的ImageNet-1K[12]數(shù)據(jù)集進(jìn)行特征預(yù)訓(xùn)練，該數(shù)據(jù)集由128萬張訓(xùn)練圖像組成。

結(jié)構(gòu)????遵循最近的無監(jiān)督方法[19，18]，我們采用ResNet-50[21]模型作為骨干網(wǎng)絡(luò)。這兩個分支使用不同的編碼器，一個使用常規(guī)主干網(wǎng)和常規(guī)投影頭，另一個使用動量網(wǎng)絡(luò)，并對常規(guī)主干網(wǎng)和投影頭的參數(shù)進(jìn)行移動平均。我們提出的像素傳播模塊（PPM）應(yīng)用于常規(guī)分支。在一些實(shí)驗(yàn)里還測試了FPN結(jié)構(gòu)（從P3到P6）。

數(shù)據(jù)增強(qiáng)????在預(yù)訓(xùn)練中，數(shù)據(jù)增強(qiáng)策略遵循[18]，其中兩個圖形塊是分別獨(dú)立地隨機(jī)裁剪于一張圖像，并隨機(jī)水平翻轉(zhuǎn)，并縮放至224×224，然后是顏色畸變、高斯模糊和日光化操作(solarization operation)。我們跳過了無重疊的裁剪對的損失計(jì)算，因?yàn)樗鼈冎徽妓胁眉魧Φ囊恍〔糠帧?/p>

優(yōu)化????訓(xùn)練長度從50到400個epoch不等，在我們的消融研究中使用100個epoch的訓(xùn)練。學(xué)習(xí)率衰減為cosine，優(yōu)化器為LARS，基本學(xué)習(xí)率為1。學(xué)習(xí)率與批量大小成線性比例， $lr=lr_{base} \times bs /256$ 。權(quán)重衰減為1e-5。總批量大小設(shè)置為1024，使用8個V100 gpu。對于動量編碼器，動量值從0.99開始增加至1，和[18]一樣。訓(xùn)練期間啟用同步批處理規(guī)范化（Synchronized batch normalization）。

4.2. 下游任務(wù)和設(shè)置

我們評估了四個下游任務(wù)的特征遷移性能：Pascal VOC上的目標(biāo)檢測[16]、COCO上的目標(biāo)檢測[27]、Cityscapes上的語義分割[11]和COCO上的半監(jiān)督目標(biāo)檢測[33]。在一些實(shí)驗(yàn)中，我們還報道了ImageNet-1K[12]的線性評價性能，以供參考。

Pascal VOC目標(biāo)檢測????我們嚴(yán)格遵循[19]中介紹的設(shè)置，即Faster R-CNN檢測器[32]，具有ResNet50-C4主干，它使用Conv4特征圖生成物體候選框，并使用Conv5階段進(jìn)行分類和回歸。在微調(diào)中，我們同步所有批處理規(guī)范化層并優(yōu)化所有層。在測試中，我們報告了2007年測試集上的AP、AP50和AP75。在代碼里使用了Detectron2[40]。

COCO目標(biāo)檢測與實(shí)例分割????我們分別采用ResNet50-FPN和ResNet50-C4[20,26]主干的Mask R-CNN檢測器。在優(yōu)化中，我們遵循1x設(shè)置，所有批處理規(guī)范化層同步，所有層微調(diào)[19]。我們采用Detectron2[40]作為這些實(shí)驗(yàn)的代碼。

我們還考慮了其他具有完全卷積結(jié)構(gòu)的檢測器，例如FCOS[36]。對于這些實(shí)驗(yàn)，我們遵循1x設(shè)置并使用mmdetection代碼[7]。

Cityscapes語義分割????我們遵循MoCo的設(shè)置[19]，其中使用了基于FCN的結(jié)構(gòu)[28]。FCN網(wǎng)絡(luò)由一個ResNet-50主干組成，conv5的3x3卷積層的擴(kuò)張率為2，滑動步幅為1，后面再接2個通道數(shù)為256、擴(kuò)張率為6的卷積層。再接一個1x1卷積層作為分類層。

半監(jiān)督目標(biāo)檢測????我們還研究了半監(jiān)督學(xué)習(xí)在COCO上的目標(biāo)檢測。為此，從訓(xùn)練集中隨機(jī)抽樣的一小部分（1%-10%）圖像被分配標(biāo)簽并用于微調(diào)。每種方法五次隨機(jī)試驗(yàn)的結(jié)果取平均值。

ImageNet-1K線性評估????在這個任務(wù)中，我們固定預(yù)訓(xùn)練的特征，只微調(diào)了一個額外的線性分類層，完全遵循MoCo的設(shè)置[19]。我們報告這些結(jié)果以供參考。

4.3. 主要的遷移學(xué)習(xí)結(jié)果

表1比較了所提出的方法與以前最先進(jìn)的無監(jiān)督預(yù)訓(xùn)練方法對4個下游任務(wù)，這4個任務(wù)都需要密集的預(yù)測。我們的Pix Pro在Pascal VOC對象檢測（R50-C4）、COCO對象檢測（R50-FPN/R50-C4）和Cityscapes語義分割（R50）上實(shí)現(xiàn)了60.2 AP、41.4/40.5 mAP和77.2 mIoU。該方法在Pascal-VOC上的性能優(yōu)于以往的最佳無監(jiān)督方法，在Pascal-VOC上的性能優(yōu)于2.6 AP，在COCO上的性能優(yōu)于0.8/1.0 mAP，在城市景觀上的性能優(yōu)于1.0 mIoU。

表1。將提出的像素級預(yù)訓(xùn)練方法PixPro與已有的有監(jiān)督/無監(jiān)督預(yù)訓(xùn)練方法進(jìn)行了比較。對于Pascal VOC目標(biāo)檢測，所有方法都采用了Faster R-CNN（R50-C4）檢測器。對于COCO目標(biāo)檢測，所有方法均采用1x設(shè)置的Mask R-CNN檢測器（R50-FPN和R50-C4）。對于城市景觀的語義分割，采用了FCN方法（R50）。PixPropre訓(xùn)練只涉及一個像素級的代理任務(wù)。對于Pascal VOC（R50-C4）、COCO（R50-C4）和Cityscapes（R50），采用輸出特征圖為C5的規(guī)則骨干網(wǎng)進(jìn)行pixpro 預(yù)訓(xùn)練。對于COCO（R50-FPN），使用具有P3-P6特征映射的FPN網(wǎng)絡(luò)。注意，InfoMin[35]只報告了它的200 epoch模型的結(jié)果，因此我們用更長的訓(xùn)練長度來重現(xiàn)它，在這里可以觀察到飽和。

4.4. 消融研究

我們使用Pascal VOC（R50-C4）和COCO目標(biāo)檢測（R50-FPN）任務(wù)進(jìn)行消融研究。在一些實(shí)驗(yàn)中，包括了FCOS檢測器對COCO的檢測結(jié)果和半監(jiān)督檢測結(jié)果。

PixPro的超參數(shù)????表2檢驗(yàn)了PixPro對超參數(shù)的敏感性。對于每個超參數(shù)的消融，我們將所有其他超參數(shù)固定為以下默認(rèn)值：C5的特征映射，距離閾值 $T=0.7$ ，銳度指數(shù) $\gamma =2$ ，像素到傳播模塊的變換層數(shù) $l=1$ ，訓(xùn)練長度為100個epoch。

表2?PixPro的超參數(shù)的消融研究。星號表示默認(rèn)值。

表2a-b使用C5和P3的特征圖來消融距離閾值。對于這兩種情況，T=0.7會產(chǎn)生良好的性能。由于P3的分辨率較大，其結(jié)果更穩(wěn)定。

表2c列出了銳度指數(shù)，其中 $\gamma =2$ 顯示了最佳結(jié)果。過于平滑或過于尖銳的相似函數(shù)會損害傳輸性能。

表2d列出了 $g(\cdot )$ 中變換層的數(shù)量，其中 $l=1$ 的性能略好于其他。注意，當(dāng) $l=0$ 時，也即像素傳播模塊（PPM）中沒有可學(xué)習(xí)參數(shù)，預(yù)訓(xùn)練也能很好地執(zhí)行，而移除PPM模塊則導(dǎo)致模型崩潰。PPM模塊中的平滑操作引入了相對于其他規(guī)則分支的不對稱性，從而避免了崩潰解[18]。

表2e列出了特征圖的選擇?？梢钥闯觯褂胮3和p4的高分辨率特征圖與使用c5的性能相似。使用所有的p3-p6特征圖可以顯著提高COCO目標(biāo)檢測的遷移學(xué)習(xí)準(zhǔn)確度，但在Pascal-VOC目標(biāo)檢測中的遷移準(zhǔn)確度較差。由于Pascal VOC數(shù)據(jù)集使用ResNet-C4主干，COCO數(shù)據(jù)集使用ResNet-FPN主干，這一結(jié)果表明，預(yù)訓(xùn)練和下游任務(wù)之間的一致架構(gòu)可能會給出更好的結(jié)果。

表2f說明了訓(xùn)練長度的影響。增加訓(xùn)練長度通常會導(dǎo)致更好的遷移學(xué)習(xí)性能。我們的最大訓(xùn)練長度是400。與200次epoch訓(xùn)練相比，對Pascal VOC的AP增益為0.7，而對COCO的AP增益幾乎為飽和。我們將在今后的工作中審查長期訓(xùn)練的結(jié)果。

PixPro與PixContrast的比較? ? 表3列出了具有不同的 $\tau$ 、使用或不使用像素傳播模塊（PPM）的PixContrast的遷移學(xué)習(xí)性能。表3還列出了使用或不使用PPM的PixPro方法的結(jié)果。可以看出，雖然PixContrast方法實(shí)現(xiàn)了合理的遷移性能，但是PixPro方法更好，特別是在Pascal VOC和COCO上分別比PixContrast方法好0.7AP和2.0MAP。

表3?PixPro與PixContrast的比較。每個實(shí)驗(yàn)訓(xùn)練100個epoch

包含像素傳播模塊（PPM）會導(dǎo)致PixContrast方法的性能較差，可能是過度平滑的原因。相反，對于PixPro，在Pascal VOC和COCO上添加PPM分別提高了0.8 AP和1.1 mAP的傳輸性能，并且避免了使用超參數(shù) $\tau$ 。注意：雖然直接刪除PPM會導(dǎo)致模型崩潰，但我們添加了一個線性變換層來避免這種崩潰問題。還請注意，表2c也證明了這種空間平滑在表征學(xué)習(xí)中的好處，其中過于平滑或過于尖銳的相似性函數(shù)會損害傳遞性能。

結(jié)合實(shí)例級對比方法

表4展示了將所提出的PixPro方法與實(shí)例級代理任務(wù)（Sim-CLR*）相結(jié)合進(jìn)行表征學(xué)習(xí)的效果。由于data loader和編碼器的共享，這種組合帶來的額外計(jì)算量微乎其微。

表4 結(jié)合像素級和實(shí)例級方法的遷移學(xué)習(xí)性能?！癝imCLR*”表示SimCLR的一個變體，其編碼器與我們的像素級方法相同。所有實(shí)驗(yàn)均采用100 epoch預(yù)訓(xùn)練

可以看出，額外的實(shí)例級代理任務(wù)可以顯著提高ImageNet-1K的線性評估準(zhǔn)確度，同時保持COCO（Mask R-CNN R50-FPN）和Pascal VOC的遷移準(zhǔn)確度。我們還觀察到在一些任務(wù)上1.2 mAP的顯著轉(zhuǎn)移改進(jìn)，例如COCO上的FCOS[36]，如表5所示。

頭網(wǎng)絡(luò)預(yù)訓(xùn)練的效果????表5列出了COCO目標(biāo)檢測的頭部網(wǎng)絡(luò)預(yù)訓(xùn)練（或使用更類似于微調(diào)任務(wù)的架構(gòu)）。對于COCO目標(biāo)檢測，我們使用FCOS檢測器，它是完全卷積的。我們評估額外的FPN結(jié)構(gòu)，一個由三個連續(xù)卷積層組成的頭部網(wǎng)絡(luò)的遷移性能?？梢钥闯觯嗟念A(yù)訓(xùn)練層可以更好地傳遞下游任務(wù)的準(zhǔn)確性。

表5 FPN和頭部預(yù)培訓(xùn)，并使用FCOS檢測器轉(zhuǎn)移至COCO[36]。所有實(shí)驗(yàn)均采用100 epoch預(yù)訓(xùn)練

半監(jiān)督目標(biāo)檢測結(jié)果????表6顯示了使用1%和10%COCO標(biāo)記數(shù)據(jù)的半監(jiān)督結(jié)果。對Mask R-CNN（R50-FPN）檢測器進(jìn)行了測試。我們最好的預(yù)訓(xùn)練模型明顯優(yōu)于以前的實(shí)例級監(jiān)督/無監(jiān)督方法。使用1%和10%的訓(xùn)練數(shù)據(jù)，增益分別為+3.9map和+2.3map。

表6?基于COCO的半監(jiān)督目標(biāo)檢測。該方法采用100歷元預(yù)訓(xùn)練，其他方法采用訓(xùn)練時間最長的模型

結(jié)果表明，在預(yù)訓(xùn)練和下游任務(wù)之間對齊網(wǎng)絡(luò)具有優(yōu)勢。在預(yù)訓(xùn)練中加入額外的FPN層比只預(yù)訓(xùn)練骨干網(wǎng)的方法帶來+0.9和+0.7 mAP增益（14.1和26.6 vs.13.2和25.9）。

在ImageNet-1K預(yù)訓(xùn)練之后，我們還增加了一個額外的COCO預(yù)訓(xùn)練階段，使用我們提出的像素級代理任務(wù)，訓(xùn)練120個epoch。當(dāng)分別使用1%和10%的訓(xùn)練數(shù)據(jù)時，它導(dǎo)致額外的+0.7 mAP增益和+0.2 mAP增益。當(dāng)只有稀缺的標(biāo)記數(shù)據(jù)可用時，直接對下游未標(biāo)記數(shù)據(jù)進(jìn)行額外的預(yù)訓(xùn)練可能有利于學(xué)習(xí)。

5 結(jié)論

本文探討了使用像素級的代理任務(wù)來學(xué)習(xí)密集的特征表示。我們首先直接在像素級應(yīng)用對比學(xué)習(xí)，從而在需要密集預(yù)測的下游任務(wù)上獲得合理的傳輸性能。我們還提出了一個像素到傳播一致性任務(wù)，該任務(wù)在表示學(xué)習(xí)過程中引入了一定的平滑度先驗(yàn)，并且不需要對負(fù)樣本進(jìn)行處理。這種方法稱為PixPro，當(dāng)學(xué)習(xí)到的表示被轉(zhuǎn)移到Pascal VOC（Faster R-CNN R50-C4）和COCO目標(biāo)檢測（mask R-CNN R50-FPN/R50-C4）的下游任務(wù)時，達(dá)到60.2 AP和41.4/40.5 mAP精度，其中2.6ap和0.8/1.0map優(yōu)于以往的最佳監(jiān)督/無監(jiān)督預(yù)訓(xùn)練方法。這些結(jié)果顯示了在像素級代理任務(wù)的強(qiáng)大潛力，并為無監(jiān)督視覺表征學(xué)習(xí)提供了一條新的途徑。作為學(xué)習(xí)單個圖像的強(qiáng)表征的一個通用代理，該方法同樣適用于視頻和多模態(tài)信號的視覺表征學(xué)習(xí)。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

潑你自己

潑你自己

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

潑你自己

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av