午夜福利视频网站在线,亚洲二区福利

作者：Barret Zoph，Golnaz Ghiasi，Tsung-Yi Lin 等

Google Research，Brain Team，2020.6.11

摘要：預(yù)訓(xùn)練是計(jì)算機(jī)視覺(jué)領(lǐng)域的一種主流范式。例如，對(duì)ImageNet的有監(jiān)督預(yù)訓(xùn)練模型常被用于初始化物體檢測(cè)和分割模型的主干網(wǎng)絡(luò)。但是何愷明給出了一個(gè)令人驚訝的發(fā)現(xiàn)[1]：在ImageNet上預(yù)訓(xùn)練對(duì)COCO上的物體檢測(cè)的影響是有限的。本文將調(diào)研另一種使用額外數(shù)據(jù)的方法，自訓(xùn)練，并在相同設(shè)置下與ImageNet預(yù)訓(xùn)練模型對(duì)比。我們的研究揭示了自訓(xùn)練的泛化性和靈活性，并給出另外3個(gè)觀點(diǎn)：1）更強(qiáng)的數(shù)據(jù)增擴(kuò)和更多的有標(biāo)簽數(shù)據(jù)會(huì)進(jìn)一步削弱預(yù)訓(xùn)練的價(jià)值；2）與之不同的是，在低數(shù)據(jù)和高數(shù)據(jù)情況下(low-data and high-data regimes)，當(dāng)使用更強(qiáng)的數(shù)據(jù)增擴(kuò)的時(shí)候，自訓(xùn)練總是有提升作用的；3）當(dāng)預(yù)訓(xùn)練起作用的時(shí)候，在預(yù)訓(xùn)練的基礎(chǔ)上使用自訓(xùn)練能帶來(lái)進(jìn)一步地提升。例如，在COCO物體檢測(cè)上，預(yù)訓(xùn)練在使用1/5的有標(biāo)簽數(shù)據(jù)時(shí)有益，在使用所有有標(biāo)簽數(shù)據(jù)時(shí)有害。而自訓(xùn)練無(wú)論數(shù)據(jù)集規(guī)模大小都能帶來(lái)+1.3到+3.4AP的提升。換言之，當(dāng)預(yù)訓(xùn)練不起作用（用ImageNet來(lái)幫助COCO）的時(shí)候，相同設(shè)置下，自訓(xùn)練能很好地起作用。PASCAL分割數(shù)據(jù)集是個(gè)比COCO小得多的數(shù)據(jù)集，雖然預(yù)訓(xùn)練有很大的改善作用，但是自訓(xùn)練能在預(yù)訓(xùn)練的基礎(chǔ)上帶來(lái)進(jìn)一步地提升。在COCO物體檢測(cè)上，我們達(dá)到54.3AP，比最強(qiáng)模型SpineNet提升+1.5AP。在PASCAL分割上，我們達(dá)到90.5mIoU，比先前的先進(jìn)模型DeepLabv3+提升+1.5%mIoU。

1 介紹

預(yù)訓(xùn)練是計(jì)算機(jī)視覺(jué)領(lǐng)域的一種主流范式。由于許多視覺(jué)任務(wù)都是相關(guān)的，因此需要在一個(gè)數(shù)據(jù)集上預(yù)訓(xùn)練一個(gè)模型，以幫助另一個(gè)數(shù)據(jù)集?，F(xiàn)有的普遍做法是在ImageNet分類上預(yù)訓(xùn)練一個(gè)模型，然后作為物體檢測(cè)和分割網(wǎng)絡(luò)的主干[2-5]。這種做法最近受到何愷明的質(zhì)疑[1]，他們給出一個(gè)令人吃驚的結(jié)果，即在ImageNet上的預(yù)訓(xùn)練并不能提高在COCO數(shù)據(jù)集上的準(zhǔn)確度。

與之形成鮮明對(duì)比的是自訓(xùn)練[6-8]。假定我們現(xiàn)在是要用ImageNet來(lái)幫助COCO物體檢測(cè)，自訓(xùn)練步驟是，先丟棄掉ImageNet上的標(biāo)簽，在COCO上訓(xùn)練一個(gè)檢測(cè)模型，用這個(gè)檢測(cè)模型對(duì)ImageNet數(shù)據(jù)生成偽標(biāo)簽，將帶偽標(biāo)簽的ImageNet數(shù)據(jù)和人工標(biāo)簽的COCO數(shù)據(jù)組合起來(lái)訓(xùn)練一個(gè)新的檢測(cè)模型。自訓(xùn)練最近的一些成功的工作[9-12]提出了一個(gè)問(wèn)題：自訓(xùn)練在多大程度上比預(yù)訓(xùn)練更有效？在預(yù)訓(xùn)練失效的時(shí)候，自訓(xùn)練在相同的設(shè)置下能夠起作用，用ImageNet幫助COCO檢測(cè)嗎？

我們的研究（我們的方法是基于受干擾的學(xué)生[10]）重點(diǎn)就是要回答這些問(wèn)題。我們定義了一組控制實(shí)驗(yàn)，用ImageNet作為額外數(shù)據(jù)，目的是要提升COCO的準(zhǔn)確度?？刂谱兞渴鞘褂肅OCO中有標(biāo)簽的數(shù)據(jù)的數(shù)量，以及數(shù)據(jù)增擴(kuò)的強(qiáng)度。實(shí)驗(yàn)表明，增大數(shù)據(jù)增擴(kuò)的強(qiáng)度，或者增加使用COCO有標(biāo)簽數(shù)據(jù)的數(shù)量，預(yù)訓(xùn)練的價(jià)值會(huì)降低。當(dāng)我們使用最強(qiáng)程度的數(shù)據(jù)增擴(kuò)的時(shí)候，預(yù)訓(xùn)練帶來(lái)副作用，使準(zhǔn)確度下降1.0AP。這是個(gè)連何愷明[1]都沒(méi)發(fā)現(xiàn)的令人吃驚的結(jié)果。而自訓(xùn)練和數(shù)據(jù)增擴(kuò)有很好的交互作用，使用更強(qiáng)的數(shù)據(jù)增擴(kuò)不僅不會(huì)損害自訓(xùn)練，而且有助于自訓(xùn)練。在相同強(qiáng)度的數(shù)據(jù)增擴(kuò)、使用相同的ImageNet數(shù)據(jù)時(shí)，自訓(xùn)練仍能帶來(lái)1.3AP的提升。這表明預(yù)訓(xùn)練失效的時(shí)候，自訓(xùn)練仍然是有效的。這一正一負(fù)兩個(gè)結(jié)果給上述問(wèn)題一個(gè)肯定的回答。

一種越來(lái)越流行的預(yù)訓(xùn)練方法是自監(jiān)督學(xué)習(xí)。自監(jiān)督學(xué)習(xí)方法是在一個(gè)數(shù)據(jù)集上不用標(biāo)簽的預(yù)訓(xùn)練，希望能建立適用于更廣泛任務(wù)和數(shù)據(jù)集的通用表示。我們研究了最先進(jìn)的自監(jiān)督學(xué)習(xí)方法預(yù)訓(xùn)練的ImageNet模型，并且在COCO上和標(biāo)準(zhǔn)的有監(jiān)督預(yù)訓(xùn)練的ImageNet模型對(duì)比。我們發(fā)現(xiàn)，使用SimCLR[13]的自監(jiān)督預(yù)訓(xùn)練模型和有監(jiān)督預(yù)訓(xùn)練的ImageNet模型性能相似。兩者在COCO上當(dāng)高數(shù)據(jù)(high data)/高強(qiáng)度的數(shù)據(jù)增擴(kuò)的時(shí)候都是帶來(lái)負(fù)作用，而自訓(xùn)練是帶來(lái)提升作用。我們的研究表示，當(dāng)有標(biāo)簽數(shù)據(jù)的數(shù)量增加到一定程度時(shí)，有監(jiān)督的預(yù)訓(xùn)練和自監(jiān)督的預(yù)訓(xùn)練會(huì)失敗，而自訓(xùn)練仍能帶來(lái)提升。

然而，我們的工作并不排斥計(jì)算機(jī)視覺(jué)的預(yù)訓(xùn)練。在我們的實(shí)驗(yàn)中，對(duì)預(yù)訓(xùn)練模型微調(diào)要比從頭訓(xùn)練模型和自訓(xùn)練要快，快1.3倍到8倍，倍數(shù)因預(yù)訓(xùn)練模型質(zhì)量、數(shù)據(jù)增擴(kuò)強(qiáng)度和數(shù)據(jù)集規(guī)模而異。在收集有標(biāo)簽數(shù)據(jù)困難的情況下，預(yù)訓(xùn)練也是有用的。這種情況下，預(yù)訓(xùn)練能工作得很好，但是無(wú)論有沒(méi)有預(yù)訓(xùn)練，這種情況下自訓(xùn)練都能帶來(lái)提升。例如，在PASCAL分割數(shù)據(jù)集上實(shí)驗(yàn)表明，用ImageNet預(yù)訓(xùn)練模型能提高準(zhǔn)確度，但是用自訓(xùn)練在預(yù)訓(xùn)練的基礎(chǔ)上提供了額外的+1.3%mIoU的提升。事實(shí)上，即使用同一個(gè)數(shù)據(jù)集去預(yù)訓(xùn)練/自訓(xùn)練，預(yù)訓(xùn)練帶來(lái)的提升也不會(huì)抵消自訓(xùn)練帶來(lái)的提升，這表明了自訓(xùn)練的普遍性(generality)。

進(jìn)一步，我們探討了在COCO和PASCAL數(shù)據(jù)集上自訓(xùn)練的局限性，從而證明該方法的靈活性。在COCO數(shù)據(jù)集上自訓(xùn)練，將OpenImages作為額外的無(wú)標(biāo)簽數(shù)據(jù)，將帶有SpineNet[15]的RetinaNet[14]作為檢測(cè)網(wǎng)絡(luò)，這種組合在COCO測(cè)試集上達(dá)到54.3AP，比最強(qiáng)SpineNet模型高出+1.5AP。在圖像分割，用PASCAL aug set[16]作為無(wú)標(biāo)簽的額外數(shù)據(jù)，用NAS-FPN[17]+EfficientNet-L2[10]作為分割網(wǎng)絡(luò)。這種組合在PASCAL VOC 2012測(cè)試集上達(dá)到90.5%mIoU，超過(guò)了之前的先進(jìn)模型89.0%mIoU[18]，而[18]使用了300M張額外的有標(biāo)簽數(shù)據(jù)。這些結(jié)果證實(shí)了自訓(xùn)練的另一個(gè)好處：它對(duì)未標(biāo)簽數(shù)據(jù)來(lái)源、網(wǎng)絡(luò)結(jié)構(gòu)和各種計(jì)算機(jī)視覺(jué)任務(wù)都很靈活。

2.相關(guān)工作

在整個(gè)深度學(xué)習(xí)的歷史中，預(yù)訓(xùn)練一直備受關(guān)注（見(jiàn)[19]及其參考文獻(xiàn)）。21世紀(jì)初，深度學(xué)習(xí)的復(fù)蘇也始于無(wú)監(jiān)督的預(yù)訓(xùn)練[20-24]。NLP中無(wú)監(jiān)督預(yù)訓(xùn)練的成功[25-30]重新激起了人們對(duì)計(jì)算機(jī)視覺(jué)無(wú)監(jiān)督預(yù)訓(xùn)練的興趣，尤其是對(duì)比訓(xùn)練[13,31-35]。在實(shí)踐中，有監(jiān)督的預(yù)訓(xùn)練在計(jì)算機(jī)視覺(jué)領(lǐng)域是非常成功的。例如，許多研究（例如[36–40]）表明，在ImageNet、Instagram和JFT上預(yù)訓(xùn)練的卷積網(wǎng)絡(luò)可以為許多下游任務(wù)提供很大的提升。

有監(jiān)督的ImageNet預(yù)訓(xùn)練是用于目標(biāo)檢測(cè)和分割的最廣泛的初始化方法（例如[2-5]）。然而，何愷明卻質(zhì)疑[1]，當(dāng)用在一個(gè)非常不同的下游任務(wù)上時(shí)，例如COCO物體檢測(cè)，ImageNet預(yù)訓(xùn)練模型效果并不好。

與何愷明的工作[1]相比，我們的工作是更進(jìn)一步，更詳細(xì)地研究預(yù)訓(xùn)練在計(jì)算機(jī)視覺(jué)中不同情況下的作用，包括：更強(qiáng)程度的數(shù)據(jù)增擴(kuò)、不同的預(yù)訓(xùn)練方法（監(jiān)督和自監(jiān)督）以及不同質(zhì)量的預(yù)訓(xùn)練模型(checkpoints)。

本文沒(méi)有深入研究有針對(duì)性的預(yù)訓(xùn)練，例如用一個(gè)物體檢測(cè)數(shù)據(jù)集的預(yù)訓(xùn)練去幫助另一個(gè)物體檢測(cè)數(shù)據(jù)集。原因有二：一是有針對(duì)性的預(yù)訓(xùn)練成本高昂，且可擴(kuò)展性差；二是，已有證據(jù)表明，在相同任務(wù)不同數(shù)據(jù)集上的預(yù)訓(xùn)練仍然不能帶來(lái)提升。例如[41]證明在OpenImages物體檢測(cè)數(shù)據(jù)集上的預(yù)訓(xùn)練會(huì)損害在COCO物體檢測(cè)數(shù)據(jù)集上的表現(xiàn)。更多關(guān)于有針對(duì)性的預(yù)訓(xùn)練的分析見(jiàn)[42]。

我們的工作證明了自訓(xùn)練的可擴(kuò)展性和普遍性（例如，[6-8]）。最近，自訓(xùn)練在深度學(xué)習(xí)（例如，圖像分類[9,10]、機(jī)器翻譯[11]和語(yǔ)音識(shí)別[12,43]）方面取得了顯著進(jìn)展。與我們的工作關(guān)系最密切的是受干擾的學(xué)生[10]，其在自訓(xùn)練中使用很強(qiáng)的數(shù)據(jù)增擴(kuò)，但是是用到圖像分類上。在應(yīng)用上更接近的是用于檢測(cè)和分割的半監(jiān)督學(xué)習(xí)（例如[44–47]），但他們只是單獨(dú)研究自訓(xùn)練，沒(méi)有和ImageNet預(yù)訓(xùn)練進(jìn)行對(duì)比，也沒(méi)有考慮這些訓(xùn)練方法和數(shù)據(jù)增擴(kuò)的交互作用。

3 方法

3.1 方法與控制變量

數(shù)據(jù)增擴(kuò)：? ? 對(duì)檢測(cè)和分割，我們使用4種不同強(qiáng)度的數(shù)據(jù)增擴(kuò)策略。這樣我們就可以在分析中改變數(shù)據(jù)增擴(kuò)的強(qiáng)度。我們根據(jù)標(biāo)準(zhǔn)的裁剪翻轉(zhuǎn)[14]、AutoAugment[48,49]和RandAugment[50]來(lái)設(shè)計(jì)我們的數(shù)據(jù)增強(qiáng)策略。標(biāo)準(zhǔn)的翻轉(zhuǎn)裁剪包括水平翻轉(zhuǎn)以及尺度抖動(dòng)，標(biāo)準(zhǔn)的尺度抖動(dòng)是指將圖像縮放為目標(biāo)圖像尺寸的（0.8，1.2）倍，然后再裁剪。AutoAugment和RandAugment最初的設(shè)計(jì)是基于標(biāo)準(zhǔn)的尺度抖動(dòng)的，我們加寬了尺度抖動(dòng)范圍至（0.5,2.0），發(fā)現(xiàn)會(huì)有顯著改善。我們?cè)趯?shí)驗(yàn)中用的四種數(shù)據(jù)增擴(kuò)策略是：翻轉(zhuǎn)裁剪、AutoAugment、大范圍尺度抖動(dòng)的AutoAugment、大范圍尺度抖動(dòng)的RandAugment。在下文中這4中策略會(huì)被稱為：Augment-S1、Augment-S2、Augment-S3、Augment-S4。后3種策略比何愷明在[1]中用的強(qiáng)度更大，他只用了翻轉(zhuǎn)裁剪策略。

預(yù)訓(xùn)練：? ? 為了評(píng)估預(yù)訓(xùn)練的有效性，我們研究了不同質(zhì)量的ImageNet預(yù)訓(xùn)練checkpoint。為了控制模型容量，所有checkpoints的網(wǎng)絡(luò)結(jié)構(gòu)相同，但是在ImageNet上有不同的準(zhǔn)確度（因?yàn)橛?xùn)練方式不同）。我們使用EfficientNet-B7網(wǎng)絡(luò)結(jié)構(gòu)[57]作為預(yù)訓(xùn)練的一個(gè)強(qiáng)大的基線。對(duì)于EfficientNet-B7網(wǎng)絡(luò)，有兩個(gè)可得的checkpoints：1)用AutoAugment訓(xùn)練的在ImageNet上84.5% top-1準(zhǔn)確度的checkpoints；2)使用300M張無(wú)標(biāo)簽數(shù)據(jù)用受干擾學(xué)生訓(xùn)練[10]的在ImageNet上86.9% top-1準(zhǔn)確度的checkpoints。在下文中我們將這兩個(gè)checkpoints表示為ImageNet、ImageNet++，隨機(jī)初始化表示為RandInit。因此，我們所有的基線都比何愷明用的[1]要強(qiáng)，何愷明在[1]中用的是ResNets，而EfficientNet-B7 checkpoint比ResNet-50 checkpoint要高出大約8個(gè)百分點(diǎn)。表1匯總了我們的數(shù)據(jù)增擴(kuò)和預(yù)訓(xùn)練模型的表示符號(hào)。

表1

自訓(xùn)練：我們用的自訓(xùn)練是基于受干擾的學(xué)生[10]，有3個(gè)步驟。首先，在有標(biāo)簽數(shù)據(jù)（例如COCO數(shù)據(jù)集）上訓(xùn)練一個(gè)教師模型。然后，教師模型在無(wú)標(biāo)簽數(shù)據(jù)（例如ImageNet數(shù)據(jù)集）上生成偽標(biāo)簽。最后，在人工標(biāo)注數(shù)據(jù)和偽標(biāo)簽數(shù)據(jù)上聯(lián)合訓(xùn)練一個(gè)學(xué)生模型。學(xué)生模型受到的干擾的主要來(lái)源是數(shù)據(jù)增擴(kuò)以及先前在相關(guān)模型中使用的其他噪聲方法。

我們對(duì)各種超參數(shù)和數(shù)據(jù)增擴(kuò)的實(shí)驗(yàn)表明，用這種標(biāo)準(zhǔn)損失函數(shù)進(jìn)行自訓(xùn)練是不穩(wěn)定的。為了解決這個(gè)問(wèn)題，我們實(shí)現(xiàn)了一種損失歸一化技術(shù)，會(huì)在附錄B中介紹。

3.2 其它的實(shí)驗(yàn)設(shè)置

物體檢測(cè)：????我們使用COCO數(shù)據(jù)集[52]（118k個(gè)圖像）進(jìn)行監(jiān)督學(xué)習(xí)。在自訓(xùn)練中，我們使用ImageNet[53]（1.2M圖像）和OpenImages[54]（1.7M圖像）作為無(wú)標(biāo)簽數(shù)據(jù)。網(wǎng)絡(luò)選擇EfficientNet-B7為主干，RetinaNet為檢測(cè)頭，使用特征金字塔。和[14]一樣，圖像尺寸640×640，使用特征金字塔的P3到P7，每個(gè)像素9個(gè)錨框。批量大小256，權(quán)重衰減1e-4。初始學(xué)習(xí)率0.32，使用余弦學(xué)習(xí)率衰減策略[56]。對(duì)使用不用的是數(shù)據(jù)增擴(kuò)強(qiáng)度和數(shù)據(jù)集規(guī)模的實(shí)驗(yàn)，我們使每個(gè)模型訓(xùn)練到收斂(converges)為止（即繼續(xù)訓(xùn)練在驗(yàn)證集上的性能不再有提升甚至下降）。例如，當(dāng)兩個(gè)模型隨機(jī)初始化時(shí)，使用Augment-S1進(jìn)行45k次迭代，使用Augment-S4進(jìn)行120k次迭代。當(dāng)使用SpineNet時(shí)，使用[15]中的網(wǎng)絡(luò)結(jié)構(gòu)和超參數(shù)，由于內(nèi)存限制，將批量大小從256降為128，并且將學(xué)習(xí)率減半。除了批量大小和學(xué)習(xí)率以外的其它超參數(shù)遵循SpineNet的開(kāi)源代碼里的設(shè)置。所有的SpineNet模型使用SoftNMS[57]，sigma參數(shù)為0.3。在自訓(xùn)練中，使用0.5的硬閾值來(lái)生成偽邊框標(biāo)簽。批量大小總的為512，其中COCO數(shù)據(jù)256，偽標(biāo)簽數(shù)據(jù)256。其它訓(xùn)練超參數(shù)和監(jiān)督訓(xùn)練一樣。

語(yǔ)義分割：? ? 我們使用PASCAL VOC 2012[58]的訓(xùn)練集（1.5k張圖片）來(lái)有監(jiān)督訓(xùn)練。自訓(xùn)練中，使用增廣版PASCAL數(shù)據(jù)集[16]（9k張圖片），COCO（240k張圖片，240k是包含有標(biāo)簽和無(wú)標(biāo)簽）和ImageNet[53]（1.2M張圖像）。使用NAS-FPN[17]作為框架， EfficientNet-B7和EfficientNet-L2為主干。我們的NAS-FPN重復(fù)使用7次深度可分離卷積。使用特征金字塔的P3到P7，并將所有特征上采樣至P2大小，并將它們相加合并起來(lái)。對(duì)合并后的特征，使用3層3×3卷積，再接上一個(gè)1×1卷積用于21類分割。主干為EfficientNet-B7時(shí)學(xué)習(xí)率設(shè)為0.08，主干為EfficientNet-L2時(shí)學(xué)習(xí)率設(shè)為0.2（筆者想問(wèn)一句：難道這暗示網(wǎng)絡(luò)越大，初始學(xué)習(xí)率應(yīng)該越大，有這個(gè)規(guī)律？），批量大小256，權(quán)重衰減1e-5。使用余弦學(xué)習(xí)率衰減策略。EfficientNet-B7迭代40k次，EfficientNet-L2迭代20k次。自訓(xùn)練中，EfficientNet-B7的批量大小是512，EfficientNet-L2的批量大小是256。批量大小的一半給人工標(biāo)注數(shù)據(jù)，一半給偽標(biāo)簽數(shù)據(jù)。其它超參數(shù)和監(jiān)督訓(xùn)練一樣。此外，使用0.5的硬閾值來(lái)生成偽分割標(biāo)簽，分?jǐn)?shù)小于閾值的被設(shè)為忽略標(biāo)簽。最后，使用多尺度推理數(shù)據(jù)增強(qiáng)（0.5，0.75，1，1.25，1.5，1.75）來(lái)計(jì)算偽標(biāo)簽分割掩膜。

4. 實(shí)驗(yàn)

4.1 數(shù)據(jù)增擴(kuò)和有標(biāo)簽數(shù)據(jù)數(shù)量對(duì)預(yù)訓(xùn)練的影響

本節(jié)擴(kuò)展了何愷明的發(fā)現(xiàn)[1]，他研究了使用不同數(shù)量的COCO有標(biāo)簽數(shù)據(jù)時(shí)預(yù)訓(xùn)練的缺陷。和他們的研究類似，我們用ImageNet做有監(jiān)督的預(yù)訓(xùn)練，并改變COCO有標(biāo)簽數(shù)據(jù)的規(guī)模。和他們的研究不同的是，我們還改變另外兩個(gè)控制變量：數(shù)據(jù)增擴(kuò)的強(qiáng)度和預(yù)訓(xùn)練模型的質(zhì)量（詳細(xì)介紹見(jiàn)3.1節(jié)）。如上所述，我們的網(wǎng)絡(luò)以EfficientNet-B7為主干，以RetinaNet為檢測(cè)頭。以下是我們的主要發(fā)現(xiàn)：

當(dāng)數(shù)據(jù)增擴(kuò)的強(qiáng)度很強(qiáng)時(shí)，預(yù)訓(xùn)練是有害的。????我們分析當(dāng)數(shù)據(jù)增擴(kuò)的強(qiáng)度不同時(shí)預(yù)訓(xùn)練的影響。如圖1左圖所示，當(dāng)我們使用標(biāo)準(zhǔn)的數(shù)據(jù)增擴(kuò)(Augment-S1)時(shí)，預(yù)訓(xùn)練是有益的。但是當(dāng)我們加大數(shù)據(jù)增擴(kuò)的強(qiáng)度時(shí)，預(yù)訓(xùn)練的價(jià)值會(huì)消失。更進(jìn)一步的，當(dāng)把數(shù)據(jù)增擴(kuò)的強(qiáng)度加到更大時(shí)，預(yù)訓(xùn)練實(shí)際上是大大地?fù)p害了性能(-1.0AP)。這一結(jié)果何愷明[1]沒(méi)有發(fā)現(xiàn)，在他們的實(shí)驗(yàn)中，預(yù)訓(xùn)練只是有些輕微的損害(-0.4AP)或者是無(wú)益無(wú)害的。

圖1 在右圖中所有模型使用Augment-S4。其它增擴(kuò)策略下的類似結(jié)果見(jiàn)附錄C

使用更多的有標(biāo)簽數(shù)據(jù)，預(yù)訓(xùn)練的價(jià)值會(huì)消失。? ? 接著，我們分析使用不同規(guī)模的有標(biāo)簽數(shù)據(jù)時(shí)預(yù)訓(xùn)練的影響。如圖1右圖所示，在有標(biāo)簽數(shù)據(jù)規(guī)模小（20%，low-data regimes）時(shí)，預(yù)訓(xùn)練是有益的；在有標(biāo)簽數(shù)據(jù)規(guī)模大時(shí)，預(yù)訓(xùn)練是有害的或者無(wú)益無(wú)害的。這一發(fā)現(xiàn)與何愷明的發(fā)現(xiàn)[1]基本一致。這里一個(gè)新發(fā)現(xiàn)是，當(dāng)使用小規(guī)模有標(biāo)簽數(shù)據(jù)時(shí)，checkpoint質(zhì)量和最終性能相關(guān)：在使用20%COCO有標(biāo)簽數(shù)據(jù)時(shí)，ImageNet++預(yù)訓(xùn)練模型表現(xiàn)最佳。

4.2?數(shù)據(jù)增擴(kuò)和有標(biāo)簽數(shù)據(jù)數(shù)量對(duì)自訓(xùn)練的影響

本節(jié)分析自訓(xùn)練，并與上一節(jié)結(jié)果對(duì)比。為了公平比較，我們繼續(xù)將COCO物體檢測(cè)作為任務(wù)，ImageNet作為用以自訓(xùn)練的額外數(shù)據(jù)。和預(yù)訓(xùn)練不同，自訓(xùn)練不使用ImageNet的圖像標(biāo)簽。網(wǎng)絡(luò)同樣是以EfficientNet-B7為主干，以RetinaNet為檢測(cè)頭。以下是主要發(fā)現(xiàn)：

在有標(biāo)簽數(shù)據(jù)規(guī)模大、數(shù)據(jù)增擴(kuò)強(qiáng)度很強(qiáng)時(shí)，即使預(yù)訓(xùn)練會(huì)有害，自訓(xùn)練仍是有益的。????和上一節(jié)類似，我們首先分析當(dāng)使用不同強(qiáng)度的數(shù)據(jù)增擴(kuò)時(shí)檢測(cè)網(wǎng)絡(luò)的性能。表2所示是在4種強(qiáng)度的數(shù)據(jù)增擴(kuò)下自訓(xùn)練的性能，并與監(jiān)督學(xué)習(xí)（Rand Init）和預(yù)訓(xùn)練（ImageNet Init）行對(duì)比。表中還標(biāo)上了自訓(xùn)練和預(yù)訓(xùn)練相對(duì)于基線的性能提升或下降。結(jié)果表明，當(dāng)預(yù)訓(xùn)練有害的時(shí)候（強(qiáng)的數(shù)據(jù)增擴(kuò)：Augment-S2，Augment-S3，Augment-S4），自訓(xùn)練有顯著的提升作用。當(dāng)預(yù)訓(xùn)練導(dǎo)致性能下降1.0AP的時(shí)候，自訓(xùn)練帶來(lái)性能超過(guò)1.3AP的提升。在ResNet-101上也得到了類似的結(jié)果（見(jiàn)附錄D）。

表2 所有的模型是用全部的COCO數(shù)據(jù)訓(xùn)練的

無(wú)論有標(biāo)簽規(guī)模是大是小，自訓(xùn)練都能起作用，是對(duì)預(yù)訓(xùn)練的補(bǔ)充。????接著我們改變使用的COCO有標(biāo)簽數(shù)據(jù)的規(guī)模，分析自訓(xùn)練的性能。從表3可以看出，無(wú)論使用何種預(yù)訓(xùn)練或者不使用預(yù)訓(xùn)練模型做初始化，無(wú)論有標(biāo)簽數(shù)據(jù)集規(guī)模是大是小，自訓(xùn)練都能帶來(lái)提升作用。最重要的是，當(dāng)使用全部的COCO有標(biāo)簽數(shù)據(jù)時(shí)，預(yù)訓(xùn)練會(huì)有害，而自訓(xùn)練卻給所有模型帶來(lái)提升。

表3 無(wú)論有標(biāo)簽數(shù)據(jù)規(guī)模大小，無(wú)論是否使用預(yù)訓(xùn)練及預(yù)訓(xùn)練質(zhì)量如何，自訓(xùn)練都帶來(lái)提升。所有的模型使用Augment-S4。

在只使用20%的COCO數(shù)據(jù)時(shí)，也就是有標(biāo)簽數(shù)據(jù)規(guī)模小時(shí)，在Rand Init初始化模型的基線上，自訓(xùn)練帶來(lái)的提升是最大的：3.4AP。這個(gè)提升甚至比ImageNet Init帶來(lái)的提升要大(+2.6AP)。盡管自訓(xùn)練的提升作用小于 ImageNet++的提升作用，不過(guò)要考慮到ImageNet++使用了300M張額外的無(wú)標(biāo)簽圖像。

即使預(yù)訓(xùn)練使用的額外數(shù)據(jù)和自訓(xùn)練使用的額外數(shù)據(jù)是同一個(gè)數(shù)據(jù)集時(shí)，自訓(xùn)練還是能夠在預(yù)訓(xùn)練的基礎(chǔ)上進(jìn)一步帶來(lái)提升。例如，當(dāng)使用20%的COCO數(shù)據(jù)時(shí)，使用ImageNet預(yù)訓(xùn)練會(huì)帶來(lái)2.6AP的提升，而使用ImageNet預(yù)訓(xùn)練和ImageNet自訓(xùn)練會(huì)帶來(lái)進(jìn)一步的2.7AP的提升。在各種規(guī)模有標(biāo)簽數(shù)據(jù)的實(shí)驗(yàn)中，都可看到組合使用預(yù)訓(xùn)練和自訓(xùn)練帶來(lái)的額外提升。

4.3 在有標(biāo)簽數(shù)據(jù)規(guī)模大、使用高強(qiáng)度的數(shù)據(jù)增擴(kuò)時(shí)，當(dāng)自訓(xùn)練有益的時(shí)候，自監(jiān)督預(yù)訓(xùn)練也是有害的。

上上節(jié)實(shí)驗(yàn)表明，在有標(biāo)簽數(shù)據(jù)規(guī)模大、數(shù)據(jù)增擴(kuò)強(qiáng)度高的情況下，ImageNet預(yù)訓(xùn)練會(huì)降低性能。在這種情況下，我們研究了另一種流行的預(yù)訓(xùn)練方法：自監(jiān)督學(xué)習(xí)。

自監(jiān)督學(xué)習(xí)、無(wú)標(biāo)簽預(yù)訓(xùn)練的初衷是建立可遷移到更廣泛任務(wù)和數(shù)據(jù)集的通用表示。既然在ImageNet上的有監(jiān)督預(yù)訓(xùn)練會(huì)損害在COCO上的性能，那么自然地就會(huì)考慮不使用標(biāo)簽信息的自監(jiān)督學(xué)習(xí)會(huì)不會(huì)帶來(lái)潛在的好處。本節(jié)會(huì)重點(diǎn)關(guān)注使用全部的COCO數(shù)據(jù)，以及最高強(qiáng)度的數(shù)據(jù)增擴(kuò)（Augment-S4）的情況。目的是將隨機(jī)初始化和用最先進(jìn)的自監(jiān)督學(xué)習(xí)算法預(yù)訓(xùn)練的模型做比較。因此，我們選擇在ImageNet數(shù)據(jù)上用SimCLR框架[13]預(yù)訓(xùn)練的checkpoint。在使用這個(gè)checkpoint之前，會(huì)用ImageNet的標(biāo)簽對(duì)其進(jìn)行微調(diào)。所有的主干都是ResNet50，因?yàn)樵赟imCLR的工作中是用的ResNets。

表4的結(jié)果表明，在COCO數(shù)據(jù)集上，自監(jiān)督預(yù)訓(xùn)練模型會(huì)帶來(lái)和有監(jiān)督預(yù)訓(xùn)練模型同樣的損害。兩個(gè)預(yù)訓(xùn)練模型在隨機(jī)初始化的基線上性能都下降0.7AP。我們?cè)僖淮慰吹?，?dāng)兩個(gè)預(yù)訓(xùn)練模型都有害時(shí)，自訓(xùn)練仍有益，提升了0.8AP。盡管自監(jiān)督預(yù)訓(xùn)練和自訓(xùn)練都沒(méi)有使用額外數(shù)據(jù)的標(biāo)簽，但是自訓(xùn)練在使用無(wú)標(biāo)簽ImageNet數(shù)據(jù)來(lái)幫助COCO時(shí)更有效。

表4 使用全部COCO數(shù)據(jù)，Augment-S4

4.4 探索自訓(xùn)練和預(yù)訓(xùn)練的局限

本節(jié)將結(jié)合我們關(guān)于數(shù)據(jù)增擴(kuò)、自訓(xùn)練和預(yù)訓(xùn)練的相互作用的認(rèn)識(shí)，以改進(jìn)最先進(jìn)技術(shù)。以下是我們的主要成果：

COCO物體檢測(cè)????在本實(shí)驗(yàn)中，我們將使用自訓(xùn)練和Augment-S3。先前的實(shí)驗(yàn)表明，當(dāng)使用全部的COCO數(shù)據(jù)時(shí)，ImageNet預(yù)訓(xùn)練會(huì)損害性能，所以我們就不使用ImageNet預(yù)訓(xùn)練。雖然在對(duì)照實(shí)驗(yàn)中我們用的是EfficientNet和ResNet作為主干，但是在本實(shí)驗(yàn)中我們用SpineNet[15]，因?yàn)樗咏钕冗M(jìn)水平。我們使用OpenImages數(shù)據(jù)集(OID)[54]作為自訓(xùn)練的無(wú)標(biāo)簽額外數(shù)據(jù)，因?yàn)槲覀儼l(fā)現(xiàn)這比使用ImageNet數(shù)據(jù)效果會(huì)更好（有關(guān)數(shù)據(jù)源對(duì)自訓(xùn)練的影響的更多信息，請(qǐng)參閱附錄E）。請(qǐng)注意，[41]報(bào)告了在OID預(yù)訓(xùn)練對(duì)COCO是無(wú)益的。

表5是我們的最大的兩個(gè)SpineNet模型的結(jié)果，并且和先前的最先進(jìn)單個(gè)模型、單個(gè)圖像尺度的結(jié)果進(jìn)行對(duì)比。對(duì)于最大的SpineNet網(wǎng)絡(luò)(SpineNet-190 (1280))，我們將最好的SpineNet模型(52.8AP)提升了1.5AP，達(dá)到54.3AP。對(duì)于不同的模型，我們都有至少1.5AP的提升。

表5 和COCO物體檢測(cè)上最強(qiáng)模型對(duì)比。自訓(xùn)練用的是OpenImages數(shù)據(jù)。括號(hào)里的是訓(xùn)練階段圖像尺寸。

PASCAL VOC語(yǔ)義分割? ? 本實(shí)驗(yàn)中我們使用NAS-FPN作為框架，使用EfficientNet-B7[51]和EfficientNet-L2[10]作為主干。因?yàn)镻ASCAL的數(shù)據(jù)規(guī)模很小，預(yù)訓(xùn)練在這里仍是很有益的，因此，在本實(shí)驗(yàn)中，我們組合使用預(yù)訓(xùn)練、自訓(xùn)練和高強(qiáng)度的數(shù)據(jù)增擴(kuò)。使用ImageNet++預(yù)訓(xùn)練模型來(lái)初始化EfficientNet主干。使用Augment-S4數(shù)據(jù)增擴(kuò)。使用PASCAL補(bǔ)充集[16]作為自訓(xùn)練使用的額外數(shù)據(jù)，因?yàn)槲覀儼l(fā)現(xiàn)在自訓(xùn)練中用PASCAL補(bǔ)充集比使用ImageNet更有益。

表6顯示，我們的方法在很大程度上改進(jìn)了現(xiàn)有的技術(shù)。在PASCAL VOC 2012測(cè)試集中，我們使用單尺度推理實(shí)現(xiàn)了90.5%的mIOU，優(yōu)于采用多尺度推理的舊的最先進(jìn)的89%mIOU。我們發(fā)現(xiàn)在PASCAL數(shù)據(jù)集上使用高質(zhì)量的預(yù)訓(xùn)練checkpoint是很關(guān)鍵的，不用的話我們只能取得41.5%mIoU。有趣的是，我們比先前的最先進(jìn)模型提升了1.5%mIoU，即使我們訓(xùn)練的人工標(biāo)注數(shù)據(jù)比先前最先進(jìn)模型要少得多。我們用的人工標(biāo)注數(shù)據(jù)有：ImageNet（1.2M張圖片）、PASCAL訓(xùn)練集（1.5k張圖片）。而先前最先進(jìn)模型用的人工標(biāo)注數(shù)據(jù)除了這些還有：JFT（300M張圖片）、COCO(120k張圖像)和PASCAL補(bǔ)充集（9k張圖片）。偽標(biāo)簽圖片的可視化見(jiàn)附錄F。

表6 在 PASCAL VOC 2012驗(yàn)證/測(cè)試集上和最先進(jìn)模型對(duì)比。 ?符號(hào)表示在推理時(shí)使用多尺度/翻轉(zhuǎn)的測(cè)試數(shù)據(jù)增強(qiáng)。??符號(hào)表示對(duì)train+val模型微調(diào)訓(xùn)練，并且使用[18]的硬類復(fù)制。EfficientNet模型(Eff)在驗(yàn)證集上推理的模型是在train set上訓(xùn)練的，在測(cè)試集推理的模型是在train+val set上訓(xùn)練的。

（筆者插句嘴：41.5%mIoU是作者打錯(cuò)字了還是說(shuō)大的網(wǎng)絡(luò)EfficientL2在小規(guī)模數(shù)據(jù)集PASCAL-train上過(guò)擬合？另外作者在上文中說(shuō)自訓(xùn)練中用到PASCAL補(bǔ)充集，而在剛剛沒(méi)有提到，應(yīng)該是指，在作者的方法里，使用PASCAL補(bǔ)充集是作為無(wú)標(biāo)簽數(shù)據(jù)，而先前最先進(jìn)模型用到了PASCAL補(bǔ)充集的標(biāo)簽。）

5 討論

重新思考預(yù)訓(xùn)練和通用特征表示。????計(jì)算機(jī)視覺(jué)最宏偉的目標(biāo)之一是開(kāi)發(fā)能夠解決許多任務(wù)的通用特征表示。

我們的實(shí)驗(yàn)揭示了，從分類任務(wù)和自監(jiān)督任務(wù)中學(xué)習(xí)到的通用表示是有局限性的，預(yù)訓(xùn)練和自訓(xùn)練的性能上的差異證明了這一點(diǎn)。我們對(duì)預(yù)訓(xùn)練表現(xiàn)較差的直觀解釋是，預(yù)訓(xùn)練并沒(méi)有感知到感興趣任務(wù)（the task of interest，目標(biāo)任務(wù)，最終任務(wù)），導(dǎo)致適應(yīng)(adaption)的失敗。在切換任務(wù)時(shí)常需要這樣的適應(yīng)，因?yàn)?，例如，在ImageNet上表現(xiàn)好的特征可能會(huì)丟棄COCO所需的位置信息。

我們認(rèn)為，將自訓(xùn)練的目標(biāo)與監(jiān)督學(xué)習(xí)相結(jié)合的聯(lián)合訓(xùn)練能更好地適應(yīng)感興趣任務(wù)。我們覺(jué)得這可能是自訓(xùn)練普遍有益的原因。

聯(lián)合訓(xùn)練的益處? ? 自訓(xùn)練范式的一個(gè)優(yōu)點(diǎn)是它聯(lián)合訓(xùn)練監(jiān)督和自訓(xùn)練的目標(biāo)，從而解決兩者間的不匹配問(wèn)題。不過(guò)我們也許可以聯(lián)合訓(xùn)練ImageNet和COCO，看是否能同樣解決這個(gè)不匹配問(wèn)題？表7是聯(lián)合訓(xùn)練的結(jié)果，這里將ImageNet分類和COCO檢測(cè)聯(lián)合訓(xùn)練，在本實(shí)驗(yàn)里還使用了額外的設(shè)置就是自訓(xùn)練。結(jié)果表明，使用ImageNet會(huì)帶來(lái)2.6AP的提升，但是使用隨機(jī)初始化和聯(lián)合訓(xùn)練會(huì)帶來(lái)更大的提升(2.9AP)。這個(gè)提升是在ImageNet數(shù)據(jù)集上訓(xùn)練19個(gè)epoch得來(lái)的。而大多數(shù)用于微調(diào)的ImageNet模型需要更長(zhǎng)的訓(xùn)練。例如，ImageNet Init（監(jiān)督預(yù)訓(xùn)練模型）需要在ImageNet數(shù)據(jù)集中訓(xùn)練350個(gè)epoch。

表7 所有模型使用ImageNet作為額外數(shù)據(jù)。所有模型使用20%的COCO數(shù)據(jù)，使用Augment-S4。

此外，使用同一個(gè)ImageNet數(shù)據(jù)源（在表的最后一列），預(yù)訓(xùn)練、聯(lián)合訓(xùn)練和自訓(xùn)練是互相補(bǔ)充的。ImageNet預(yù)訓(xùn)練帶來(lái)2.6AP的提升，預(yù)訓(xùn)練+聯(lián)合訓(xùn)練帶來(lái)進(jìn)一步的0.7AP的提升，預(yù)訓(xùn)練+聯(lián)合訓(xùn)練+自訓(xùn)練相比只預(yù)訓(xùn)練有3.3AP的提升。

任務(wù)匹配的重要性? ? 我們實(shí)驗(yàn)中的一個(gè)有趣結(jié)果是，即使使用人工標(biāo)注的預(yù)訓(xùn)練，表現(xiàn)得也比自訓(xùn)練要差。同樣，我們?cè)赑ASCAL數(shù)據(jù)集上驗(yàn)證了同樣的現(xiàn)象。在PASCAL數(shù)據(jù)集上，補(bǔ)充集(aug set)常被作為一個(gè)附加的數(shù)據(jù)集，它的標(biāo)簽要比訓(xùn)練集的噪聲大得多。我們實(shí)驗(yàn)表明，在高強(qiáng)度數(shù)據(jù)增強(qiáng)(Augment-S4)的情況下，使用訓(xùn)練集+補(bǔ)充集進(jìn)行訓(xùn)練會(huì)降低準(zhǔn)確度。而與此同時(shí)，在同一個(gè)補(bǔ)充集上通過(guò)自訓(xùn)練生成偽標(biāo)簽會(huì)顯著提高準(zhǔn)確度。這連個(gè)結(jié)果表明，有噪聲的標(biāo)簽(PASCAL)與不針對(duì)目標(biāo)任務(wù)的標(biāo)簽（ImageNet）都比針對(duì)目標(biāo)任務(wù)的偽標(biāo)簽要差。

表8

值得一提的是，[41]報(bào)告了在OpenImages上的預(yù)訓(xùn)練會(huì)損害在COCO上的性能，盡管OpenImages和COCO都是用的邊界框標(biāo)注。這意味著，如果要預(yù)訓(xùn)練有益，我們不僅僅希望預(yù)訓(xùn)練任務(wù)和最終目標(biāo)任務(wù)是相同的（筆者：這里任務(wù)是指，分類、分割、檢測(cè)等），我們還希望標(biāo)注也是相同的。另一方面，自訓(xùn)練是非常通用的，在附錄E里，自訓(xùn)練可以很成功地使用OpenImages來(lái)提升COCO性能。這一結(jié)果表明自訓(xùn)練可以很好地匹配感興趣任務(wù)。

局限性。????目前的自訓(xùn)練技術(shù)仍存在局限性。特別的，自訓(xùn)練相比對(duì)預(yù)訓(xùn)練模型微調(diào)，需要更多的計(jì)算。預(yù)訓(xùn)練模型可以使模型訓(xùn)練加快1.3倍到8倍，倍數(shù)因預(yù)訓(xùn)練模型質(zhì)量、數(shù)據(jù)增擴(kuò)強(qiáng)度和數(shù)據(jù)集規(guī)模而異。當(dāng)數(shù)據(jù)集規(guī)模很小時(shí)，例如PASCAL分割，是需要好的預(yù)訓(xùn)練模型的。

自訓(xùn)練的可擴(kuò)展性、通用性和靈活性。????我們的實(shí)驗(yàn)結(jié)果突出了自訓(xùn)練的顯著優(yōu)勢(shì)。首先，在靈活性上，在每一種設(shè)置中，自訓(xùn)練都是成功的：數(shù)據(jù)集規(guī)模小、數(shù)據(jù)集規(guī)模大、低強(qiáng)度數(shù)據(jù)增擴(kuò)、高強(qiáng)度數(shù)據(jù)增擴(kuò)。自訓(xùn)練對(duì)不同的網(wǎng)絡(luò)結(jié)構(gòu)（ResNet、EfficientNet、SpineNet、FPN、NAS-FPN）、數(shù)據(jù)源（ImageNet、OID、PASCAL、COCO）和任務(wù)（物體檢測(cè)、分割）都是有效的。第二，在普遍性上（筆者：generality，看來(lái)前面譯成泛化性或通用性都是錯(cuò)的），無(wú)論預(yù)訓(xùn)練是成功還是失敗，自訓(xùn)練總是成功的。第三，在可擴(kuò)展性方面，即使我們有很多的帶標(biāo)簽數(shù)據(jù)，有很強(qiáng)的模型，自訓(xùn)練仍能帶來(lái)提升。機(jī)器學(xué)習(xí)方法的一個(gè)慘痛教訓(xùn)是，當(dāng)我們有更多的帶標(biāo)簽數(shù)據(jù)、更多的計(jì)算或者更好的監(jiān)督訓(xùn)練配方(recipes)時(shí)，大多數(shù)方法會(huì)失效（失去價(jià)值），但是自訓(xùn)練不會(huì)。

附錄A：其他相關(guān)工作

自訓(xùn)練與偽標(biāo)簽方法[60-63]、一致性訓(xùn)練(consistency training)[64-82]相關(guān)。這些工作和我們的工作有很多不同之處。首先，自訓(xùn)練不用于一致性訓(xùn)練，自訓(xùn)練有2個(gè)模型，教師模型和學(xué)生模型，而一致性訓(xùn)練只有1個(gè)模型。其次，先前的工作都是關(guān)注圖像分類，而我們的工作主要是研究物體檢測(cè)和分割。最后，先前的工作沒(méi)有研究在現(xiàn)代數(shù)據(jù)增擴(kuò)下自訓(xùn)練和預(yù)訓(xùn)練間的交互作用。

附錄B：損失歸一化分析(Loss Normalization Analysis)

我們發(fā)現(xiàn)標(biāo)準(zhǔn)的自訓(xùn)練損失 $\hat{L} =L_{h} +\alpha L_{p}$ 會(huì)導(dǎo)致訓(xùn)練得非常不穩(wěn)定，這是由于總的損失隨著 $\alpha$ 的變化而急劇變化。（筆者：換句話說(shuō)，損失函數(shù)對(duì)這個(gè)超參數(shù)太敏感。）因此我們?cè)O(shè)計(jì)了一種損失歸一化方法，使 $\alpha$ 變化時(shí)自訓(xùn)練過(guò)程穩(wěn)定：

$\hat{L} ={\frac{1}{1+\alpha } }(L_{h} +\alpha \frac{\vec{L_{h}} }{\vec{L_{p}} } L_{p})$

其中， $L_{h}$ 是人工標(biāo)注數(shù)據(jù)的損失， $L_{p}$ 是偽標(biāo)簽數(shù)據(jù)的損失， $\vec{L_{h}}$ 是人工標(biāo)注數(shù)據(jù)在訓(xùn)練過(guò)程的滑動(dòng)平均， $\vec{L_{p}}$ 是偽標(biāo)簽數(shù)據(jù)在訓(xùn)練過(guò)程的滑動(dòng)平均。

圖2所示是當(dāng)我們改變數(shù)據(jù)增擴(kuò)的強(qiáng)度、訓(xùn)練迭代次數(shù)、學(xué)習(xí)率和 $\alpha$ 時(shí)，損失歸一化的性能。這些實(shí)驗(yàn)是RetinaNet（檢測(cè)頭）+ResNet-101（主干）在COCO數(shù)據(jù)集上做物體檢測(cè)。ImageNet是自訓(xùn)練用到的額外數(shù)據(jù)?？梢钥吹剑诟鞣N設(shè)置下，損失歸一化都表現(xiàn)得更好，而且，更重要的是，當(dāng) $\alpha$ 設(shè)置為一個(gè)比較大的值時(shí)，損失歸一化能夠避免訓(xùn)練的不穩(wěn)定。

圖2? ×表示訓(xùn)練的時(shí)候出現(xiàn)NaNs，導(dǎo)致未能完成訓(xùn)練

在不同強(qiáng)度的數(shù)據(jù)增擴(kuò)、迭代次數(shù)和學(xué)習(xí)率設(shè)置中，我們發(fā)現(xiàn)，損失歸一化比基線要平均高出0.4AP。而且，重要的一點(diǎn)是，在我們使用最高強(qiáng)度的Augment-S4時(shí)，損失歸一化比基線高出1.3AP。

最近的自訓(xùn)練工作[10,82]通常將他們所有實(shí)驗(yàn)中的參數(shù) $\alpha$ 取值為1。在我們的很多實(shí)驗(yàn)中，我們發(fā)現(xiàn)設(shè)置為1是次優(yōu)的，并且最優(yōu)值會(huì)隨著迭代次數(shù)和數(shù)據(jù)增擴(kuò)強(qiáng)度的變化而變化。表9所示是 $\alpha$ 的最優(yōu)取值隨著迭代次數(shù)和數(shù)據(jù)增擴(kuò)強(qiáng)度的變化而變化： $\alpha$ 的最優(yōu)取值會(huì)隨著數(shù)據(jù)增擴(kuò)強(qiáng)度增大而減??； $\alpha$ 的最優(yōu)取值會(huì)隨著迭代次數(shù)的增大而增大。

表9 在每種強(qiáng)度的數(shù)據(jù)增擴(kuò)和迭代次數(shù)的設(shè)置下，alpha的實(shí)驗(yàn)設(shè)置為：0.25、0.5、1.0、2.0、3.0、4.0

C 關(guān)于數(shù)據(jù)增擴(kuò)、有監(jiān)督數(shù)據(jù)集規(guī)模和預(yù)訓(xùn)練模型質(zhì)量的進(jìn)一步研究

我們?cè)谇懊?.1節(jié)的分析基礎(chǔ)上進(jìn)行了擴(kuò)展，并展示了使用不同規(guī)模的COCO標(biāo)簽數(shù)據(jù)、使用不同強(qiáng)度的數(shù)據(jù)增擴(kuò)是如何與預(yù)訓(xùn)練模型質(zhì)量相互作用的。圖3所示是這些控制變量的相互作用。我們?cè)俅斡^察到這3點(diǎn)現(xiàn)象：1)高強(qiáng)度的數(shù)據(jù)增擴(kuò)會(huì)降低預(yù)訓(xùn)練的價(jià)值；2)當(dāng)使用更高強(qiáng)度的數(shù)據(jù)增擴(kuò)時(shí)，預(yù)訓(xùn)練反而有害；3)使用更多的有標(biāo)簽數(shù)據(jù)會(huì)降低預(yù)訓(xùn)練的價(jià)值。在所有的設(shè)置中，我們還發(fā)現(xiàn)，更好質(zhì)量的預(yù)訓(xùn)練模型?ImageNet++ checkpoint，總是要比ImageNet checkpoint表現(xiàn)得更好。有趣的是，在所有4種強(qiáng)度的數(shù)據(jù)增擴(kuò)里的3種，當(dāng)預(yù)訓(xùn)練有損害的時(shí)候，預(yù)訓(xùn)練模型的質(zhì)量越好，損害程度就越小。

圖3

我們研究了預(yù)訓(xùn)練checkpoint質(zhì)量和數(shù)據(jù)增擴(kuò)強(qiáng)度對(duì)很小規(guī)模數(shù)據(jù)集，也就是PASCAL VOC 2012的影響。表10的結(jié)果表明，對(duì)于只有1.5k張圖像的PASCAL訓(xùn)練集，預(yù)訓(xùn)練質(zhì)量是非常重要的，并且會(huì)顯著提升性能。我們觀察到，隨著數(shù)據(jù)增擴(kuò)的強(qiáng)度的增加，checkpoint質(zhì)量帶來(lái)的性能提升會(huì)下降。此外，ImageNet checkpoint的性能再一次與PASCAL VOC上的性能相關(guān)。

表10

D 在COCO數(shù)據(jù)集上ResNet101的自訓(xùn)練表現(xiàn)

本文中在COCO上的實(shí)驗(yàn)是以RetinaNet為框架、以EfficientNet-B7和SpineNet為主干的。自訓(xùn)練也能很好地用于其它的主干，比如ResNet-101[83]。結(jié)果如表11所示。再一次，自訓(xùn)練在所有強(qiáng)度的數(shù)據(jù)增擴(kuò)設(shè)置上都帶來(lái)很大的提升。

表11 監(jiān)督模型使用的是ResNet101，圖像尺寸640×640，訓(xùn)練規(guī)程按照[14]。ImageNet是自訓(xùn)練的額外數(shù)據(jù)源。

E 自訓(xùn)練中無(wú)標(biāo)簽數(shù)據(jù)源的影響

最近實(shí)驗(yàn)提出的一個(gè)重要問(wèn)題是，改變額外數(shù)據(jù)源會(huì)如何影響到自訓(xùn)練性能。在我們的分析中，我們用的是ImageNet，這是個(gè)圖像分類數(shù)據(jù)集，包含的主要是iconic圖像（iconic，圖符、肖像等含義，此處應(yīng)該是指一張圖像中會(huì)有個(gè)“主角”物體占在圖像的主要位置）。其圖像內(nèi)容和COCO、PASCAL和Open Images非常不同，后三者包含更多的是non-iconic圖像。Iconic圖像通常只有一個(gè)以concial視角的物體，而non-iconic圖像會(huì)通過(guò)自然視角捕獲場(chǎng)景中的多個(gè)物體[52]。表12研究了將額外數(shù)據(jù)從ImageNet改為 Open Images[54]會(huì)如何影響自訓(xùn)練的性能。可以看到，在不同強(qiáng)度的數(shù)據(jù)增擴(kuò)強(qiáng)度下，在COCO物體檢測(cè)中，將自訓(xùn)練的額外數(shù)據(jù)從ImageNet改為?Open Images最多可以帶來(lái)0.6AP的提升。有趣的是，在[41]中，在Open Images上預(yù)訓(xùn)練不能幫助COCO檢測(cè)，但我們確實(shí)看到用Open Images自訓(xùn)練能帶來(lái)比ImageNet更多的提升。

表12 所有模型使用EfficientNet-B7 主干，隨機(jī)初始化。

我們還研究了更改額外數(shù)據(jù)集源對(duì)PASCAL VOC 2012的影響。在表13中，我們觀察到將額外數(shù)據(jù)源從ImageNet更改為COCO可以提高在所有強(qiáng)度的數(shù)據(jù)增擴(kuò)設(shè)置下的性能。表現(xiàn)最佳的自訓(xùn)練額外數(shù)據(jù)源是PASCAL的補(bǔ)充集，其是PASCAL任務(wù)的域內(nèi)任務(wù)。PASCAL的補(bǔ)充集只有9k張圖像，但是比具有240k張圖像的COCO數(shù)據(jù)集帶來(lái)更多的提升。

表13 所有模型使用EfficientNet-B7主干，使用 ImageNet++預(yù)訓(xùn)練初始化。

F 自訓(xùn)練中偽標(biāo)簽的展示

PASCAL VOC數(shù)據(jù)集：????原始的PASCAL VOC 2012數(shù)據(jù)集的訓(xùn)練集包含1464張帶標(biāo)簽的數(shù)據(jù)。[16]提供了額外的標(biāo)注圖像，使得訓(xùn)練集+補(bǔ)充集(train+aug)總共有10582張圖像。很多先前的工作是用train+aug來(lái)訓(xùn)練。然而，我們發(fā)現(xiàn)，使用補(bǔ)充集進(jìn)行高強(qiáng)度的數(shù)據(jù)增擴(kuò)實(shí)際上會(huì)損害性能（見(jiàn)表8）。圖4是一些在補(bǔ)充集上選擇的圖片，我們發(fā)現(xiàn)補(bǔ)充集的標(biāo)注質(zhì)量要比訓(xùn)練集低。例如，有些圖像的標(biāo)注沒(méi)有涵蓋圖像中所有物體，或者分割掩膜不夠精細(xì)。圖4的第3列是我們的教師模型生成的偽標(biāo)簽，從中可以看出，偽標(biāo)簽的分割掩膜更精確。實(shí)驗(yàn)證明，使用帶有偽標(biāo)簽的補(bǔ)充集比使用人工標(biāo)注的補(bǔ)充集能帶來(lái)更多的提升（見(jiàn)表8）。

圖4 在PASCAL補(bǔ)充集上選擇的一些偽標(biāo)簽比人工標(biāo)簽[16]更好的圖片

ImageNet數(shù)據(jù)集：? ? 圖5所示是教師模型在ImageNet中隨機(jī)選擇的14張圖像上生成的分割偽標(biāo)簽。有趣的是，ImageNet上的有些類別不被包含在PASCAL VOC 2012的20類別中，也被預(yù)測(cè)為PASCAL VOC 2012的20類別之一。例如，鋸和蜥蜴被預(yù)測(cè)為鳥(niǎo)。盡管偽標(biāo)簽有很多噪聲，但它們?nèi)匀惶岣吡藢W(xué)生模型的準(zhǔn)確性（表13）。

圖5 在ImageNet上隨機(jī)選擇的一些圖片的分割偽標(biāo)簽

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

再想一想預(yù)訓(xùn)練和自訓(xùn)練吧

再想一想預(yù)訓(xùn)練和自訓(xùn)練吧

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

再想一想預(yù)訓(xùn)練和自訓(xùn)練吧

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av