作者:Barret Zoph,Golnaz Ghiasi,Tsung-Yi Lin 等
Google Research,Brain Team,2020.6.11
摘要:預(yù)訓(xùn)練是計(jì)算機(jī)視覺(jué)領(lǐng)域的一種主流范式。例如,對(duì)ImageNet的有監(jiān)督預(yù)訓(xùn)練模型常被用于初始化物體檢測(cè)和分割模型的主干網(wǎng)絡(luò)。但是何愷明給出了一個(gè)令人驚訝的發(fā)現(xiàn)[1]:在ImageNet上預(yù)訓(xùn)練對(duì)COCO上的物體檢測(cè)的影響是有限的。本文將調(diào)研另一種使用額外數(shù)據(jù)的方法,自訓(xùn)練,并在相同設(shè)置下與ImageNet預(yù)訓(xùn)練模型對(duì)比。我們的研究揭示了自訓(xùn)練的泛化性和靈活性,并給出另外3個(gè)觀點(diǎn):1)更強(qiáng)的數(shù)據(jù)增擴(kuò)和更多的有標(biāo)簽數(shù)據(jù)會(huì)進(jìn)一步削弱預(yù)訓(xùn)練的價(jià)值;2)與之不同的是,在低數(shù)據(jù)和高數(shù)據(jù)情況下(low-data and high-data regimes),當(dāng)使用更強(qiáng)的數(shù)據(jù)增擴(kuò)的時(shí)候,自訓(xùn)練總是有提升作用的;3)當(dāng)預(yù)訓(xùn)練起作用的時(shí)候,在預(yù)訓(xùn)練的基礎(chǔ)上使用自訓(xùn)練能帶來(lái)進(jìn)一步地提升。例如,在COCO物體檢測(cè)上,預(yù)訓(xùn)練在使用1/5的有標(biāo)簽數(shù)據(jù)時(shí)有益,在使用所有有標(biāo)簽數(shù)據(jù)時(shí)有害。而自訓(xùn)練無(wú)論數(shù)據(jù)集規(guī)模大小都能帶來(lái)+1.3到+3.4AP的提升。換言之,當(dāng)預(yù)訓(xùn)練不起作用(用ImageNet來(lái)幫助COCO)的時(shí)候,相同設(shè)置下,自訓(xùn)練能很好地起作用。PASCAL分割數(shù)據(jù)集是個(gè)比COCO小得多的數(shù)據(jù)集,雖然預(yù)訓(xùn)練有很大的改善作用,但是自訓(xùn)練能在預(yù)訓(xùn)練的基礎(chǔ)上帶來(lái)進(jìn)一步地提升。在COCO物體檢測(cè)上,我們達(dá)到54.3AP,比最強(qiáng)模型SpineNet提升+1.5AP。在PASCAL分割上,我們達(dá)到90.5mIoU,比先前的先進(jìn)模型DeepLabv3+提升+1.5%mIoU。
1 介紹
預(yù)訓(xùn)練是計(jì)算機(jī)視覺(jué)領(lǐng)域的一種主流范式。由于許多視覺(jué)任務(wù)都是相關(guān)的,因此需要在一個(gè)數(shù)據(jù)集上預(yù)訓(xùn)練一個(gè)模型,以幫助另一個(gè)數(shù)據(jù)集?,F(xiàn)有的普遍做法是在ImageNet分類上預(yù)訓(xùn)練一個(gè)模型,然后作為物體檢測(cè)和分割網(wǎng)絡(luò)的主干[2-5]。這種做法最近受到何愷明的質(zhì)疑[1],他們給出一個(gè)令人吃驚的結(jié)果,即在ImageNet上的預(yù)訓(xùn)練并不能提高在COCO數(shù)據(jù)集上的準(zhǔn)確度。
與之形成鮮明對(duì)比的是自訓(xùn)練[6-8]。假定我們現(xiàn)在是要用ImageNet來(lái)幫助COCO物體檢測(cè),自訓(xùn)練步驟是,先丟棄掉ImageNet上的標(biāo)簽,在COCO上訓(xùn)練一個(gè)檢測(cè)模型,用這個(gè)檢測(cè)模型對(duì)ImageNet數(shù)據(jù)生成偽標(biāo)簽,將帶偽標(biāo)簽的ImageNet數(shù)據(jù)和人工標(biāo)簽的COCO數(shù)據(jù)組合起來(lái)訓(xùn)練一個(gè)新的檢測(cè)模型。自訓(xùn)練最近的一些成功的工作[9-12]提出了一個(gè)問(wèn)題:自訓(xùn)練在多大程度上比預(yù)訓(xùn)練更有效?在預(yù)訓(xùn)練失效的時(shí)候,自訓(xùn)練在相同的設(shè)置下能夠起作用,用ImageNet幫助COCO檢測(cè)嗎?
我們的研究(我們的方法是基于受干擾的學(xué)生[10])重點(diǎn)就是要回答這些問(wèn)題。我們定義了一組控制實(shí)驗(yàn),用ImageNet作為額外數(shù)據(jù),目的是要提升COCO的準(zhǔn)確度??刂谱兞渴鞘褂肅OCO中有標(biāo)簽的數(shù)據(jù)的數(shù)量,以及數(shù)據(jù)增擴(kuò)的強(qiáng)度。實(shí)驗(yàn)表明,增大數(shù)據(jù)增擴(kuò)的強(qiáng)度,或者增加使用COCO有標(biāo)簽數(shù)據(jù)的數(shù)量,預(yù)訓(xùn)練的價(jià)值會(huì)降低。當(dāng)我們使用最強(qiáng)程度的數(shù)據(jù)增擴(kuò)的時(shí)候,預(yù)訓(xùn)練帶來(lái)副作用,使準(zhǔn)確度下降1.0AP。這是個(gè)連何愷明[1]都沒(méi)發(fā)現(xiàn)的令人吃驚的結(jié)果。而自訓(xùn)練和數(shù)據(jù)增擴(kuò)有很好的交互作用,使用更強(qiáng)的數(shù)據(jù)增擴(kuò)不僅不會(huì)損害自訓(xùn)練,而且有助于自訓(xùn)練。在相同強(qiáng)度的數(shù)據(jù)增擴(kuò)、使用相同的ImageNet數(shù)據(jù)時(shí),自訓(xùn)練仍能帶來(lái)1.3AP的提升。這表明預(yù)訓(xùn)練失效的時(shí)候,自訓(xùn)練仍然是有效的。這一正一負(fù)兩個(gè)結(jié)果給上述問(wèn)題一個(gè)肯定的回答。
一種越來(lái)越流行的預(yù)訓(xùn)練方法是自監(jiān)督學(xué)習(xí)。自監(jiān)督學(xué)習(xí)方法是在一個(gè)數(shù)據(jù)集上不用標(biāo)簽的預(yù)訓(xùn)練,希望能建立適用于更廣泛任務(wù)和數(shù)據(jù)集的通用表示。我們研究了最先進(jìn)的自監(jiān)督學(xué)習(xí)方法預(yù)訓(xùn)練的ImageNet模型,并且在COCO上和標(biāo)準(zhǔn)的有監(jiān)督預(yù)訓(xùn)練的ImageNet模型對(duì)比。我們發(fā)現(xiàn),使用SimCLR[13]的自監(jiān)督預(yù)訓(xùn)練模型和有監(jiān)督預(yù)訓(xùn)練的ImageNet模型性能相似。兩者在COCO上當(dāng)高數(shù)據(jù)(high data)/高強(qiáng)度的數(shù)據(jù)增擴(kuò)的時(shí)候都是帶來(lái)負(fù)作用,而自訓(xùn)練是帶來(lái)提升作用。我們的研究表示,當(dāng)有標(biāo)簽數(shù)據(jù)的數(shù)量增加到一定程度時(shí),有監(jiān)督的預(yù)訓(xùn)練和自監(jiān)督的預(yù)訓(xùn)練會(huì)失敗,而自訓(xùn)練仍能帶來(lái)提升。
然而,我們的工作并不排斥計(jì)算機(jī)視覺(jué)的預(yù)訓(xùn)練。在我們的實(shí)驗(yàn)中,對(duì)預(yù)訓(xùn)練模型微調(diào)要比從頭訓(xùn)練模型和自訓(xùn)練要快,快1.3倍到8倍,倍數(shù)因預(yù)訓(xùn)練模型質(zhì)量、數(shù)據(jù)增擴(kuò)強(qiáng)度和數(shù)據(jù)集規(guī)模而異。在收集有標(biāo)簽數(shù)據(jù)困難的情況下,預(yù)訓(xùn)練也是有用的。這種情況下,預(yù)訓(xùn)練能工作得很好,但是無(wú)論有沒(méi)有預(yù)訓(xùn)練,這種情況下自訓(xùn)練都能帶來(lái)提升。例如,在PASCAL分割數(shù)據(jù)集上實(shí)驗(yàn)表明,用ImageNet預(yù)訓(xùn)練模型能提高準(zhǔn)確度,但是用自訓(xùn)練在預(yù)訓(xùn)練的基礎(chǔ)上提供了額外的+1.3%mIoU的提升。事實(shí)上,即使用同一個(gè)數(shù)據(jù)集去預(yù)訓(xùn)練/自訓(xùn)練,預(yù)訓(xùn)練帶來(lái)的提升也不會(huì)抵消自訓(xùn)練帶來(lái)的提升,這表明了自訓(xùn)練的普遍性(generality)。
進(jìn)一步,我們探討了在COCO和PASCAL數(shù)據(jù)集上自訓(xùn)練的局限性,從而證明該方法的靈活性。在COCO數(shù)據(jù)集上自訓(xùn)練,將OpenImages作為額外的無(wú)標(biāo)簽數(shù)據(jù),將帶有SpineNet[15]的RetinaNet[14]作為檢測(cè)網(wǎng)絡(luò),這種組合在COCO測(cè)試集上達(dá)到54.3AP,比最強(qiáng)SpineNet模型高出+1.5AP。在圖像分割,用PASCAL aug set[16]作為無(wú)標(biāo)簽的額外數(shù)據(jù),用NAS-FPN[17]+EfficientNet-L2[10]作為分割網(wǎng)絡(luò)。這種組合在PASCAL VOC 2012測(cè)試集上達(dá)到90.5%mIoU,超過(guò)了之前的先進(jìn)模型89.0%mIoU[18],而[18]使用了300M張額外的有標(biāo)簽數(shù)據(jù)。這些結(jié)果證實(shí)了自訓(xùn)練的另一個(gè)好處:它對(duì)未標(biāo)簽數(shù)據(jù)來(lái)源、網(wǎng)絡(luò)結(jié)構(gòu)和各種計(jì)算機(jī)視覺(jué)任務(wù)都很靈活。
2.相關(guān)工作
在整個(gè)深度學(xué)習(xí)的歷史中,預(yù)訓(xùn)練一直備受關(guān)注(見(jiàn)[19]及其參考文獻(xiàn))。21世紀(jì)初,深度學(xué)習(xí)的復(fù)蘇也始于無(wú)監(jiān)督的預(yù)訓(xùn)練[20-24]。NLP中無(wú)監(jiān)督預(yù)訓(xùn)練的成功[25-30]重新激起了人們對(duì)計(jì)算機(jī)視覺(jué)無(wú)監(jiān)督預(yù)訓(xùn)練的興趣,尤其是對(duì)比訓(xùn)練[13,31-35]。在實(shí)踐中,有監(jiān)督的預(yù)訓(xùn)練在計(jì)算機(jī)視覺(jué)領(lǐng)域是非常成功的。例如,許多研究(例如[36–40])表明,在ImageNet、Instagram和JFT上預(yù)訓(xùn)練的卷積網(wǎng)絡(luò)可以為許多下游任務(wù)提供很大的提升。
有監(jiān)督的ImageNet預(yù)訓(xùn)練是用于目標(biāo)檢測(cè)和分割的最廣泛的初始化方法(例如[2-5])。然而,何愷明卻質(zhì)疑[1],當(dāng)用在一個(gè)非常不同的下游任務(wù)上時(shí),例如COCO物體檢測(cè),ImageNet預(yù)訓(xùn)練模型效果并不好。
與何愷明的工作[1]相比,我們的工作是更進(jìn)一步,更詳細(xì)地研究預(yù)訓(xùn)練在計(jì)算機(jī)視覺(jué)中不同情況下的作用,包括:更強(qiáng)程度的數(shù)據(jù)增擴(kuò)、不同的預(yù)訓(xùn)練方法(監(jiān)督和自監(jiān)督)以及不同質(zhì)量的預(yù)訓(xùn)練模型(checkpoints)。
本文沒(méi)有深入研究有針對(duì)性的預(yù)訓(xùn)練,例如用一個(gè)物體檢測(cè)數(shù)據(jù)集的預(yù)訓(xùn)練去幫助另一個(gè)物體檢測(cè)數(shù)據(jù)集。原因有二:一是有針對(duì)性的預(yù)訓(xùn)練成本高昂,且可擴(kuò)展性差;二是,已有證據(jù)表明,在相同任務(wù)不同數(shù)據(jù)集上的預(yù)訓(xùn)練仍然不能帶來(lái)提升。例如[41]證明在OpenImages物體檢測(cè)數(shù)據(jù)集上的預(yù)訓(xùn)練會(huì)損害在COCO物體檢測(cè)數(shù)據(jù)集上的表現(xiàn)。更多關(guān)于有針對(duì)性的預(yù)訓(xùn)練的分析見(jiàn)[42]。
我們的工作證明了自訓(xùn)練的可擴(kuò)展性和普遍性(例如,[6-8])。最近,自訓(xùn)練在深度學(xué)習(xí)(例如,圖像分類[9,10]、機(jī)器翻譯[11]和語(yǔ)音識(shí)別[12,43])方面取得了顯著進(jìn)展。與我們的工作關(guān)系最密切的是受干擾的學(xué)生[10],其在自訓(xùn)練中使用很強(qiáng)的數(shù)據(jù)增擴(kuò),但是是用到圖像分類上。在應(yīng)用上更接近的是用于檢測(cè)和分割的半監(jiān)督學(xué)習(xí)(例如[44–47]),但他們只是單獨(dú)研究自訓(xùn)練,沒(méi)有和ImageNet預(yù)訓(xùn)練進(jìn)行對(duì)比,也沒(méi)有考慮這些訓(xùn)練方法和數(shù)據(jù)增擴(kuò)的交互作用。
3 方法
3.1 方法與控制變量
數(shù)據(jù)增擴(kuò):? ? 對(duì)檢測(cè)和分割,我們使用4種不同強(qiáng)度的數(shù)據(jù)增擴(kuò)策略。這樣我們就可以在分析中改變數(shù)據(jù)增擴(kuò)的強(qiáng)度。我們根據(jù)標(biāo)準(zhǔn)的裁剪翻轉(zhuǎn)[14]、AutoAugment[48,49]和RandAugment[50]來(lái)設(shè)計(jì)我們的數(shù)據(jù)增強(qiáng)策略。標(biāo)準(zhǔn)的翻轉(zhuǎn)裁剪包括水平翻轉(zhuǎn)以及尺度抖動(dòng),標(biāo)準(zhǔn)的尺度抖動(dòng)是指將圖像縮放為目標(biāo)圖像尺寸的(0.8,1.2)倍,然后再裁剪。AutoAugment和RandAugment最初的設(shè)計(jì)是基于標(biāo)準(zhǔn)的尺度抖動(dòng)的,我們加寬了尺度抖動(dòng)范圍至(0.5,2.0),發(fā)現(xiàn)會(huì)有顯著改善。我們?cè)趯?shí)驗(yàn)中用的四種數(shù)據(jù)增擴(kuò)策略是:翻轉(zhuǎn)裁剪、AutoAugment、大范圍尺度抖動(dòng)的AutoAugment、大范圍尺度抖動(dòng)的RandAugment。在下文中這4中策略會(huì)被稱為:Augment-S1、Augment-S2、Augment-S3、Augment-S4。后3種策略比何愷明在[1]中用的強(qiáng)度更大,他只用了翻轉(zhuǎn)裁剪策略。
預(yù)訓(xùn)練:? ? 為了評(píng)估預(yù)訓(xùn)練的有效性,我們研究了不同質(zhì)量的ImageNet預(yù)訓(xùn)練checkpoint。為了控制模型容量,所有checkpoints的網(wǎng)絡(luò)結(jié)構(gòu)相同,但是在ImageNet上有不同的準(zhǔn)確度(因?yàn)橛?xùn)練方式不同)。我們使用EfficientNet-B7網(wǎng)絡(luò)結(jié)構(gòu)[57]作為預(yù)訓(xùn)練的一個(gè)強(qiáng)大的基線。對(duì)于EfficientNet-B7網(wǎng)絡(luò),有兩個(gè)可得的checkpoints:1)用AutoAugment訓(xùn)練的在ImageNet上84.5% top-1準(zhǔn)確度的checkpoints;2)使用300M張無(wú)標(biāo)簽數(shù)據(jù)用受干擾學(xué)生訓(xùn)練[10]的在ImageNet上86.9% top-1準(zhǔn)確度的checkpoints。在下文中我們將這兩個(gè)checkpoints表示為ImageNet、ImageNet++,隨機(jī)初始化表示為RandInit。因此,我們所有的基線都比何愷明用的[1]要強(qiáng),何愷明在[1]中用的是ResNets,而EfficientNet-B7 checkpoint比ResNet-50 checkpoint要高出大約8個(gè)百分點(diǎn)。表1匯總了我們的數(shù)據(jù)增擴(kuò)和預(yù)訓(xùn)練模型的表示符號(hào)。

自訓(xùn)練:我們用的自訓(xùn)練是基于受干擾的學(xué)生[10],有3個(gè)步驟。首先,在有標(biāo)簽數(shù)據(jù)(例如COCO數(shù)據(jù)集)上訓(xùn)練一個(gè)教師模型。然后,教師模型在無(wú)標(biāo)簽數(shù)據(jù)(例如ImageNet數(shù)據(jù)集)上生成偽標(biāo)簽。最后,在人工標(biāo)注數(shù)據(jù)和偽標(biāo)簽數(shù)據(jù)上聯(lián)合訓(xùn)練一個(gè)學(xué)生模型。學(xué)生模型受到的干擾的主要來(lái)源是數(shù)據(jù)增擴(kuò)以及先前在相關(guān)模型中使用的其他噪聲方法。
我們對(duì)各種超參數(shù)和數(shù)據(jù)增擴(kuò)的實(shí)驗(yàn)表明,用這種標(biāo)準(zhǔn)損失函數(shù)進(jìn)行自訓(xùn)練是不穩(wěn)定的。為了解決這個(gè)問(wèn)題,我們實(shí)現(xiàn)了一種損失歸一化技術(shù),會(huì)在附錄B中介紹。
3.2 其它的實(shí)驗(yàn)設(shè)置
物體檢測(cè):????我們使用COCO數(shù)據(jù)集[52](118k個(gè)圖像)進(jìn)行監(jiān)督學(xué)習(xí)。在自訓(xùn)練中,我們使用ImageNet[53](1.2M圖像)和OpenImages[54](1.7M圖像)作為無(wú)標(biāo)簽數(shù)據(jù)。網(wǎng)絡(luò)選擇EfficientNet-B7為主干,RetinaNet為檢測(cè)頭,使用特征金字塔。和[14]一樣,圖像尺寸640×640,使用特征金字塔的P3到P7,每個(gè)像素9個(gè)錨框。批量大小256,權(quán)重衰減1e-4。初始學(xué)習(xí)率0.32,使用余弦學(xué)習(xí)率衰減策略[56]。對(duì)使用不用的是數(shù)據(jù)增擴(kuò)強(qiáng)度和數(shù)據(jù)集規(guī)模的實(shí)驗(yàn),我們使每個(gè)模型訓(xùn)練到收斂(converges)為止(即繼續(xù)訓(xùn)練在驗(yàn)證集上的性能不再有提升甚至下降)。例如,當(dāng)兩個(gè)模型隨機(jī)初始化時(shí),使用Augment-S1進(jìn)行45k次迭代,使用Augment-S4進(jìn)行120k次迭代。當(dāng)使用SpineNet時(shí),使用[15]中的網(wǎng)絡(luò)結(jié)構(gòu)和超參數(shù),由于內(nèi)存限制,將批量大小從256降為128,并且將學(xué)習(xí)率減半。除了批量大小和學(xué)習(xí)率以外的其它超參數(shù)遵循SpineNet的開(kāi)源代碼里的設(shè)置。所有的SpineNet模型使用SoftNMS[57],sigma參數(shù)為0.3。在自訓(xùn)練中,使用0.5的硬閾值來(lái)生成偽邊框標(biāo)簽。批量大小總的為512,其中COCO數(shù)據(jù)256,偽標(biāo)簽數(shù)據(jù)256。其它訓(xùn)練超參數(shù)和監(jiān)督訓(xùn)練一樣。
語(yǔ)義分割:? ? 我們使用PASCAL VOC 2012[58]的訓(xùn)練集(1.5k張圖片)來(lái)有監(jiān)督訓(xùn)練。自訓(xùn)練中,使用增廣版PASCAL數(shù)據(jù)集[16](9k張圖片),COCO(240k張圖片,240k是包含有標(biāo)簽和無(wú)標(biāo)簽)和ImageNet[53](1.2M張圖像)。使用NAS-FPN[17]作為框架, EfficientNet-B7和EfficientNet-L2為主干。我們的NAS-FPN重復(fù)使用7次深度可分離卷積。使用特征金字塔的P3到P7,并將所有特征上采樣至P2大小,并將它們相加合并起來(lái)。對(duì)合并后的特征,使用3層3×3卷積,再接上一個(gè)1×1卷積用于21類分割。主干為EfficientNet-B7時(shí)學(xué)習(xí)率設(shè)為0.08,主干為EfficientNet-L2時(shí)學(xué)習(xí)率設(shè)為0.2(筆者想問(wèn)一句:難道這暗示網(wǎng)絡(luò)越大,初始學(xué)習(xí)率應(yīng)該越大,有這個(gè)規(guī)律?),批量大小256,權(quán)重衰減1e-5。使用余弦學(xué)習(xí)率衰減策略。EfficientNet-B7迭代40k次,EfficientNet-L2迭代20k次。自訓(xùn)練中,EfficientNet-B7的批量大小是512,EfficientNet-L2的批量大小是256。批量大小的一半給人工標(biāo)注數(shù)據(jù),一半給偽標(biāo)簽數(shù)據(jù)。其它超參數(shù)和監(jiān)督訓(xùn)練一樣。此外,使用0.5的硬閾值來(lái)生成偽分割標(biāo)簽,分?jǐn)?shù)小于閾值的被設(shè)為忽略標(biāo)簽。最后,使用多尺度推理數(shù)據(jù)增強(qiáng)(0.5,0.75,1,1.25,1.5,1.75)來(lái)計(jì)算偽標(biāo)簽分割掩膜。
4. 實(shí)驗(yàn)
4.1 數(shù)據(jù)增擴(kuò)和有標(biāo)簽數(shù)據(jù)數(shù)量對(duì)預(yù)訓(xùn)練的影響
本節(jié)擴(kuò)展了何愷明的發(fā)現(xiàn)[1],他研究了使用不同數(shù)量的COCO有標(biāo)簽數(shù)據(jù)時(shí)預(yù)訓(xùn)練的缺陷。和他們的研究類似,我們用ImageNet做有監(jiān)督的預(yù)訓(xùn)練,并改變COCO有標(biāo)簽數(shù)據(jù)的規(guī)模。和他們的研究不同的是,我們還改變另外兩個(gè)控制變量:數(shù)據(jù)增擴(kuò)的強(qiáng)度和預(yù)訓(xùn)練模型的質(zhì)量(詳細(xì)介紹見(jiàn)3.1節(jié))。如上所述,我們的網(wǎng)絡(luò)以EfficientNet-B7為主干,以RetinaNet為檢測(cè)頭。以下是我們的主要發(fā)現(xiàn):
當(dāng)數(shù)據(jù)增擴(kuò)的強(qiáng)度很強(qiáng)時(shí),預(yù)訓(xùn)練是有害的。????我們分析當(dāng)數(shù)據(jù)增擴(kuò)的強(qiáng)度不同時(shí)預(yù)訓(xùn)練的影響。如圖1左圖所示,當(dāng)我們使用標(biāo)準(zhǔn)的數(shù)據(jù)增擴(kuò)(Augment-S1)時(shí),預(yù)訓(xùn)練是有益的。但是當(dāng)我們加大數(shù)據(jù)增擴(kuò)的強(qiáng)度時(shí),預(yù)訓(xùn)練的價(jià)值會(huì)消失。更進(jìn)一步的,當(dāng)把數(shù)據(jù)增擴(kuò)的強(qiáng)度加到更大時(shí),預(yù)訓(xùn)練實(shí)際上是大大地?fù)p害了性能(-1.0AP)。這一結(jié)果何愷明[1]沒(méi)有發(fā)現(xiàn),在他們的實(shí)驗(yàn)中,預(yù)訓(xùn)練只是有些輕微的損害(-0.4AP)或者是無(wú)益無(wú)害的。

使用更多的有標(biāo)簽數(shù)據(jù),預(yù)訓(xùn)練的價(jià)值會(huì)消失。? ? 接著,我們分析使用不同規(guī)模的有標(biāo)簽數(shù)據(jù)時(shí)預(yù)訓(xùn)練的影響。如圖1右圖所示,在有標(biāo)簽數(shù)據(jù)規(guī)模小(20%,low-data regimes)時(shí),預(yù)訓(xùn)練是有益的;在有標(biāo)簽數(shù)據(jù)規(guī)模大時(shí),預(yù)訓(xùn)練是有害的或者無(wú)益無(wú)害的。這一發(fā)現(xiàn)與何愷明的發(fā)現(xiàn)[1]基本一致。這里一個(gè)新發(fā)現(xiàn)是,當(dāng)使用小規(guī)模有標(biāo)簽數(shù)據(jù)時(shí),checkpoint質(zhì)量和最終性能相關(guān):在使用20%COCO有標(biāo)簽數(shù)據(jù)時(shí),ImageNet++預(yù)訓(xùn)練模型表現(xiàn)最佳。
4.2?數(shù)據(jù)增擴(kuò)和有標(biāo)簽數(shù)據(jù)數(shù)量對(duì)自訓(xùn)練的影響
本節(jié)分析自訓(xùn)練,并與上一節(jié)結(jié)果對(duì)比。為了公平比較,我們繼續(xù)將COCO物體檢測(cè)作為任務(wù),ImageNet作為用以自訓(xùn)練的額外數(shù)據(jù)。和預(yù)訓(xùn)練不同,自訓(xùn)練不使用ImageNet的圖像標(biāo)簽。網(wǎng)絡(luò)同樣是以EfficientNet-B7為主干,以RetinaNet為檢測(cè)頭。以下是主要發(fā)現(xiàn):
在有標(biāo)簽數(shù)據(jù)規(guī)模大、數(shù)據(jù)增擴(kuò)強(qiáng)度很強(qiáng)時(shí),即使預(yù)訓(xùn)練會(huì)有害,自訓(xùn)練仍是有益的。????和上一節(jié)類似,我們首先分析當(dāng)使用不同強(qiáng)度的數(shù)據(jù)增擴(kuò)時(shí)檢測(cè)網(wǎng)絡(luò)的性能。表2所示是在4種強(qiáng)度的數(shù)據(jù)增擴(kuò)下自訓(xùn)練的性能,并與監(jiān)督學(xué)習(xí)(Rand Init)和預(yù)訓(xùn)練(ImageNet Init)行對(duì)比。表中還標(biāo)上了自訓(xùn)練和預(yù)訓(xùn)練相對(duì)于基線的性能提升或下降。結(jié)果表明,當(dāng)預(yù)訓(xùn)練有害的時(shí)候(強(qiáng)的數(shù)據(jù)增擴(kuò):Augment-S2,Augment-S3,Augment-S4),自訓(xùn)練有顯著的提升作用。當(dāng)預(yù)訓(xùn)練導(dǎo)致性能下降1.0AP的時(shí)候,自訓(xùn)練帶來(lái)性能超過(guò)1.3AP的提升。在ResNet-101上也得到了類似的結(jié)果(見(jiàn)附錄D)。

無(wú)論有標(biāo)簽規(guī)模是大是小,自訓(xùn)練都能起作用,是對(duì)預(yù)訓(xùn)練的補(bǔ)充。????接著我們改變使用的COCO有標(biāo)簽數(shù)據(jù)的規(guī)模,分析自訓(xùn)練的性能。從表3可以看出,無(wú)論使用何種預(yù)訓(xùn)練或者不使用預(yù)訓(xùn)練模型做初始化,無(wú)論有標(biāo)簽數(shù)據(jù)集規(guī)模是大是小,自訓(xùn)練都能帶來(lái)提升作用。最重要的是,當(dāng)使用全部的COCO有標(biāo)簽數(shù)據(jù)時(shí),預(yù)訓(xùn)練會(huì)有害,而自訓(xùn)練卻給所有模型帶來(lái)提升。

在只使用20%的COCO數(shù)據(jù)時(shí),也就是有標(biāo)簽數(shù)據(jù)規(guī)模小時(shí),在Rand Init初始化模型的基線上,自訓(xùn)練帶來(lái)的提升是最大的:3.4AP。這個(gè)提升甚至比ImageNet Init帶來(lái)的提升要大(+2.6AP)。盡管自訓(xùn)練的提升作用小于 ImageNet++的提升作用,不過(guò)要考慮到ImageNet++使用了300M張額外的無(wú)標(biāo)簽圖像。
即使預(yù)訓(xùn)練使用的額外數(shù)據(jù)和自訓(xùn)練使用的額外數(shù)據(jù)是同一個(gè)數(shù)據(jù)集時(shí),自訓(xùn)練還是能夠在預(yù)訓(xùn)練的基礎(chǔ)上進(jìn)一步帶來(lái)提升。例如,當(dāng)使用20%的COCO數(shù)據(jù)時(shí),使用ImageNet預(yù)訓(xùn)練會(huì)帶來(lái)2.6AP的提升,而使用ImageNet預(yù)訓(xùn)練和ImageNet自訓(xùn)練會(huì)帶來(lái)進(jìn)一步的2.7AP的提升。在各種規(guī)模有標(biāo)簽數(shù)據(jù)的實(shí)驗(yàn)中,都可看到組合使用預(yù)訓(xùn)練和自訓(xùn)練帶來(lái)的額外提升。
4.3 在有標(biāo)簽數(shù)據(jù)規(guī)模大、使用高強(qiáng)度的數(shù)據(jù)增擴(kuò)時(shí),當(dāng)自訓(xùn)練有益的時(shí)候,自監(jiān)督預(yù)訓(xùn)練也是有害的。
上上節(jié)實(shí)驗(yàn)表明,在有標(biāo)簽數(shù)據(jù)規(guī)模大、數(shù)據(jù)增擴(kuò)強(qiáng)度高的情況下,ImageNet預(yù)訓(xùn)練會(huì)降低性能。在這種情況下,我們研究了另一種流行的預(yù)訓(xùn)練方法:自監(jiān)督學(xué)習(xí)。
自監(jiān)督學(xué)習(xí)、無(wú)標(biāo)簽預(yù)訓(xùn)練的初衷是建立可遷移到更廣泛任務(wù)和數(shù)據(jù)集的通用表示。既然在ImageNet上的有監(jiān)督預(yù)訓(xùn)練會(huì)損害在COCO上的性能,那么自然地就會(huì)考慮不使用標(biāo)簽信息的自監(jiān)督學(xué)習(xí)會(huì)不會(huì)帶來(lái)潛在的好處。本節(jié)會(huì)重點(diǎn)關(guān)注使用全部的COCO數(shù)據(jù),以及最高強(qiáng)度的數(shù)據(jù)增擴(kuò)(Augment-S4)的情況。目的是將隨機(jī)初始化和用最先進(jìn)的自監(jiān)督學(xué)習(xí)算法預(yù)訓(xùn)練的模型做比較。因此,我們選擇在ImageNet數(shù)據(jù)上用SimCLR框架[13]預(yù)訓(xùn)練的checkpoint。在使用這個(gè)checkpoint之前,會(huì)用ImageNet的標(biāo)簽對(duì)其進(jìn)行微調(diào)。所有的主干都是ResNet50,因?yàn)樵赟imCLR的工作中是用的ResNets。
表4的結(jié)果表明,在COCO數(shù)據(jù)集上,自監(jiān)督預(yù)訓(xùn)練模型會(huì)帶來(lái)和有監(jiān)督預(yù)訓(xùn)練模型同樣的損害。兩個(gè)預(yù)訓(xùn)練模型在隨機(jī)初始化的基線上性能都下降0.7AP。我們?cè)僖淮慰吹?,?dāng)兩個(gè)預(yù)訓(xùn)練模型都有害時(shí),自訓(xùn)練仍有益,提升了0.8AP。盡管自監(jiān)督預(yù)訓(xùn)練和自訓(xùn)練都沒(méi)有使用額外數(shù)據(jù)的標(biāo)簽,但是自訓(xùn)練在使用無(wú)標(biāo)簽ImageNet數(shù)據(jù)來(lái)幫助COCO時(shí)更有效。

4.4 探索自訓(xùn)練和預(yù)訓(xùn)練的局限
本節(jié)將結(jié)合我們關(guān)于數(shù)據(jù)增擴(kuò)、自訓(xùn)練和預(yù)訓(xùn)練的相互作用的認(rèn)識(shí),以改進(jìn)最先進(jìn)技術(shù)。以下是我們的主要成果:
COCO物體檢測(cè)????在本實(shí)驗(yàn)中,我們將使用自訓(xùn)練和Augment-S3。先前的實(shí)驗(yàn)表明,當(dāng)使用全部的COCO數(shù)據(jù)時(shí),ImageNet預(yù)訓(xùn)練會(huì)損害性能,所以我們就不使用ImageNet預(yù)訓(xùn)練。雖然在對(duì)照實(shí)驗(yàn)中我們用的是EfficientNet和ResNet作為主干,但是在本實(shí)驗(yàn)中我們用SpineNet[15],因?yàn)樗咏钕冗M(jìn)水平。我們使用OpenImages數(shù)據(jù)集(OID)[54]作為自訓(xùn)練的無(wú)標(biāo)簽額外數(shù)據(jù),因?yàn)槲覀儼l(fā)現(xiàn)這比使用ImageNet數(shù)據(jù)效果會(huì)更好(有關(guān)數(shù)據(jù)源對(duì)自訓(xùn)練的影響的更多信息,請(qǐng)參閱附錄E)。請(qǐng)注意,[41]報(bào)告了在OID預(yù)訓(xùn)練對(duì)COCO是無(wú)益的。
表5是我們的最大的兩個(gè)SpineNet模型的結(jié)果,并且和先前的最先進(jìn)單個(gè)模型、單個(gè)圖像尺度的結(jié)果進(jìn)行對(duì)比。對(duì)于最大的SpineNet網(wǎng)絡(luò)(SpineNet-190 (1280)),我們將最好的SpineNet模型(52.8AP)提升了1.5AP,達(dá)到54.3AP。對(duì)于不同的模型,我們都有至少1.5AP的提升。

PASCAL VOC語(yǔ)義分割? ? 本實(shí)驗(yàn)中我們使用NAS-FPN作為框架,使用EfficientNet-B7[51]和EfficientNet-L2[10]作為主干。因?yàn)镻ASCAL的數(shù)據(jù)規(guī)模很小,預(yù)訓(xùn)練在這里仍是很有益的,因此,在本實(shí)驗(yàn)中,我們組合使用預(yù)訓(xùn)練、自訓(xùn)練和高強(qiáng)度的數(shù)據(jù)增擴(kuò)。使用ImageNet++預(yù)訓(xùn)練模型來(lái)初始化EfficientNet主干。使用Augment-S4數(shù)據(jù)增擴(kuò)。使用PASCAL補(bǔ)充集[16]作為自訓(xùn)練使用的額外數(shù)據(jù),因?yàn)槲覀儼l(fā)現(xiàn)在自訓(xùn)練中用PASCAL補(bǔ)充集比使用ImageNet更有益。
表6顯示,我們的方法在很大程度上改進(jìn)了現(xiàn)有的技術(shù)。在PASCAL VOC 2012測(cè)試集中,我們使用單尺度推理實(shí)現(xiàn)了90.5%的mIOU,優(yōu)于采用多尺度推理的舊的最先進(jìn)的89%mIOU。我們發(fā)現(xiàn)在PASCAL數(shù)據(jù)集上使用高質(zhì)量的預(yù)訓(xùn)練checkpoint是很關(guān)鍵的,不用的話我們只能取得41.5%mIoU。有趣的是,我們比先前的最先進(jìn)模型提升了1.5%mIoU,即使我們訓(xùn)練的人工標(biāo)注數(shù)據(jù)比先前最先進(jìn)模型要少得多。我們用的人工標(biāo)注數(shù)據(jù)有:ImageNet(1.2M張圖片)、PASCAL訓(xùn)練集(1.5k張圖片)。而先前最先進(jìn)模型用的人工標(biāo)注數(shù)據(jù)除了這些還有:JFT(300M張圖片)、COCO(120k張圖像)和PASCAL補(bǔ)充集(9k張圖片)。偽標(biāo)簽圖片的可視化見(jiàn)附錄F。

(筆者插句嘴:41.5%mIoU是作者打錯(cuò)字了還是說(shuō)大的網(wǎng)絡(luò)EfficientL2在小規(guī)模數(shù)據(jù)集PASCAL-train上過(guò)擬合?另外作者在上文中說(shuō)自訓(xùn)練中用到PASCAL補(bǔ)充集,而在剛剛沒(méi)有提到,應(yīng)該是指,在作者的方法里,使用PASCAL補(bǔ)充集是作為無(wú)標(biāo)簽數(shù)據(jù),而先前最先進(jìn)模型用到了PASCAL補(bǔ)充集的標(biāo)簽。)
5 討論
重新思考預(yù)訓(xùn)練和通用特征表示。????計(jì)算機(jī)視覺(jué)最宏偉的目標(biāo)之一是開(kāi)發(fā)能夠解決許多任務(wù)的通用特征表示。
我們的實(shí)驗(yàn)揭示了,從分類任務(wù)和自監(jiān)督任務(wù)中學(xué)習(xí)到的通用表示是有局限性的,預(yù)訓(xùn)練和自訓(xùn)練的性能上的差異證明了這一點(diǎn)。我們對(duì)預(yù)訓(xùn)練表現(xiàn)較差的直觀解釋是,預(yù)訓(xùn)練并沒(méi)有感知到感興趣任務(wù)(the task of interest,目標(biāo)任務(wù),最終任務(wù)),導(dǎo)致適應(yīng)(adaption)的失敗。在切換任務(wù)時(shí)常需要這樣的適應(yīng),因?yàn)?,例如,在ImageNet上表現(xiàn)好的特征可能會(huì)丟棄COCO所需的位置信息。
我們認(rèn)為,將自訓(xùn)練的目標(biāo)與監(jiān)督學(xué)習(xí)相結(jié)合的聯(lián)合訓(xùn)練能更好地適應(yīng)感興趣任務(wù)。我們覺(jué)得這可能是自訓(xùn)練普遍有益的原因。
聯(lián)合訓(xùn)練的益處? ? 自訓(xùn)練范式的一個(gè)優(yōu)點(diǎn)是它聯(lián)合訓(xùn)練監(jiān)督和自訓(xùn)練的目標(biāo),從而解決兩者間的不匹配問(wèn)題。不過(guò)我們也許可以聯(lián)合訓(xùn)練ImageNet和COCO,看是否能同樣解決這個(gè)不匹配問(wèn)題?表7是聯(lián)合訓(xùn)練的結(jié)果,這里將ImageNet分類和COCO檢測(cè)聯(lián)合訓(xùn)練,在本實(shí)驗(yàn)里還使用了額外的設(shè)置就是自訓(xùn)練。結(jié)果表明,使用ImageNet會(huì)帶來(lái)2.6AP的提升,但是使用隨機(jī)初始化和聯(lián)合訓(xùn)練會(huì)帶來(lái)更大的提升(2.9AP)。這個(gè)提升是在ImageNet數(shù)據(jù)集上訓(xùn)練19個(gè)epoch得來(lái)的。而大多數(shù)用于微調(diào)的ImageNet模型需要更長(zhǎng)的訓(xùn)練。例如,ImageNet Init(監(jiān)督預(yù)訓(xùn)練模型)需要在ImageNet數(shù)據(jù)集中訓(xùn)練350個(gè)epoch。

此外,使用同一個(gè)ImageNet數(shù)據(jù)源(在表的最后一列),預(yù)訓(xùn)練、聯(lián)合訓(xùn)練和自訓(xùn)練是互相補(bǔ)充的。ImageNet預(yù)訓(xùn)練帶來(lái)2.6AP的提升,預(yù)訓(xùn)練+聯(lián)合訓(xùn)練帶來(lái)進(jìn)一步的0.7AP的提升,預(yù)訓(xùn)練+聯(lián)合訓(xùn)練+自訓(xùn)練相比只預(yù)訓(xùn)練有3.3AP的提升。
任務(wù)匹配的重要性? ? 我們實(shí)驗(yàn)中的一個(gè)有趣結(jié)果是,即使使用人工標(biāo)注的預(yù)訓(xùn)練,表現(xiàn)得也比自訓(xùn)練要差。同樣,我們?cè)赑ASCAL數(shù)據(jù)集上驗(yàn)證了同樣的現(xiàn)象。在PASCAL數(shù)據(jù)集上,補(bǔ)充集(aug set)常被作為一個(gè)附加的數(shù)據(jù)集,它的標(biāo)簽要比訓(xùn)練集的噪聲大得多。我們實(shí)驗(yàn)表明,在高強(qiáng)度數(shù)據(jù)增強(qiáng)(Augment-S4)的情況下,使用訓(xùn)練集+補(bǔ)充集進(jìn)行訓(xùn)練會(huì)降低準(zhǔn)確度。而與此同時(shí),在同一個(gè)補(bǔ)充集上通過(guò)自訓(xùn)練生成偽標(biāo)簽會(huì)顯著提高準(zhǔn)確度。這連個(gè)結(jié)果表明,有噪聲的標(biāo)簽(PASCAL)與不針對(duì)目標(biāo)任務(wù)的標(biāo)簽(ImageNet)都比針對(duì)目標(biāo)任務(wù)的偽標(biāo)簽要差。

值得一提的是,[41]報(bào)告了在OpenImages上的預(yù)訓(xùn)練會(huì)損害在COCO上的性能,盡管OpenImages和COCO都是用的邊界框標(biāo)注。這意味著,如果要預(yù)訓(xùn)練有益,我們不僅僅希望預(yù)訓(xùn)練任務(wù)和最終目標(biāo)任務(wù)是相同的(筆者:這里任務(wù)是指,分類、分割、檢測(cè)等),我們還希望標(biāo)注也是相同的。另一方面,自訓(xùn)練是非常通用的,在附錄E里,自訓(xùn)練可以很成功地使用OpenImages來(lái)提升COCO性能。這一結(jié)果表明自訓(xùn)練可以很好地匹配感興趣任務(wù)。
局限性。????目前的自訓(xùn)練技術(shù)仍存在局限性。特別的,自訓(xùn)練相比對(duì)預(yù)訓(xùn)練模型微調(diào),需要更多的計(jì)算。預(yù)訓(xùn)練模型可以使模型訓(xùn)練加快1.3倍到8倍,倍數(shù)因預(yù)訓(xùn)練模型質(zhì)量、數(shù)據(jù)增擴(kuò)強(qiáng)度和數(shù)據(jù)集規(guī)模而異。當(dāng)數(shù)據(jù)集規(guī)模很小時(shí),例如PASCAL分割,是需要好的預(yù)訓(xùn)練模型的。
自訓(xùn)練的可擴(kuò)展性、通用性和靈活性。????我們的實(shí)驗(yàn)結(jié)果突出了自訓(xùn)練的顯著優(yōu)勢(shì)。首先,在靈活性上,在每一種設(shè)置中,自訓(xùn)練都是成功的:數(shù)據(jù)集規(guī)模小、數(shù)據(jù)集規(guī)模大、低強(qiáng)度數(shù)據(jù)增擴(kuò)、高強(qiáng)度數(shù)據(jù)增擴(kuò)。自訓(xùn)練對(duì)不同的網(wǎng)絡(luò)結(jié)構(gòu)(ResNet、EfficientNet、SpineNet、FPN、NAS-FPN)、數(shù)據(jù)源(ImageNet、OID、PASCAL、COCO)和任務(wù)(物體檢測(cè)、分割)都是有效的。第二,在普遍性上(筆者:generality,看來(lái)前面譯成泛化性或通用性都是錯(cuò)的),無(wú)論預(yù)訓(xùn)練是成功還是失敗,自訓(xùn)練總是成功的。第三,在可擴(kuò)展性方面,即使我們有很多的帶標(biāo)簽數(shù)據(jù),有很強(qiáng)的模型,自訓(xùn)練仍能帶來(lái)提升。機(jī)器學(xué)習(xí)方法的一個(gè)慘痛教訓(xùn)是,當(dāng)我們有更多的帶標(biāo)簽數(shù)據(jù)、更多的計(jì)算或者更好的監(jiān)督訓(xùn)練配方(recipes)時(shí),大多數(shù)方法會(huì)失效(失去價(jià)值),但是自訓(xùn)練不會(huì)。
附錄A:其他相關(guān)工作
自訓(xùn)練與偽標(biāo)簽方法[60-63]、一致性訓(xùn)練(consistency training)[64-82]相關(guān)。這些工作和我們的工作有很多不同之處。首先,自訓(xùn)練不用于一致性訓(xùn)練,自訓(xùn)練有2個(gè)模型,教師模型和學(xué)生模型,而一致性訓(xùn)練只有1個(gè)模型。其次,先前的工作都是關(guān)注圖像分類,而我們的工作主要是研究物體檢測(cè)和分割。最后,先前的工作沒(méi)有研究在現(xiàn)代數(shù)據(jù)增擴(kuò)下自訓(xùn)練和預(yù)訓(xùn)練間的交互作用。
附錄B:損失歸一化分析(Loss Normalization Analysis)
我們發(fā)現(xiàn)標(biāo)準(zhǔn)的自訓(xùn)練損失會(huì)導(dǎo)致訓(xùn)練得非常不穩(wěn)定,這是由于總的損失隨著
的變化而急劇變化。(筆者:換句話說(shuō),損失函數(shù)對(duì)這個(gè)超參數(shù)太敏感。)因此我們?cè)O(shè)計(jì)了一種損失歸一化方法,使
變化時(shí)自訓(xùn)練過(guò)程穩(wěn)定:
其中,是人工標(biāo)注數(shù)據(jù)的損失,
是偽標(biāo)簽數(shù)據(jù)的損失,
是人工標(biāo)注數(shù)據(jù)在訓(xùn)練過(guò)程的滑動(dòng)平均,
是偽標(biāo)簽數(shù)據(jù)在訓(xùn)練過(guò)程的滑動(dòng)平均。
圖2所示是當(dāng)我們改變數(shù)據(jù)增擴(kuò)的強(qiáng)度、訓(xùn)練迭代次數(shù)、學(xué)習(xí)率和時(shí),損失歸一化的性能。這些實(shí)驗(yàn)是RetinaNet(檢測(cè)頭)+ResNet-101(主干)在COCO數(shù)據(jù)集上做物體檢測(cè)。ImageNet是自訓(xùn)練用到的額外數(shù)據(jù)??梢钥吹剑诟鞣N設(shè)置下,損失歸一化都表現(xiàn)得更好,而且,更重要的是,當(dāng)
設(shè)置為一個(gè)比較大的值時(shí),損失歸一化能夠避免訓(xùn)練的不穩(wěn)定。

在不同強(qiáng)度的數(shù)據(jù)增擴(kuò)、迭代次數(shù)和學(xué)習(xí)率設(shè)置中,我們發(fā)現(xiàn),損失歸一化比基線要平均高出0.4AP。而且,重要的一點(diǎn)是,在我們使用最高強(qiáng)度的Augment-S4時(shí),損失歸一化比基線高出1.3AP。
最近的自訓(xùn)練工作[10,82]通常將他們所有實(shí)驗(yàn)中的參數(shù)取值為1。在我們的很多實(shí)驗(yàn)中,我們發(fā)現(xiàn)設(shè)置為1是次優(yōu)的,并且最優(yōu)值會(huì)隨著迭代次數(shù)和數(shù)據(jù)增擴(kuò)強(qiáng)度的變化而變化。表9所示是
的最優(yōu)取值隨著迭代次數(shù)和數(shù)據(jù)增擴(kuò)強(qiáng)度的變化而變化:
的最優(yōu)取值會(huì)隨著數(shù)據(jù)增擴(kuò)強(qiáng)度增大而減??;
的最優(yōu)取值會(huì)隨著迭代次數(shù)的增大而增大。

C 關(guān)于數(shù)據(jù)增擴(kuò)、有監(jiān)督數(shù)據(jù)集規(guī)模和預(yù)訓(xùn)練模型質(zhì)量的進(jìn)一步研究
我們?cè)谇懊?.1節(jié)的分析基礎(chǔ)上進(jìn)行了擴(kuò)展,并展示了使用不同規(guī)模的COCO標(biāo)簽數(shù)據(jù)、使用不同強(qiáng)度的數(shù)據(jù)增擴(kuò)是如何與預(yù)訓(xùn)練模型質(zhì)量相互作用的。圖3所示是這些控制變量的相互作用。我們?cè)俅斡^察到這3點(diǎn)現(xiàn)象:1)高強(qiáng)度的數(shù)據(jù)增擴(kuò)會(huì)降低預(yù)訓(xùn)練的價(jià)值;2)當(dāng)使用更高強(qiáng)度的數(shù)據(jù)增擴(kuò)時(shí),預(yù)訓(xùn)練反而有害;3)使用更多的有標(biāo)簽數(shù)據(jù)會(huì)降低預(yù)訓(xùn)練的價(jià)值。在所有的設(shè)置中,我們還發(fā)現(xiàn),更好質(zhì)量的預(yù)訓(xùn)練模型?ImageNet++ checkpoint,總是要比ImageNet checkpoint表現(xiàn)得更好。有趣的是,在所有4種強(qiáng)度的數(shù)據(jù)增擴(kuò)里的3種,當(dāng)預(yù)訓(xùn)練有損害的時(shí)候,預(yù)訓(xùn)練模型的質(zhì)量越好,損害程度就越小。

我們研究了預(yù)訓(xùn)練checkpoint質(zhì)量和數(shù)據(jù)增擴(kuò)強(qiáng)度對(duì)很小規(guī)模數(shù)據(jù)集,也就是PASCAL VOC 2012的影響。表10的結(jié)果表明,對(duì)于只有1.5k張圖像的PASCAL訓(xùn)練集,預(yù)訓(xùn)練質(zhì)量是非常重要的,并且會(huì)顯著提升性能。我們觀察到,隨著數(shù)據(jù)增擴(kuò)的強(qiáng)度的增加,checkpoint質(zhì)量帶來(lái)的性能提升會(huì)下降。此外,ImageNet checkpoint的性能再一次與PASCAL VOC上的性能相關(guān)。

D 在COCO數(shù)據(jù)集上ResNet101的自訓(xùn)練表現(xiàn)
本文中在COCO上的實(shí)驗(yàn)是以RetinaNet為框架、以EfficientNet-B7和SpineNet為主干的。自訓(xùn)練也能很好地用于其它的主干,比如ResNet-101[83]。結(jié)果如表11所示。再一次,自訓(xùn)練在所有強(qiáng)度的數(shù)據(jù)增擴(kuò)設(shè)置上都帶來(lái)很大的提升。

E 自訓(xùn)練中無(wú)標(biāo)簽數(shù)據(jù)源的影響
最近實(shí)驗(yàn)提出的一個(gè)重要問(wèn)題是,改變額外數(shù)據(jù)源會(huì)如何影響到自訓(xùn)練性能。在我們的分析中,我們用的是ImageNet,這是個(gè)圖像分類數(shù)據(jù)集,包含的主要是iconic圖像(iconic,圖符、肖像等含義,此處應(yīng)該是指一張圖像中會(huì)有個(gè)“主角”物體占在圖像的主要位置)。其圖像內(nèi)容和COCO、PASCAL和Open Images非常不同,后三者包含更多的是non-iconic圖像。Iconic圖像通常只有一個(gè)以concial視角的物體,而non-iconic圖像會(huì)通過(guò)自然視角捕獲場(chǎng)景中的多個(gè)物體[52]。表12研究了將額外數(shù)據(jù)從ImageNet改為 Open Images[54]會(huì)如何影響自訓(xùn)練的性能。可以看到,在不同強(qiáng)度的數(shù)據(jù)增擴(kuò)強(qiáng)度下,在COCO物體檢測(cè)中,將自訓(xùn)練的額外數(shù)據(jù)從ImageNet改為?Open Images最多可以帶來(lái)0.6AP的提升。有趣的是,在[41]中,在Open Images上預(yù)訓(xùn)練不能幫助COCO檢測(cè),但我們確實(shí)看到用Open Images自訓(xùn)練能帶來(lái)比ImageNet更多的提升。

我們還研究了更改額外數(shù)據(jù)集源對(duì)PASCAL VOC 2012的影響。在表13中,我們觀察到將額外數(shù)據(jù)源從ImageNet更改為COCO可以提高在所有強(qiáng)度的數(shù)據(jù)增擴(kuò)設(shè)置下的性能。表現(xiàn)最佳的自訓(xùn)練額外數(shù)據(jù)源是PASCAL的補(bǔ)充集,其是PASCAL任務(wù)的域內(nèi)任務(wù)。PASCAL的補(bǔ)充集只有9k張圖像,但是比具有240k張圖像的COCO數(shù)據(jù)集帶來(lái)更多的提升。

F 自訓(xùn)練中偽標(biāo)簽的展示
PASCAL VOC數(shù)據(jù)集:????原始的PASCAL VOC 2012數(shù)據(jù)集的訓(xùn)練集包含1464張帶標(biāo)簽的數(shù)據(jù)。[16]提供了額外的標(biāo)注圖像,使得訓(xùn)練集+補(bǔ)充集(train+aug)總共有10582張圖像。很多先前的工作是用train+aug來(lái)訓(xùn)練。然而,我們發(fā)現(xiàn),使用補(bǔ)充集進(jìn)行高強(qiáng)度的數(shù)據(jù)增擴(kuò)實(shí)際上會(huì)損害性能(見(jiàn)表8)。圖4是一些在補(bǔ)充集上選擇的圖片,我們發(fā)現(xiàn)補(bǔ)充集的標(biāo)注質(zhì)量要比訓(xùn)練集低。例如,有些圖像的標(biāo)注沒(méi)有涵蓋圖像中所有物體,或者分割掩膜不夠精細(xì)。圖4的第3列是我們的教師模型生成的偽標(biāo)簽,從中可以看出,偽標(biāo)簽的分割掩膜更精確。實(shí)驗(yàn)證明,使用帶有偽標(biāo)簽的補(bǔ)充集比使用人工標(biāo)注的補(bǔ)充集能帶來(lái)更多的提升(見(jiàn)表8)。

ImageNet數(shù)據(jù)集:? ? 圖5所示是教師模型在ImageNet中隨機(jī)選擇的14張圖像上生成的分割偽標(biāo)簽。有趣的是,ImageNet上的有些類別不被包含在PASCAL VOC 2012的20類別中,也被預(yù)測(cè)為PASCAL VOC 2012的20類別之一。例如,鋸和蜥蜴被預(yù)測(cè)為鳥(niǎo)。盡管偽標(biāo)簽有很多噪聲,但它們?nèi)匀惶岣吡藢W(xué)生模型的準(zhǔn)確性(表13)。
