作為數(shù)據(jù)增強(qiáng)的復(fù)制粘貼

https://arxiv.org/pdf/2012.07177.pdf

Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation

Golnaz Ghiasi,?Yin Cui,?Aravind Srinivas,?Rui Qian,?Tsung-Yi Lin,?Ekin D. Cubuk,?Quoc V. Le,?Barret Zoph

在計(jì)算機(jī)視覺中,建立數(shù)據(jù)高效且能處理稀有對象類別的實(shí)例分割模型是一個(gè)重要的挑戰(zhàn)。利用數(shù)據(jù)擴(kuò)充是解決這一挑戰(zhàn)的一個(gè)有希望的方向。在這里,我們對復(fù)制粘貼增強(qiáng)([13,12])進(jìn)行了系統(tǒng)的研究,例如我們將對象隨機(jī)粘貼到圖像上的分割。以往對復(fù)制粘貼的研究依賴于對周圍的視覺環(huán)境進(jìn)行建模來粘貼對象。然而,我們發(fā)現(xiàn)隨機(jī)粘貼對象的簡單機(jī)制已經(jīng)足夠好了,可以在強(qiáng)基線的基礎(chǔ)上提供可靠的增益。此外,我們還證明了復(fù)制粘貼與半監(jiān)督方法是相加的,半監(jiān)督方法通過偽標(biāo)記(如自訓(xùn)練)利用額外的數(shù)據(jù)。在COCO實(shí)例分割方面,我們實(shí)現(xiàn)了49.1的mask-AP和57.3的box-AP,比現(xiàn)有技術(shù)提高了+0.6的mask-AP和+1.5的box-AP。我們進(jìn)一步證明了復(fù)制粘貼可以顯著改進(jìn)LVIS基準(zhǔn)。我們的基準(zhǔn)模型在稀有類別上比LVIS 2020挑戰(zhàn)賽優(yōu)勝項(xiàng)目高出3.6%

圖1.COCO基準(zhǔn)上的數(shù)據(jù)效率:將復(fù)制粘貼增強(qiáng)與強(qiáng)大的Aug(大規(guī)模抖動)相結(jié)合,使我們能夠訓(xùn)練多達(dá)2個(gè)的模型× 比標(biāo)準(zhǔn)的Aug(標(biāo)準(zhǔn)規(guī)模抖動)更高效。增強(qiáng)非常有效,在低數(shù)據(jù)區(qū)(數(shù)據(jù)的10%)提供+10ap的增益,而在高數(shù)據(jù)區(qū)仍然有效,增益為+5ap。結(jié)果是在640的圖像大小上訓(xùn)練的掩模RCNN效率net-B7 FPN×640


1.引言

實(shí)例分割[22,10]是計(jì)算機(jī)視覺中的一項(xiàng)重要任務(wù),有許多實(shí)際應(yīng)用?;谧钕冗M(jìn)的卷積網(wǎng)絡(luò)[11,56,66]的實(shí)例分割模型通常需要大量的數(shù)據(jù)。同時(shí),注釋大型數(shù)據(jù)集(例如分段[40,21])通常是昂貴和耗時(shí)的。例如,COCO的每1000個(gè)實(shí)例面具花費(fèi)了22個(gè)工時(shí)[40]。因此,迫切需要開發(fā)新的方法來提高現(xiàn)有實(shí)例分割模型的數(shù)據(jù)效率。

在這里,我們關(guān)注數(shù)據(jù)擴(kuò)充[49],作為一種顯著提高實(shí)例分割模型數(shù)據(jù)效率的簡單方法。盡管許多增強(qiáng)方法(如縮放抖動和隨機(jī)調(diào)整大?。┮驯粡V泛使用[26,25,20],但它們在本質(zhì)上更具通用性,并沒有專門設(shè)計(jì)用于實(shí)例分割。在類別和形狀方面更能感知對象的增強(qiáng)過程可能對實(shí)例分割有用。復(fù)制粘貼增強(qiáng)[13,12,15]非常適合這種需要。通過將不同尺度的物體粘貼到新的背景圖像上,復(fù)制粘貼有可能免費(fèi)創(chuàng)建具有挑戰(zhàn)性和新穎性的訓(xùn)練數(shù)據(jù)。

復(fù)制粘貼增強(qiáng)背后的關(guān)鍵思想是將對象從一個(gè)圖像粘貼到另一個(gè)圖像。這可以導(dǎo)致新的訓(xùn)練數(shù)據(jù)的組合數(shù)量,具有多種可能性:(1)選擇復(fù)制實(shí)例的源圖像對和粘貼實(shí)例的目標(biāo)圖像對(2) 選擇要從源圖像復(fù)制的對象實(shí)例(3) 選擇將復(fù)制的實(shí)例粘貼到目標(biāo)圖像上的位置。當(dāng)使用這種數(shù)據(jù)增強(qiáng)方法時(shí),有大量的選擇,這使得我們可以對如何最有效地使用這種技術(shù)進(jìn)行大量的探索。先前的工作[12,15]通過對周圍的視覺環(huán)境建模,采用了一些方法來決定將附加對象粘貼到何處。相比之下,我們發(fā)現(xiàn)一種簡單的隨機(jī)選取對象并將其粘貼到目標(biāo)圖像上的隨機(jī)位置的策略可以顯著提高多個(gè)設(shè)置的基線。具體地說,它在主干結(jié)構(gòu)、規(guī)模抖動程度、訓(xùn)練計(jì)劃和圖像大小的變化方面提供了廣泛的設(shè)置。

結(jié)合大規(guī)模的抖動,我們展示了復(fù)制粘貼增強(qiáng)在COCO上顯著提高了數(shù)據(jù)效率(圖1)。特別是,我們看到數(shù)據(jù)效率提高了2× 對常用的標(biāo)準(zhǔn)尺度抖動數(shù)據(jù)進(jìn)行增強(qiáng)。我們還觀察到,當(dāng)只使用10%的COCO訓(xùn)練數(shù)據(jù)時(shí),在低數(shù)據(jù)區(qū)獲得+10盒AP。

然后,我們證明了復(fù)制粘貼增強(qiáng)策略通過自我訓(xùn)練提供了額外的收益[44,72],其中我們從地面真實(shí)數(shù)據(jù)中提取實(shí)例,并將它們粘貼到帶有偽標(biāo)簽的未標(biāo)記數(shù)據(jù)上。利用高效的net-B7[55]主干網(wǎng)和NAS-FPN[17]體系結(jié)構(gòu),我們在COCO測試設(shè)備上實(shí)現(xiàn)了57.3box-AP和49.1mask-AP,無需增加測試時(shí)間。這一結(jié)果超過了以前最先進(jìn)的實(shí)例分割模型,如spinnet[11](46.3 mask AP)和ResNeXt-101-64x4d,并增加了測試時(shí)間[43](48.5 mask AP)。性能也超過了EfficientDet-D7x-1536[56](55.1 box AP)和YOLOv4-P7-1536[60](55.8 box AP)的最新邊界盒檢測結(jié)果,盡管使用了1280而不是1536的較小圖像大小。

最后,我們證明了復(fù)制粘貼增強(qiáng)可以為LVIS基準(zhǔn)中通常使用的兩階段培訓(xùn)過程帶來更好的特性[21]。利用copypesset,我們分別對6.1和3.7掩模AP在稀有和常見類別上進(jìn)行了改進(jìn)。

復(fù)制粘貼增強(qiáng)策略易于插入任何實(shí)例分割庫,能夠有效地利用未標(biāo)記圖像,不產(chǎn)生訓(xùn)練或推理開銷。例如,我們用Mask-RCNN進(jìn)行的實(shí)驗(yàn)表明,在訓(xùn)練過程中可以將復(fù)制粘貼放入訓(xùn)練中,并且在不發(fā)生任何變化的情況下,可以很容易地提高結(jié)果,例如48個(gè)周期的+1.0ap。

相關(guān)工作

數(shù)據(jù)增強(qiáng)。

與主干架構(gòu)[35、50、52、27、55]和檢測/分割框架[19、18、46、38、26、39]的工作量相比,計(jì)算機(jī)視覺界對數(shù)據(jù)增強(qiáng)[49]的關(guān)注相對較少。隨機(jī)作物[36、35、50、52]、顏色抖動[52]、自動/隨機(jī)增強(qiáng)[6,7]等數(shù)據(jù)增強(qiáng)在圖像分類[27,55]、自我監(jiān)督學(xué)習(xí)[28、24、5]和ImageNet[47]基準(zhǔn)上的半監(jiān)督學(xué)習(xí)[63]等方面發(fā)揮了重要作用。這些增強(qiáng)在本質(zhì)上更為通用,主要用于編碼對數(shù)據(jù)變換的不變性,這一原理非常適合圖像分類[47]。

混合圖像增強(qiáng)。

與編碼數(shù)據(jù)變換不變性的增強(qiáng)相比,存在一類增強(qiáng),將不同圖像中包含的信息與對ground真相標(biāo)簽進(jìn)行適當(dāng)更改的信息混合在一起。一個(gè)典型的例子是混合數(shù)據(jù)增強(qiáng)[65]方法,它為輸入像素和輸出標(biāo)簽的凸組合創(chuàng)建新的數(shù)據(jù)點(diǎn)。已經(jīng)有了混合的適應(yīng)性,例如CutMix[64],它粘貼圖像的矩形作物,而不是混合所有像素?;旌虾图羟谢旌显谀繕?biāo)檢測中也有應(yīng)用[68]。約洛夫4[1]中所采用的馬賽克數(shù)據(jù)增強(qiáng)方法與CutMix有關(guān),因?yàn)橐环N新的復(fù)合圖像是多個(gè)單獨(dú)圖像的矩形網(wǎng)格及其地面真實(shí)。雖然混合、CutMix和馬賽克在組合多個(gè)圖像或其裁剪版本以創(chuàng)建新的培訓(xùn)數(shù)據(jù)方面很有用,但它們?nèi)匀徊恢缹ο?,而且還沒有專門為實(shí)例分割任務(wù)設(shè)計(jì)。

復(fù)制粘貼增強(qiáng)。

復(fù)制粘貼增強(qiáng)。

以對象感知的方式組合來自多個(gè)圖像的信息的一種簡單方法是從一個(gè)圖像復(fù)制對象實(shí)例并將它們粘貼到另一個(gè)圖像上。復(fù)制粘貼類似于mixup和CutMix,但僅復(fù)制與對象對應(yīng)的精確像素,而不是對象邊界框中的所有像素。與上下文復(fù)制粘貼[12]和InstaBoost[15]相比,我們工作中的一個(gè)關(guān)鍵區(qū)別是,我們不需要對周圍的可視上下文建模來放置復(fù)制的對象實(shí)例。一個(gè)簡單的隨機(jī)布局策略可以很好地工作,并在強(qiáng)基線模型上產(chǎn)生可靠的改進(jìn)。Instaboost[15]與之前的復(fù)制粘貼[12]不同,它沒有粘貼其他圖像的實(shí)例,而是jiterr了圖像上已經(jīng)存在的實(shí)例。Cut-Paste-and-Learn[13]提出提取對象實(shí)例,將它們混合粘貼在不同的背景上,并在原始數(shù)據(jù)集之外的增強(qiáng)圖像上進(jìn)行訓(xùn)練。我們的工作使用了相同的方法,但有一些不同:(1)我們不使用幾何變換(例如旋轉(zhuǎn)),并且發(fā)現(xiàn)粘貼實(shí)例的高斯模糊是不利的(2) 我們在將一幅圖像中包含的對象粘貼到已填充實(shí)例的另一幅圖像的上下文中研究復(fù)制粘貼,其中[13]在具有一組對象實(shí)例和背景場景的上下文中研究復(fù)制粘貼以提高性能(3) 在半監(jiān)督學(xué)習(xí)環(huán)境下,我們結(jié)合自我訓(xùn)練來研究復(fù)制粘貼的效果(4) 我們在廣泛使用的COCO和LVIS數(shù)據(jù)集上對Copy-Paste進(jìn)行了基準(zhǔn)測試和深入研究,而Cut-Paste和Learn使用的是GMU數(shù)據(jù)集[16]。本文的一個(gè)重要貢獻(xiàn)是展示了復(fù)制粘貼在COCO和LVIS實(shí)例分割模型中的應(yīng)用。

實(shí)例分割。

實(shí)例分割[22,23]是一個(gè)具有挑戰(zhàn)性的計(jì)算機(jī)視覺問題,它試圖檢測對象實(shí)例并分割每個(gè)實(shí)例對應(yīng)的像素。Mask RCNN[26]是一個(gè)廣泛使用的框架,大多數(shù)最先進(jìn)的方法[66,11,43]都采用了這種方法。COCO數(shù)據(jù)集是廣泛使用的衡量進(jìn)展的基準(zhǔn)。我們報(bào)告了COCO基準(zhǔn)的最新結(jié)果,超過SpineNet[11]2.8 AP,超過探測器[43]0.6 AP

長尾視覺識別。

最近,計(jì)算機(jī)視覺界開始關(guān)注自然圖像中物體類別的長尾特性[58,21],其中許多不同的物體類別幾乎沒有標(biāo)記圖像。在訓(xùn)練深度網(wǎng)絡(luò)時(shí)處理長尾數(shù)據(jù)的現(xiàn)代方法主要分為兩組:數(shù)據(jù)重采樣[41,21,61]和丟失重加權(quán)[30,8,3,53,37,45]。其他更復(fù)雜的學(xué)習(xí)方法(如元學(xué)習(xí)[62,29,32]、因果推理[57]、貝葉斯方法[34]等)也用于處理長尾數(shù)據(jù)。最近的工作[9,3,33,70,37]指出了兩階段訓(xùn)練策略的有效性,將特征學(xué)習(xí)和再平衡階段分開,因?yàn)閹г倨胶獠呗缘亩说蕉擞?xùn)練可能不利于特征學(xué)習(xí)。Oksuz等人[42]對目標(biāo)檢測中的數(shù)據(jù)不平衡進(jìn)行了更全面的總結(jié)。我們的工作表明,簡單的復(fù)制粘貼數(shù)據(jù)增強(qiáng)在LVIS基準(zhǔn)的單階段和兩階段訓(xùn)練中都有顯著的效果,特別是對于稀有對象類別。

3. 方法

我們使用復(fù)制粘貼生成新數(shù)據(jù)的方法非常簡單。我們隨機(jī)選取兩幅圖像,對每幅圖像應(yīng)用隨機(jī)尺度抖動和隨機(jī)水平翻轉(zhuǎn)。然后,我們從其中一幅圖像中隨機(jī)選擇一個(gè)對象子集,并將它們粘貼到另一幅圖像上。最后,我們相應(yīng)地調(diào)整地面真值注釋:移除完全遮擋的物體,更新部分遮擋物體的遮罩和邊界框。

與[15,12]不同的是,我們沒有對周圍環(huán)境進(jìn)行建模,因此,生成的圖像在對象的共現(xiàn)或?qū)ο蟮南嚓P(guān)比例方面可能與真實(shí)圖像非常不同。例如,長頸鹿和足球運(yùn)動員的規(guī)模非常不同,可以出現(xiàn)在彼此旁邊(見圖2)。

圖2?我們使用一個(gè)簡單的復(fù)制粘貼方法來創(chuàng)建新的圖像來訓(xùn)練實(shí)例分割模型。 我們對兩幅隨機(jī)訓(xùn)練圖像進(jìn)行隨機(jī)尺度抖動,然后從一幅圖像中隨機(jī)選取一個(gè)子集粘貼到另一幅圖像上。

混合粘貼的對象。

為了將新對象合成一幅圖像,我們計(jì)算了二值掩模(α) 使用地面真值注釋對粘貼對象進(jìn)行分類,并將新圖像計(jì)算為I1× α + 十二× (1? α) 其中I1是粘貼的圖像,I2是主圖像。為了平滑粘貼對象的邊緣,我們對其應(yīng)用高斯濾波器α 類似于[13]中的“混合”。但與文獻(xiàn)[13]不同的是,我們還發(fā)現(xiàn),簡單的不混合作曲也有類似的表現(xiàn)。

大規(guī)模抖動。

我們在整個(gè)文本中使用了兩種不同類型的增強(qiáng)方法和復(fù)制粘貼:標(biāo)準(zhǔn)規(guī)模抖動(SSJ)和大規(guī)模抖動(LSJ)。這些方法隨機(jī)調(diào)整圖像大小和裁剪圖像。這兩種方法的圖示如圖3所示。在我們的實(shí)驗(yàn)中,我們觀察到,大規(guī)模抖動產(chǎn)生的性能比標(biāo)準(zhǔn)規(guī)模抖動在大多數(shù)以前的工作中使用顯著改善。

圖3.本文中使用的兩種尺度抖動增強(qiáng)方法的符號和可視化。 標(biāo)準(zhǔn)比例抖動(SSJ)調(diào)整圖像大小并進(jìn)行裁剪,調(diào)整范圍為原始圖像大小的0.8到1.25。 大規(guī)模抖動(LSJ)中的調(diào)整大小范圍是原始圖像大小的0.1到2.0。 如果使圖像小于其原始大小,則用灰色像素值填充圖像。兩種縮放抖動方法也使用水平翻轉(zhuǎn)。

自我訓(xùn)練復(fù)制粘貼。

除了研究有監(jiān)督數(shù)據(jù)上的復(fù)制粘貼,我們還將其作為一種合并其他未標(biāo)記圖像的方法進(jìn)行了實(shí)驗(yàn)。我們的自訓(xùn)練復(fù)制粘貼過程如下:(1)對標(biāo)記數(shù)據(jù)進(jìn)行復(fù)制粘貼增強(qiáng),訓(xùn)練有監(jiān)督的模型;(2)對未標(biāo)記數(shù)據(jù)生成偽標(biāo)記;(3)將地面真值實(shí)例粘貼到偽標(biāo)記和有監(jiān)督的標(biāo)記圖像中,并在此新數(shù)據(jù)上訓(xùn)練模型。

實(shí)驗(yàn)

實(shí)驗(yàn)裝置

建筑。

我們使用帶有EfficientNet[55]或ResNet[27]的Mask R-CNN[26]作為主干架構(gòu)。我們還采用特征金字塔網(wǎng)絡(luò)[38]進(jìn)行多尺度特征融合。我們使用從P2到P6的金字塔級別,錨定大小為8× 每像素2 l和3個(gè)錨。我們最強(qiáng)的模型使用Cascade R-CNN[2],EfficientNet-B7作為主干,NAS-FPN[17]作為從P3到P7的特征金字塔。錨定尺寸為4× 我們每像素有9個(gè)錨。我們的NAS-FPN模型使用5個(gè)重復(fù),我們用ResNet瓶頸塊替換卷積層[27]。

訓(xùn)練參數(shù)。

所有模型都使用同步批量歸一化[31,20]進(jìn)行訓(xùn)練,批量大小為256,權(quán)重衰減為4e-5。我們使用0.32的學(xué)習(xí)率和階躍學(xué)習(xí)率衰減[25]。在訓(xùn)練開始時(shí),學(xué)習(xí)率在前1000個(gè)步驟中從0.0032線性增加到0.32。我們將學(xué)習(xí)率衰減為訓(xùn)練步驟總數(shù)的0.9、0.95和0.975個(gè)分?jǐn)?shù)。我們從一個(gè)ImageNet檢查點(diǎn)初始化我們最大模型的主干,該檢查點(diǎn)通過自我訓(xùn)練[63]預(yù)先訓(xùn)練,以加快訓(xùn)練速度。除非另有說明,所有其他結(jié)果均來自隨機(jī)初始化的模型。此外,除非另有說明,否則我們使用大規(guī)模抖動增強(qiáng)來訓(xùn)練模型。在我們的實(shí)驗(yàn)中,對于所有不同的擴(kuò)充和數(shù)據(jù)集大小,我們允許每個(gè)模型進(jìn)行訓(xùn)練,直到收斂(即驗(yàn)證集性能不再提高)。例如,使用大規(guī)模抖動和復(fù)制粘貼增強(qiáng)從頭開始訓(xùn)練模型需要576個(gè)歷元,而僅使用標(biāo)準(zhǔn)規(guī)模抖動的訓(xùn)練需要96個(gè)歷元。對于自訓(xùn)練實(shí)驗(yàn),我們將批大小加倍到512,同時(shí)我們保持所有其他超參數(shù)不變,除了我們的最大模型由于內(nèi)存限制而保留256的批大小。

數(shù)據(jù)集。

我們使用COCO數(shù)據(jù)集[40],它有118k個(gè)訓(xùn)練圖像。對于自訓(xùn)練實(shí)驗(yàn),我們使用未標(biāo)記的COCO數(shù)據(jù)集(120k圖像)和Objects365數(shù)據(jù)集[48](610k圖像)作為未標(biāo)記圖像。對于遷移學(xué)習(xí)實(shí)驗(yàn),我們在COCO數(shù)據(jù)集上預(yù)先訓(xùn)練模型,然后在Pascal VOC數(shù)據(jù)集上進(jìn)行微調(diào)[14]。對于語義分割,我們在PASCAL VOC 2012分割數(shù)據(jù)集的訓(xùn)練集(1.5k圖像)上訓(xùn)練我們的模型。在檢測方面,我們對PASCAL VOC 2007和PASCAL VOC 2012的trainval集進(jìn)行了訓(xùn)練,還對LVIS v1.0(100k訓(xùn)練圖像)上的拷貝粘貼進(jìn)行了基準(zhǔn)測試,并對LVIS v1.0 val(20k圖像)上的結(jié)果進(jìn)行了報(bào)告。LVIS有1203個(gè)類來模擬自然圖像中類的長尾分布。

4.2. 復(fù)制粘貼對訓(xùn)練配置非常健壯

在本節(jié)中,我們將展示復(fù)制粘貼是一種強(qiáng)大的數(shù)據(jù)擴(kuò)充方法,它在各種訓(xùn)練迭代、模型和訓(xùn)練超參數(shù)中都是健壯的。

圖4?復(fù)制粘貼提供了對訓(xùn)練配置魯棒的增益。 我們在1024上訓(xùn)練R-CNN(ResNet-50fpn)×1024個(gè)圖像大小,用于不同的時(shí)代數(shù)。 左圖:在初始化主干和不初始化主干的情況下復(fù)制粘貼。 右圖:復(fù)制粘貼標(biāo)準(zhǔn)和大規(guī)模抖動。在所有配置中,使用復(fù)制粘貼進(jìn)行培訓(xùn)是很有幫助的。

對主干初始化的健壯性。

訓(xùn)練掩碼R-CNN的通常做法是用ImageNet預(yù)先訓(xùn)練的檢查點(diǎn)初始化主干。然而,He等人[25]和Zoph等人[72]表明,通過隨機(jī)初始化訓(xùn)練的模型在較長時(shí)間的訓(xùn)練中具有相似或更好的性能。ImageNet預(yù)訓(xùn)練中的訓(xùn)練模型具有強(qiáng)大的數(shù)據(jù)增強(qiáng)功能(即RandAugment[7]),在COCO上顯示最多1個(gè)AP會影響性能。圖4(左)演示了復(fù)制粘貼在兩種設(shè)置中都是相加的,我們使用復(fù)制粘貼增強(qiáng)和隨機(jī)初始化獲得了最佳結(jié)果。

對培訓(xùn)計(jì)劃的魯棒性。

在文獻(xiàn)中,面罩R-CNN的典型訓(xùn)練計(jì)劃只有24(2)×)? 或36個(gè)時(shí)代(3×) [25, 26, 15]. 然而,最新的研究結(jié)果表明,長時(shí)間的訓(xùn)練有助于在COCO上訓(xùn)練目標(biāo)檢測模型[72,56,11]。圖4顯示,對于典型的培訓(xùn)計(jì)劃2,我們可以從復(fù)制粘貼中獲得收益× 或3× 隨著訓(xùn)練時(shí)間的增加,收益也在增加。這表明,copyplaste是一種非常實(shí)用的數(shù)據(jù)擴(kuò)充,因?yàn)槲覀儾恍枰L的培訓(xùn)時(shí)間來看到它的好處。

復(fù)制粘貼是對大規(guī)模抖動增強(qiáng)的補(bǔ)充。

隨機(jī)尺度抖動(Random scale jittering)是一種強(qiáng)大的數(shù)據(jù)增強(qiáng)技術(shù),在計(jì)算機(jī)視覺模型訓(xùn)練中得到了廣泛的應(yīng)用。文獻(xiàn)中尺度抖動的標(biāo)準(zhǔn)范圍是0.8到1.25[39,25,6,15]。然而,使用范圍為0.1到2.0[56,11]的更大范圍抖動和更長時(shí)間的訓(xùn)練來增強(qiáng)數(shù)據(jù)可以顯著提高性能(見圖4,右圖)。圖5演示了復(fù)制粘貼對標(biāo)準(zhǔn)和大規(guī)模抖動增強(qiáng)都是附加的,我們在標(biāo)準(zhǔn)規(guī)模抖動的基礎(chǔ)上得到了更高的提升。另一方面,如圖5所示,當(dāng)與大規(guī)模抖動一起使用時(shí),mixup[65,68]數(shù)據(jù)增強(qiáng)沒有幫助。

圖5?復(fù)制粘貼是對大規(guī)模抖動增強(qiáng)的補(bǔ)充。 在標(biāo)準(zhǔn)規(guī)模抖動(左圖)和大規(guī)模抖動(右圖)的基礎(chǔ)上,對混合和復(fù)制粘貼數(shù)據(jù)進(jìn)行了改進(jìn)。 所有結(jié)果均來自于訓(xùn)練掩模R-CNN效率ETB7 FPN上的圖像大小為640×640

復(fù)制粘貼可以跨主干體系結(jié)構(gòu)和圖像大小工作。

最后,我們用ResNet50和ResNet-101[27]的標(biāo)準(zhǔn)主干架構(gòu)以及EfficientNet-B7[55]的最新架構(gòu)演示了復(fù)制粘貼幫助模型。我們用這些主干訓(xùn)練模型,圖像大小為640×640, 1024×1024或1280×1280.表1顯示,對于所有模型,我們都比使用大規(guī)模抖動訓(xùn)練的強(qiáng)基線得到了顯著的改進(jìn)。在6個(gè)具有不同主干和圖像大小的模型中,復(fù)制粘貼在大規(guī)模抖動的基礎(chǔ)上平均提高了1.3盒AP和0.8掩模AP。

表1?. 復(fù)制粘貼在各種不同的模型體系結(jié)構(gòu)、模型大小和圖像分辨率上都能很好地工作。

4.3復(fù)制粘貼有助于提高數(shù)據(jù)效率

在本節(jié)中,我們將展示復(fù)制粘貼在各種數(shù)據(jù)集大小上的幫助,并有助于提高數(shù)據(jù)效率。圖5顯示,拷貝粘貼的增加總是有助于椰子的所有部分??截愓迟N在低數(shù)據(jù)區(qū)(COCO的10%)最有幫助,在SSJ上產(chǎn)生6.9盒AP改進(jìn),在LSJ上產(chǎn)生4.8盒AP改進(jìn)。另一方面,混音只在低數(shù)據(jù)區(qū)有用。復(fù)制粘貼也大大有助于提高數(shù)據(jù)效率:在75%的COCO上使用復(fù)制粘貼和LSJ訓(xùn)練的模型與在100%的COCO上使用LSJ訓(xùn)練的模型具有相似的AP。

4.4. 復(fù)制粘貼和自我訓(xùn)練是相加的

在本節(jié)中,我們將演示類似于[63,72]的標(biāo)準(zhǔn)自訓(xùn)練方法和復(fù)制粘貼可以結(jié)合在一起,以利用未標(biāo)記的數(shù)據(jù)。復(fù)制粘貼和自我訓(xùn)練分別比48.5箱AP的基線值增加1.5箱AP(見表2)。

表2?復(fù)制粘貼和自我訓(xùn)練是利用額外的未標(biāo)記數(shù)據(jù)的加法。 通過自我訓(xùn)練和拷貝粘貼相結(jié)合,使2.9盒AP和2.3掩模AP有了顯著的提高。

為了將自學(xué)習(xí)和復(fù)制粘貼相結(jié)合,我們首先使用一個(gè)經(jīng)過復(fù)制粘貼訓(xùn)練的有監(jiān)督的教師模型來生成未標(biāo)記數(shù)據(jù)的偽標(biāo)簽。接下來我們從COCO中提取地面真值對象,并將它們粘貼到偽標(biāo)記圖像和COCO圖像中。最后,我們在所有這些圖像上訓(xùn)練學(xué)生模型。通過這種設(shè)置,我們實(shí)現(xiàn)了51.4箱AP,比基線提高了2.9 AP。

要粘貼的數(shù)據(jù)。

在我們的自我訓(xùn)練設(shè)置中,一半來自有監(jiān)督的COCO數(shù)據(jù)(120k圖像),另一半來自偽標(biāo)記數(shù)據(jù)(110k圖像來自未標(biāo)記的COCO,610k圖像來自O(shè)bjects365)。表3給出了在訓(xùn)練圖像的不同部分粘貼COCO實(shí)例的結(jié)果。與粘貼到COCO相比,粘貼到偽標(biāo)記數(shù)據(jù)會產(chǎn)生更大的改進(jìn)。由于偽標(biāo)記集中的圖像數(shù)量較大,因此使用變化較大的圖像作為背景有助于復(fù)制粘貼。當(dāng)我們在COCO和偽標(biāo)記圖像上粘貼COCO實(shí)例時(shí),我們獲得了超過自訓(xùn)練的最大增益(+1.4 box AP和+1.0 mask AP)。

表3.將地面真值COCO對象粘貼到COCO和偽標(biāo)記數(shù)據(jù)中,與單獨(dú)粘貼兩者相比,可以獲得更高的收益。

要從中復(fù)制的數(shù)據(jù)。

我們還探索了另一種使用復(fù)制粘貼的方法,通過將未標(biāo)記數(shù)據(jù)集中的偽標(biāo)記對象直接粘貼到COCO標(biāo)記數(shù)據(jù)集中來合并額外的數(shù)據(jù)。不幸的是,與粘貼COCO地面真實(shí)物體相比,這個(gè)設(shè)置沒有顯示出額外的AP改進(jìn)。

4.5. 復(fù)制粘貼提高可可國家的最新水平

接下來我們研究復(fù)制粘貼是否可以改進(jìn)COCO上最先進(jìn)的實(shí)例分割方法。表4顯示了在一個(gè)強(qiáng)大的54.8盒AP COCO模型上應(yīng)用復(fù)制粘貼的結(jié)果。此表旨在作為最先進(jìn)性能的參考。3為了進(jìn)行嚴(yán)格的比較,我們注意到模型需要使用相同的代碼庫、訓(xùn)練數(shù)據(jù)和訓(xùn)練設(shè)置進(jìn)行評估,如學(xué)習(xí)率計(jì)劃、權(quán)重衰減、數(shù)據(jù)預(yù)處理和增強(qiáng)、參數(shù)和失敗控制,體系結(jié)構(gòu)正則化[59]、訓(xùn)練和推理速度等。該表的目標(biāo)是顯示復(fù)制粘貼增強(qiáng)的好處及其自我訓(xùn)練的附加增益。我們的基線模型是一個(gè)級聯(lián)掩碼RCNN,具有高效的ET-B7主干和NAS-FPN。我們觀察到使用拷貝粘貼時(shí)+1.2盒AP和+0.5掩模AP的改善。結(jié)合使用未標(biāo)記COCO和未標(biāo)記Objects365[48]進(jìn)行偽標(biāo)記的自我訓(xùn)練,我們看到2.5 box AP和2.2 mask AP的進(jìn)一步改進(jìn),在COCO test dev上獲得了57.3 box AP和49.1 mask AP的強(qiáng)大性能,而沒有增加測試時(shí)間和模型集成。

4.6. 復(fù)制粘貼為PASCAL檢測和分割生成更好的表示

前面我們已經(jīng)演示了簡單的拷貝粘貼增強(qiáng)在實(shí)例分割上提供的改進(jìn)的性能。在這一節(jié)中,我們研究了用COCO上的拷貝粘貼訓(xùn)練的預(yù)先訓(xùn)練的實(shí)例分割模型的遷移學(xué)習(xí)性能。我們在pascalvoc2007數(shù)據(jù)集上進(jìn)行遷移學(xué)習(xí)實(shí)驗(yàn)。表5顯示了在PASCAL檢測中,學(xué)習(xí)的復(fù)制粘貼模型與基線模型相比是如何傳遞的。表6給出了PASCAL語義切分的遷移學(xué)習(xí)結(jié)果。在PASCAL檢測和PASCAL語義切分兩方面,我們發(fā)現(xiàn)用拷貝粘貼轉(zhuǎn)移訓(xùn)練的模型比基線模型更適合微調(diào)。

4.7. 復(fù)制粘貼在LVIS上提供了強(qiáng)大的收益

我們對LVIS數(shù)據(jù)集的Copy-Paste進(jìn)行基準(zhǔn)測試,以了解它在具有1203個(gè)類的長尾分布的數(shù)據(jù)集上的性能。LVIS基準(zhǔn)通常使用兩種不同的訓(xùn)練范式:(1)單階段,直接在LVIS數(shù)據(jù)集上訓(xùn)練檢測器;(2)兩階段,第一階段的模型通過類重新平衡損失進(jìn)行微調(diào),以幫助處理類不平衡。

復(fù)制粘貼改善單階段LVIS訓(xùn)練。

單階段訓(xùn)練模式與COCO上的copyplaste設(shè)置非常相似。除了標(biāo)準(zhǔn)的培訓(xùn)設(shè)置外,還使用了一些方法來處理LVIS上的班級不平衡問題。一種常用的方法是從[21]中重復(fù)因子抽樣(RFS),t=0.001。該方法通過對含有稀有類的圖像進(jìn)行過采樣來解決LVIS上的大類不平衡問題。表8顯示了在強(qiáng)單階段LVIS基線上應(yīng)用復(fù)制粘貼的結(jié)果。我們使用EfficientNet-B7 FPN和640×640輸入大小,使用256批大小隨機(jī)初始化180k步,從頭開始訓(xùn)練模型。正如[21]所建議的,我們將每幅圖像的檢測次數(shù)增加到300次,并將分?jǐn)?shù)閾值降低到0。我們觀察到,復(fù)制粘貼增強(qiáng)在AP、APc和APf上優(yōu)于RFS,但在APr(稀有類的AP)上性能較差。最好的整體效果來自于結(jié)合RFS和拷貝粘貼增強(qiáng),實(shí)現(xiàn)了+2.4ap和+8.7apr的提升。復(fù)制粘貼改善兩階段LVIS訓(xùn)練。

兩階段訓(xùn)練被廣泛采用來解決數(shù)據(jù)不平衡問題,并在LVIS上獲得良好的性能[37,45,54]。我們的目的是研究復(fù)制粘貼在這兩個(gè)階段的設(shè)置效果。我們的兩階段訓(xùn)練如下:首先我們用標(biāo)準(zhǔn)的訓(xùn)練技術(shù)訓(xùn)練目標(biāo)檢測器(即與我們的單階段訓(xùn)練相同),然后我們使用類平衡損失對第一階段訓(xùn)練的模型進(jìn)行微調(diào)[8]。類的權(quán)重由(1)計(jì)算? β)/(1? β n) ,其中n是類的實(shí)例數(shù)β = 0.999. 4在第二階段微調(diào)中,我們用3× 計(jì)劃并僅使用分類損失更新Mask R-CNN中的最終分類層。從表9中的mask AP結(jié)果中,我們可以看到使用Copy-Paste訓(xùn)練的模型對于低炮類學(xué)習(xí)更好的特性(APr為+2.3,APc為+2.6)。有趣的是,我們發(fā)現(xiàn)RFS在單階段訓(xùn)練中是非常有用的,而且在兩階段訓(xùn)練中,RFS與Copy-Paste是相加的。這一發(fā)現(xiàn)的一個(gè)可能解釋是,使用RFS學(xué)習(xí)的特征比使用原始LVIS數(shù)據(jù)集學(xué)習(xí)的特征更差。我們留下了一個(gè)更詳細(xì)的調(diào)查之間的權(quán)衡RFS和數(shù)據(jù)增強(qiáng)在兩個(gè)階段的培訓(xùn),為今后的工作。

與最新技術(shù)的比較。

此外,我們將我們的兩階段模型與表7中LVIS5的最新方法進(jìn)行了比較。令人驚訝的是,我們最小的模型ResNet50 FPN,經(jīng)過復(fù)制粘貼訓(xùn)練,其性能優(yōu)于ResNeXt-101-32的強(qiáng)基線cRT[33]×8d主干。

使用復(fù)制粘貼訓(xùn)練的EfficientNetB7 NAS-FPN模型(不含級聯(lián)6)在整體掩模AP和無測試時(shí)間增加的盒AP上與LVIS challenge 2020優(yōu)勝者的結(jié)果相當(dāng)。此外,它實(shí)現(xiàn)了32.1面具4月為罕見的類別超過了3.6面具4月的LVIS挑戰(zhàn)獲勝條目。

5.結(jié)論

數(shù)據(jù)增強(qiáng)是許多視覺系統(tǒng)的核心。本文對復(fù)制粘貼數(shù)據(jù)增強(qiáng)方法進(jìn)行了深入的研究,發(fā)現(xiàn)該方法具有很強(qiáng)的魯棒性和有效性。Copy-Paste在多個(gè)實(shí)驗(yàn)設(shè)置中表現(xiàn)良好,并且在COCO和LVIS實(shí)例分割基準(zhǔn)上提供了強(qiáng)大基線之上的顯著改進(jìn)。復(fù)制粘貼增強(qiáng)策略簡單,易于插入任何實(shí)例分割代碼庫,且不增加訓(xùn)練成本和推理時(shí)間。我們還表明,復(fù)制粘貼是有用的,納入額外的未標(biāo)記的圖像在訓(xùn)練過程中,是加上成功的自我訓(xùn)練技術(shù)。我們希望,令人信服的經(jīng)驗(yàn)證據(jù),其好處,使復(fù)制粘貼增強(qiáng)的標(biāo)準(zhǔn)增強(qiáng)程序時(shí),訓(xùn)練實(shí)例分割模型。

A.復(fù)制粘貼法

在本節(jié)中,我們將介紹復(fù)制粘貼方法的燒蝕。我們采用掩模R-CNN高效ETB7 FPN結(jié)構(gòu),圖像尺寸為640×我們的實(shí)驗(yàn)需要640美元。

粘貼對象的子集。

在我們的方法中,我們將對象的隨機(jī)子集從一個(gè)圖像粘貼到另一個(gè)圖像上。表10顯示,雖然我們只將一個(gè)隨機(jī)對象或一幅圖像的所有對象粘貼到另一幅圖像中得到了改進(jìn),但通過粘貼對象的隨機(jī)子集,我們得到了最好的改進(jìn)。這表明粘貼對象子集所引入的隨機(jī)性是有幫助的。

混合。

在我們的實(shí)驗(yàn)中,我們使用alpha混合平滑粘貼對象的邊緣(見第3節(jié))。表10表明,這不是一個(gè)重要的步驟,我們在沒有任何混合的情況下得到相同的結(jié)果,而[13]發(fā)現(xiàn)混合對于強(qiáng)大的性能至關(guān)重要。

縮放抖動。

在這項(xiàng)工作中,我們展示了通過結(jié)合大規(guī)模抖動和復(fù)制粘貼,我們比標(biāo)準(zhǔn)規(guī)模抖動的基線得到了顯著的改進(jìn)(圖1)。在復(fù)制粘貼方法中,我們對粘貼的圖像(粘貼對象從中復(fù)制的圖像)和主圖像應(yīng)用獨(dú)立的隨機(jī)比例抖動。在表11中,我們研究了主圖像和粘貼圖像上大尺度抖動的重要性。從表11可以看出,大尺度抖動帶來的大部分改進(jìn)來自于對主圖像的應(yīng)用,而增加粘貼圖像的尺度抖動范圍只得到了輕微的改進(jìn)(0.3框AP和0.2掩模AP)

B.復(fù)制粘貼提供了更困難的椰子類增益

圖6顯示了在COCO數(shù)據(jù)集上應(yīng)用復(fù)制粘貼獲得的每個(gè)類別的相對AP增益。CopyPaste提高了除吹風(fēng)機(jī)以外所有課程的AP。在圖6中,類是基于每個(gè)類別的基線AP進(jìn)行排序的??梢钥吹?,大多數(shù)改進(jìn)最大的類都在左側(cè)(較低的基線AP),這表明復(fù)制粘貼對最難的類幫助最大。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容