色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

<abbr id="mguqe"></abbr>

<input id="mguqe"><th id="mguqe"></th></input>

<dl id="mguqe"><dd id="mguqe"></dd></dl>

<abbr id="mguqe"><ul id="mguqe"></ul></abbr>

登錄注冊寫文章

作為數(shù)據(jù)增強(qiáng)的復(fù)制粘貼

Valar_Morghulis

作為數(shù)據(jù)增強(qiáng)的復(fù)制粘貼

https://arxiv.org/pdf/2012.07177.pdf

Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation

Golnaz Ghiasi,?Yin Cui,?Aravind Srinivas,?Rui Qian,?Tsung-Yi Lin,?Ekin D. Cubuk,?Quoc V. Le,?Barret Zoph

在計(jì)算機(jī)視覺中，建立數(shù)據(jù)高效且能處理稀有對象類別的實(shí)例分割模型是一個(gè)重要的挑戰(zhàn)。利用數(shù)據(jù)擴(kuò)充是解決這一挑戰(zhàn)的一個(gè)有希望的方向。在這里，我們對復(fù)制粘貼增強(qiáng)（[13，12]）進(jìn)行了系統(tǒng)的研究，例如我們將對象隨機(jī)粘貼到圖像上的分割。以往對復(fù)制粘貼的研究依賴于對周圍的視覺環(huán)境進(jìn)行建模來粘貼對象。然而，我們發(fā)現(xiàn)隨機(jī)粘貼對象的簡單機(jī)制已經(jīng)足夠好了，可以在強(qiáng)基線的基礎(chǔ)上提供可靠的增益。此外，我們還證明了復(fù)制粘貼與半監(jiān)督方法是相加的，半監(jiān)督方法通過偽標(biāo)記（如自訓(xùn)練）利用額外的數(shù)據(jù)。在COCO實(shí)例分割方面，我們實(shí)現(xiàn)了49.1的mask-AP和57.3的box-AP，比現(xiàn)有技術(shù)提高了+0.6的mask-AP和+1.5的box-AP。我們進(jìn)一步證明了復(fù)制粘貼可以顯著改進(jìn)LVIS基準(zhǔn)。我們的基準(zhǔn)模型在稀有類別上比LVIS 2020挑戰(zhàn)賽優(yōu)勝項(xiàng)目高出3.6%

圖1.COCO基準(zhǔn)上的數(shù)據(jù)效率：將復(fù)制粘貼增強(qiáng)與強(qiáng)大的Aug（大規(guī)模抖動）相結(jié)合，使我們能夠訓(xùn)練多達(dá)2個(gè)的模型× 比標(biāo)準(zhǔn)的Aug（標(biāo)準(zhǔn)規(guī)模抖動）更高效。增強(qiáng)非常有效，在低數(shù)據(jù)區(qū)（數(shù)據(jù)的10%）提供+10ap的增益，而在高數(shù)據(jù)區(qū)仍然有效，增益為+5ap。結(jié)果是在640的圖像大小上訓(xùn)練的掩模RCNN效率net-B7 FPN×640

1.引言

實(shí)例分割[22，10]是計(jì)算機(jī)視覺中的一項(xiàng)重要任務(wù)，有許多實(shí)際應(yīng)用?；谧钕冗M(jìn)的卷積網(wǎng)絡(luò)[11，56，66]的實(shí)例分割模型通常需要大量的數(shù)據(jù)。同時(shí)，注釋大型數(shù)據(jù)集（例如分段[40,21]）通常是昂貴和耗時(shí)的。例如，COCO的每1000個(gè)實(shí)例面具花費(fèi)了22個(gè)工時(shí)[40]。因此，迫切需要開發(fā)新的方法來提高現(xiàn)有實(shí)例分割模型的數(shù)據(jù)效率。

在這里，我們關(guān)注數(shù)據(jù)擴(kuò)充[49]，作為一種顯著提高實(shí)例分割模型數(shù)據(jù)效率的簡單方法。盡管許多增強(qiáng)方法（如縮放抖動和隨機(jī)調(diào)整大?。┮驯粡V泛使用[26，25，20]，但它們在本質(zhì)上更具通用性，并沒有專門設(shè)計(jì)用于實(shí)例分割。在類別和形狀方面更能感知對象的增強(qiáng)過程可能對實(shí)例分割有用。復(fù)制粘貼增強(qiáng)[13，12，15]非常適合這種需要。通過將不同尺度的物體粘貼到新的背景圖像上，復(fù)制粘貼有可能免費(fèi)創(chuàng)建具有挑戰(zhàn)性和新穎性的訓(xùn)練數(shù)據(jù)。

復(fù)制粘貼增強(qiáng)背后的關(guān)鍵思想是將對象從一個(gè)圖像粘貼到另一個(gè)圖像。這可以導(dǎo)致新的訓(xùn)練數(shù)據(jù)的組合數(shù)量，具有多種可能性：（1）選擇復(fù)制實(shí)例的源圖像對和粘貼實(shí)例的目標(biāo)圖像對(2）選擇要從源圖像復(fù)制的對象實(shí)例(3）選擇將復(fù)制的實(shí)例粘貼到目標(biāo)圖像上的位置。當(dāng)使用這種數(shù)據(jù)增強(qiáng)方法時(shí)，有大量的選擇，這使得我們可以對如何最有效地使用這種技術(shù)進(jìn)行大量的探索。先前的工作[12，15]通過對周圍的視覺環(huán)境建模，采用了一些方法來決定將附加對象粘貼到何處。相比之下，我們發(fā)現(xiàn)一種簡單的隨機(jī)選取對象并將其粘貼到目標(biāo)圖像上的隨機(jī)位置的策略可以顯著提高多個(gè)設(shè)置的基線。具體地說，它在主干結(jié)構(gòu)、規(guī)模抖動程度、訓(xùn)練計(jì)劃和圖像大小的變化方面提供了廣泛的設(shè)置。

結(jié)合大規(guī)模的抖動，我們展示了復(fù)制粘貼增強(qiáng)在COCO上顯著提高了數(shù)據(jù)效率（圖1）。特別是，我們看到數(shù)據(jù)效率提高了2× 對常用的標(biāo)準(zhǔn)尺度抖動數(shù)據(jù)進(jìn)行增強(qiáng)。我們還觀察到，當(dāng)只使用10%的COCO訓(xùn)練數(shù)據(jù)時(shí)，在低數(shù)據(jù)區(qū)獲得+10盒AP。

然后，我們證明了復(fù)制粘貼增強(qiáng)策略通過自我訓(xùn)練提供了額外的收益[44，72]，其中我們從地面真實(shí)數(shù)據(jù)中提取實(shí)例，并將它們粘貼到帶有偽標(biāo)簽的未標(biāo)記數(shù)據(jù)上。利用高效的net-B7[55]主干網(wǎng)和NAS-FPN[17]體系結(jié)構(gòu)，我們在COCO測試設(shè)備上實(shí)現(xiàn)了57.3box-AP和49.1mask-AP，無需增加測試時(shí)間。這一結(jié)果超過了以前最先進(jìn)的實(shí)例分割模型，如spinnet[11]（46.3 mask AP）和ResNeXt-101-64x4d，并增加了測試時(shí)間[43]（48.5 mask AP）。性能也超過了EfficientDet-D7x-1536[56]（55.1 box AP）和YOLOv4-P7-1536[60]（55.8 box AP）的最新邊界盒檢測結(jié)果，盡管使用了1280而不是1536的較小圖像大小。

最后，我們證明了復(fù)制粘貼增強(qiáng)可以為LVIS基準(zhǔn)中通常使用的兩階段培訓(xùn)過程帶來更好的特性[21]。利用copypesset，我們分別對6.1和3.7掩模AP在稀有和常見類別上進(jìn)行了改進(jìn)。

復(fù)制粘貼增強(qiáng)策略易于插入任何實(shí)例分割庫，能夠有效地利用未標(biāo)記圖像，不產(chǎn)生訓(xùn)練或推理開銷。例如，我們用Mask-RCNN進(jìn)行的實(shí)驗(yàn)表明，在訓(xùn)練過程中可以將復(fù)制粘貼放入訓(xùn)練中，并且在不發(fā)生任何變化的情況下，可以很容易地提高結(jié)果，例如48個(gè)周期的+1.0ap。

相關(guān)工作

數(shù)據(jù)增強(qiáng)。

與主干架構(gòu)[35、50、52、27、55]和檢測/分割框架[19、18、46、38、26、39]的工作量相比，計(jì)算機(jī)視覺界對數(shù)據(jù)增強(qiáng)[49]的關(guān)注相對較少。隨機(jī)作物[36、35、50、52]、顏色抖動[52]、自動/隨機(jī)增強(qiáng)[6,7]等數(shù)據(jù)增強(qiáng)在圖像分類[27,55]、自我監(jiān)督學(xué)習(xí)[28、24、5]和ImageNet[47]基準(zhǔn)上的半監(jiān)督學(xué)習(xí)[63]等方面發(fā)揮了重要作用。這些增強(qiáng)在本質(zhì)上更為通用，主要用于編碼對數(shù)據(jù)變換的不變性，這一原理非常適合圖像分類[47]。

混合圖像增強(qiáng)。

與編碼數(shù)據(jù)變換不變性的增強(qiáng)相比，存在一類增強(qiáng)，將不同圖像中包含的信息與對ground真相標(biāo)簽進(jìn)行適當(dāng)更改的信息混合在一起。一個(gè)典型的例子是混合數(shù)據(jù)增強(qiáng)[65]方法，它為輸入像素和輸出標(biāo)簽的凸組合創(chuàng)建新的數(shù)據(jù)點(diǎn)。已經(jīng)有了混合的適應(yīng)性，例如CutMix[64]，它粘貼圖像的矩形作物，而不是混合所有像素?；旌虾图羟谢旌显谀繕?biāo)檢測中也有應(yīng)用[68]。約洛夫4[1]中所采用的馬賽克數(shù)據(jù)增強(qiáng)方法與CutMix有關(guān)，因?yàn)橐环N新的復(fù)合圖像是多個(gè)單獨(dú)圖像的矩形網(wǎng)格及其地面真實(shí)。雖然混合、CutMix和馬賽克在組合多個(gè)圖像或其裁剪版本以創(chuàng)建新的培訓(xùn)數(shù)據(jù)方面很有用，但它們?nèi)匀徊恢缹ο?，而且還沒有專門為實(shí)例分割任務(wù)設(shè)計(jì)。

復(fù)制粘貼增強(qiáng)。

復(fù)制粘貼增強(qiáng)。

以對象感知的方式組合來自多個(gè)圖像的信息的一種簡單方法是從一個(gè)圖像復(fù)制對象實(shí)例并將它們粘貼到另一個(gè)圖像上。復(fù)制粘貼類似于mixup和CutMix，但僅復(fù)制與對象對應(yīng)的精確像素，而不是對象邊界框中的所有像素。與上下文復(fù)制粘貼[12]和InstaBoost[15]相比，我們工作中的一個(gè)關(guān)鍵區(qū)別是，我們不需要對周圍的可視上下文建模來放置復(fù)制的對象實(shí)例。一個(gè)簡單的隨機(jī)布局策略可以很好地工作，并在強(qiáng)基線模型上產(chǎn)生可靠的改進(jìn)。Instaboost[15]與之前的復(fù)制粘貼[12]不同，它沒有粘貼其他圖像的實(shí)例，而是jiterr了圖像上已經(jīng)存在的實(shí)例。Cut-Paste-and-Learn[13]提出提取對象實(shí)例，將它們混合粘貼在不同的背景上，并在原始數(shù)據(jù)集之外的增強(qiáng)圖像上進(jìn)行訓(xùn)練。我們的工作使用了相同的方法，但有一些不同：（1）我們不使用幾何變換（例如旋轉(zhuǎn)），并且發(fā)現(xiàn)粘貼實(shí)例的高斯模糊是不利的(2）我們在將一幅圖像中包含的對象粘貼到已填充實(shí)例的另一幅圖像的上下文中研究復(fù)制粘貼，其中[13]在具有一組對象實(shí)例和背景場景的上下文中研究復(fù)制粘貼以提高性能(3）在半監(jiān)督學(xué)習(xí)環(huán)境下，我們結(jié)合自我訓(xùn)練來研究復(fù)制粘貼的效果(4）我們在廣泛使用的COCO和LVIS數(shù)據(jù)集上對Copy-Paste進(jìn)行了基準(zhǔn)測試和深入研究，而Cut-Paste和Learn使用的是GMU數(shù)據(jù)集[16]。本文的一個(gè)重要貢獻(xiàn)是展示了復(fù)制粘貼在COCO和LVIS實(shí)例分割模型中的應(yīng)用。

實(shí)例分割。

實(shí)例分割[22，23]是一個(gè)具有挑戰(zhàn)性的計(jì)算機(jī)視覺問題，它試圖檢測對象實(shí)例并分割每個(gè)實(shí)例對應(yīng)的像素。Mask RCNN[26]是一個(gè)廣泛使用的框架，大多數(shù)最先進(jìn)的方法[66，11，43]都采用了這種方法。COCO數(shù)據(jù)集是廣泛使用的衡量進(jìn)展的基準(zhǔn)。我們報(bào)告了COCO基準(zhǔn)的最新結(jié)果，超過SpineNet[11]2.8 AP，超過探測器[43]0.6 AP

長尾視覺識別。

最近，計(jì)算機(jī)視覺界開始關(guān)注自然圖像中物體類別的長尾特性[58，21]，其中許多不同的物體類別幾乎沒有標(biāo)記圖像。在訓(xùn)練深度網(wǎng)絡(luò)時(shí)處理長尾數(shù)據(jù)的現(xiàn)代方法主要分為兩組：數(shù)據(jù)重采樣[41，21，61]和丟失重加權(quán)[30，8，3，53，37，45]。其他更復(fù)雜的學(xué)習(xí)方法（如元學(xué)習(xí)[62,29,32]、因果推理[57]、貝葉斯方法[34]等）也用于處理長尾數(shù)據(jù)。最近的工作[9，3，33，70，37]指出了兩階段訓(xùn)練策略的有效性，將特征學(xué)習(xí)和再平衡階段分開，因?yàn)閹г倨胶獠呗缘亩说蕉擞?xùn)練可能不利于特征學(xué)習(xí)。Oksuz等人[42]對目標(biāo)檢測中的數(shù)據(jù)不平衡進(jìn)行了更全面的總結(jié)。我們的工作表明，簡單的復(fù)制粘貼數(shù)據(jù)增強(qiáng)在LVIS基準(zhǔn)的單階段和兩階段訓(xùn)練中都有顯著的效果，特別是對于稀有對象類別。

3. 方法

我們使用復(fù)制粘貼生成新數(shù)據(jù)的方法非常簡單。我們隨機(jī)選取兩幅圖像，對每幅圖像應(yīng)用隨機(jī)尺度抖動和隨機(jī)水平翻轉(zhuǎn)。然后，我們從其中一幅圖像中隨機(jī)選擇一個(gè)對象子集，并將它們粘貼到另一幅圖像上。最后，我們相應(yīng)地調(diào)整地面真值注釋：移除完全遮擋的物體，更新部分遮擋物體的遮罩和邊界框。

與[15,12]不同的是，我們沒有對周圍環(huán)境進(jìn)行建模，因此，生成的圖像在對象的共現(xiàn)或?qū)ο蟮南嚓P(guān)比例方面可能與真實(shí)圖像非常不同。例如，長頸鹿和足球運(yùn)動員的規(guī)模非常不同，可以出現(xiàn)在彼此旁邊（見圖2）。

圖2?我們使用一個(gè)簡單的復(fù)制粘貼方法來創(chuàng)建新的圖像來訓(xùn)練實(shí)例分割模型。我們對兩幅隨機(jī)訓(xùn)練圖像進(jìn)行隨機(jī)尺度抖動，然后從一幅圖像中隨機(jī)選取一個(gè)子集粘貼到另一幅圖像上。

混合粘貼的對象。

為了將新對象合成一幅圖像，我們計(jì)算了二值掩模(α) 使用地面真值注釋對粘貼對象進(jìn)行分類，并將新圖像計(jì)算為I1× α + 十二× (1? α) 其中I1是粘貼的圖像，I2是主圖像。為了平滑粘貼對象的邊緣，我們對其應(yīng)用高斯濾波器α 類似于[13]中的“混合”。但與文獻(xiàn)[13]不同的是，我們還發(fā)現(xiàn)，簡單的不混合作曲也有類似的表現(xiàn)。

大規(guī)模抖動。

我們在整個(gè)文本中使用了兩種不同類型的增強(qiáng)方法和復(fù)制粘貼：標(biāo)準(zhǔn)規(guī)模抖動（SSJ）和大規(guī)模抖動（LSJ）。這些方法隨機(jī)調(diào)整圖像大小和裁剪圖像。這兩種方法的圖示如圖3所示。在我們的實(shí)驗(yàn)中，我們觀察到，大規(guī)模抖動產(chǎn)生的性能比標(biāo)準(zhǔn)規(guī)模抖動在大多數(shù)以前的工作中使用顯著改善。

圖3.本文中使用的兩種尺度抖動增強(qiáng)方法的符號和可視化。標(biāo)準(zhǔn)比例抖動（SSJ）調(diào)整圖像大小并進(jìn)行裁剪，調(diào)整范圍為原始圖像大小的0.8到1.25。大規(guī)模抖動（LSJ）中的調(diào)整大小范圍是原始圖像大小的0.1到2.0。如果使圖像小于其原始大小，則用灰色像素值填充圖像。兩種縮放抖動方法也使用水平翻轉(zhuǎn)。

自我訓(xùn)練復(fù)制粘貼。

除了研究有監(jiān)督數(shù)據(jù)上的復(fù)制粘貼，我們還將其作為一種合并其他未標(biāo)記圖像的方法進(jìn)行了實(shí)驗(yàn)。我們的自訓(xùn)練復(fù)制粘貼過程如下：（1）對標(biāo)記數(shù)據(jù)進(jìn)行復(fù)制粘貼增強(qiáng)，訓(xùn)練有監(jiān)督的模型；（2）對未標(biāo)記數(shù)據(jù)生成偽標(biāo)記；（3）將地面真值實(shí)例粘貼到偽標(biāo)記和有監(jiān)督的標(biāo)記圖像中，并在此新數(shù)據(jù)上訓(xùn)練模型。

實(shí)驗(yàn)

實(shí)驗(yàn)裝置

建筑。

我們使用帶有EfficientNet[55]或ResNet[27]的Mask R-CNN[26]作為主干架構(gòu)。我們還采用特征金字塔網(wǎng)絡(luò)[38]進(jìn)行多尺度特征融合。我們使用從P2到P6的金字塔級別，錨定大小為8× 每像素2 l和3個(gè)錨。我們最強(qiáng)的模型使用Cascade R-CNN[2]，EfficientNet-B7作為主干，NAS-FPN[17]作為從P3到P7的特征金字塔。錨定尺寸為4× 我們每像素有9個(gè)錨。我們的NAS-FPN模型使用5個(gè)重復(fù)，我們用ResNet瓶頸塊替換卷積層[27]。

訓(xùn)練參數(shù)。

所有模型都使用同步批量歸一化[31，20]進(jìn)行訓(xùn)練，批量大小為256，權(quán)重衰減為4e-5。我們使用0.32的學(xué)習(xí)率和階躍學(xué)習(xí)率衰減[25]。在訓(xùn)練開始時(shí)，學(xué)習(xí)率在前1000個(gè)步驟中從0.0032線性增加到0.32。我們將學(xué)習(xí)率衰減為訓(xùn)練步驟總數(shù)的0.9、0.95和0.975個(gè)分?jǐn)?shù)。我們從一個(gè)ImageNet檢查點(diǎn)初始化我們最大模型的主干，該檢查點(diǎn)通過自我訓(xùn)練[63]預(yù)先訓(xùn)練，以加快訓(xùn)練速度。除非另有說明，所有其他結(jié)果均來自隨機(jī)初始化的模型。此外，除非另有說明，否則我們使用大規(guī)模抖動增強(qiáng)來訓(xùn)練模型。在我們的實(shí)驗(yàn)中，對于所有不同的擴(kuò)充和數(shù)據(jù)集大小，我們允許每個(gè)模型進(jìn)行訓(xùn)練，直到收斂（即驗(yàn)證集性能不再提高）。例如，使用大規(guī)模抖動和復(fù)制粘貼增強(qiáng)從頭開始訓(xùn)練模型需要576個(gè)歷元，而僅使用標(biāo)準(zhǔn)規(guī)模抖動的訓(xùn)練需要96個(gè)歷元。對于自訓(xùn)練實(shí)驗(yàn)，我們將批大小加倍到512，同時(shí)我們保持所有其他超參數(shù)不變，除了我們的最大模型由于內(nèi)存限制而保留256的批大小。

數(shù)據(jù)集。

我們使用COCO數(shù)據(jù)集[40]，它有118k個(gè)訓(xùn)練圖像。對于自訓(xùn)練實(shí)驗(yàn)，我們使用未標(biāo)記的COCO數(shù)據(jù)集（120k圖像）和Objects365數(shù)據(jù)集[48]（610k圖像）作為未標(biāo)記圖像。對于遷移學(xué)習(xí)實(shí)驗(yàn)，我們在COCO數(shù)據(jù)集上預(yù)先訓(xùn)練模型，然后在Pascal VOC數(shù)據(jù)集上進(jìn)行微調(diào)[14]。對于語義分割，我們在PASCAL VOC 2012分割數(shù)據(jù)集的訓(xùn)練集（1.5k圖像）上訓(xùn)練我們的模型。在檢測方面，我們對PASCAL VOC 2007和PASCAL VOC 2012的trainval集進(jìn)行了訓(xùn)練，還對LVIS v1.0（100k訓(xùn)練圖像）上的拷貝粘貼進(jìn)行了基準(zhǔn)測試，并對LVIS v1.0 val（20k圖像）上的結(jié)果進(jìn)行了報(bào)告。LVIS有1203個(gè)類來模擬自然圖像中類的長尾分布。

4.2. 復(fù)制粘貼對訓(xùn)練配置非常健壯

在本節(jié)中，我們將展示復(fù)制粘貼是一種強(qiáng)大的數(shù)據(jù)擴(kuò)充方法，它在各種訓(xùn)練迭代、模型和訓(xùn)練超參數(shù)中都是健壯的。

圖4?復(fù)制粘貼提供了對訓(xùn)練配置魯棒的增益。我們在1024上訓(xùn)練R-CNN（ResNet-50fpn）×1024個(gè)圖像大小，用于不同的時(shí)代數(shù)。左圖：在初始化主干和不初始化主干的情況下復(fù)制粘貼。右圖：復(fù)制粘貼標(biāo)準(zhǔn)和大規(guī)模抖動。在所有配置中，使用復(fù)制粘貼進(jìn)行培訓(xùn)是很有幫助的。

對主干初始化的健壯性。

訓(xùn)練掩碼R-CNN的通常做法是用ImageNet預(yù)先訓(xùn)練的檢查點(diǎn)初始化主干。然而，He等人[25]和Zoph等人[72]表明，通過隨機(jī)初始化訓(xùn)練的模型在較長時(shí)間的訓(xùn)練中具有相似或更好的性能。ImageNet預(yù)訓(xùn)練中的訓(xùn)練模型具有強(qiáng)大的數(shù)據(jù)增強(qiáng)功能（即RandAugment[7]），在COCO上顯示最多1個(gè)AP會影響性能。圖4（左）演示了復(fù)制粘貼在兩種設(shè)置中都是相加的，我們使用復(fù)制粘貼增強(qiáng)和隨機(jī)初始化獲得了最佳結(jié)果。

對培訓(xùn)計(jì)劃的魯棒性。

在文獻(xiàn)中，面罩R-CNN的典型訓(xùn)練計(jì)劃只有24（2）×)? 或36個(gè)時(shí)代（3×) [25, 26, 15]. 然而，最新的研究結(jié)果表明，長時(shí)間的訓(xùn)練有助于在COCO上訓(xùn)練目標(biāo)檢測模型[72，56，11]。圖4顯示，對于典型的培訓(xùn)計(jì)劃2，我們可以從復(fù)制粘貼中獲得收益× 或3× 隨著訓(xùn)練時(shí)間的增加，收益也在增加。這表明，copyplaste是一種非常實(shí)用的數(shù)據(jù)擴(kuò)充，因?yàn)槲覀儾恍枰L的培訓(xùn)時(shí)間來看到它的好處。

復(fù)制粘貼是對大規(guī)模抖動增強(qiáng)的補(bǔ)充。

隨機(jī)尺度抖動（Random scale jittering）是一種強(qiáng)大的數(shù)據(jù)增強(qiáng)技術(shù)，在計(jì)算機(jī)視覺模型訓(xùn)練中得到了廣泛的應(yīng)用。文獻(xiàn)中尺度抖動的標(biāo)準(zhǔn)范圍是0.8到1.25[39，25，6，15]。然而，使用范圍為0.1到2.0[56，11]的更大范圍抖動和更長時(shí)間的訓(xùn)練來增強(qiáng)數(shù)據(jù)可以顯著提高性能（見圖4，右圖）。圖5演示了復(fù)制粘貼對標(biāo)準(zhǔn)和大規(guī)模抖動增強(qiáng)都是附加的，我們在標(biāo)準(zhǔn)規(guī)模抖動的基礎(chǔ)上得到了更高的提升。另一方面，如圖5所示，當(dāng)與大規(guī)模抖動一起使用時(shí)，mixup[65，68]數(shù)據(jù)增強(qiáng)沒有幫助。

圖5?復(fù)制粘貼是對大規(guī)模抖動增強(qiáng)的補(bǔ)充。在標(biāo)準(zhǔn)規(guī)模抖動（左圖）和大規(guī)模抖動（右圖）的基礎(chǔ)上，對混合和復(fù)制粘貼數(shù)據(jù)進(jìn)行了改進(jìn)。所有結(jié)果均來自于訓(xùn)練掩模R-CNN效率ETB7 FPN上的圖像大小為640×640

復(fù)制粘貼可以跨主干體系結(jié)構(gòu)和圖像大小工作。

最后，我們用ResNet50和ResNet-101[27]的標(biāo)準(zhǔn)主干架構(gòu)以及EfficientNet-B7[55]的最新架構(gòu)演示了復(fù)制粘貼幫助模型。我們用這些主干訓(xùn)練模型，圖像大小為640×640, 1024×1024或1280×1280.表1顯示，對于所有模型，我們都比使用大規(guī)模抖動訓(xùn)練的強(qiáng)基線得到了顯著的改進(jìn)。在6個(gè)具有不同主干和圖像大小的模型中，復(fù)制粘貼在大規(guī)模抖動的基礎(chǔ)上平均提高了1.3盒AP和0.8掩模AP。

表1?. 復(fù)制粘貼在各種不同的模型體系結(jié)構(gòu)、模型大小和圖像分辨率上都能很好地工作。

4.3復(fù)制粘貼有助于提高數(shù)據(jù)效率

在本節(jié)中，我們將展示復(fù)制粘貼在各種數(shù)據(jù)集大小上的幫助，并有助于提高數(shù)據(jù)效率。圖5顯示，拷貝粘貼的增加總是有助于椰子的所有部分?？截愓迟N在低數(shù)據(jù)區(qū)（COCO的10%）最有幫助，在SSJ上產(chǎn)生6.9盒AP改進(jìn)，在LSJ上產(chǎn)生4.8盒AP改進(jìn)。另一方面，混音只在低數(shù)據(jù)區(qū)有用。復(fù)制粘貼也大大有助于提高數(shù)據(jù)效率：在75%的COCO上使用復(fù)制粘貼和LSJ訓(xùn)練的模型與在100%的COCO上使用LSJ訓(xùn)練的模型具有相似的AP。

4.4. 復(fù)制粘貼和自我訓(xùn)練是相加的

在本節(jié)中，我們將演示類似于[63，72]的標(biāo)準(zhǔn)自訓(xùn)練方法和復(fù)制粘貼可以結(jié)合在一起，以利用未標(biāo)記的數(shù)據(jù)。復(fù)制粘貼和自我訓(xùn)練分別比48.5箱AP的基線值增加1.5箱AP（見表2）。

表2?復(fù)制粘貼和自我訓(xùn)練是利用額外的未標(biāo)記數(shù)據(jù)的加法。通過自我訓(xùn)練和拷貝粘貼相結(jié)合，使2.9盒AP和2.3掩模AP有了顯著的提高。

為了將自學(xué)習(xí)和復(fù)制粘貼相結(jié)合，我們首先使用一個(gè)經(jīng)過復(fù)制粘貼訓(xùn)練的有監(jiān)督的教師模型來生成未標(biāo)記數(shù)據(jù)的偽標(biāo)簽。接下來我們從COCO中提取地面真值對象，并將它們粘貼到偽標(biāo)記圖像和COCO圖像中。最后，我們在所有這些圖像上訓(xùn)練學(xué)生模型。通過這種設(shè)置，我們實(shí)現(xiàn)了51.4箱AP，比基線提高了2.9 AP。

要粘貼的數(shù)據(jù)。

在我們的自我訓(xùn)練設(shè)置中，一半來自有監(jiān)督的COCO數(shù)據(jù)（120k圖像），另一半來自偽標(biāo)記數(shù)據(jù)（110k圖像來自未標(biāo)記的COCO，610k圖像來自O(shè)bjects365）。表3給出了在訓(xùn)練圖像的不同部分粘貼COCO實(shí)例的結(jié)果。與粘貼到COCO相比，粘貼到偽標(biāo)記數(shù)據(jù)會產(chǎn)生更大的改進(jìn)。由于偽標(biāo)記集中的圖像數(shù)量較大，因此使用變化較大的圖像作為背景有助于復(fù)制粘貼。當(dāng)我們在COCO和偽標(biāo)記圖像上粘貼COCO實(shí)例時(shí)，我們獲得了超過自訓(xùn)練的最大增益（+1.4 box AP和+1.0 mask AP）。

表3.將地面真值COCO對象粘貼到COCO和偽標(biāo)記數(shù)據(jù)中，與單獨(dú)粘貼兩者相比，可以獲得更高的收益。

要從中復(fù)制的數(shù)據(jù)。

我們還探索了另一種使用復(fù)制粘貼的方法，通過將未標(biāo)記數(shù)據(jù)集中的偽標(biāo)記對象直接粘貼到COCO標(biāo)記數(shù)據(jù)集中來合并額外的數(shù)據(jù)。不幸的是，與粘貼COCO地面真實(shí)物體相比，這個(gè)設(shè)置沒有顯示出額外的AP改進(jìn)。

4.5. 復(fù)制粘貼提高可可國家的最新水平

接下來我們研究復(fù)制粘貼是否可以改進(jìn)COCO上最先進(jìn)的實(shí)例分割方法。表4顯示了在一個(gè)強(qiáng)大的54.8盒AP COCO模型上應(yīng)用復(fù)制粘貼的結(jié)果。此表旨在作為最先進(jìn)性能的參考。3為了進(jìn)行嚴(yán)格的比較，我們注意到模型需要使用相同的代碼庫、訓(xùn)練數(shù)據(jù)和訓(xùn)練設(shè)置進(jìn)行評估，如學(xué)習(xí)率計(jì)劃、權(quán)重衰減、數(shù)據(jù)預(yù)處理和增強(qiáng)、參數(shù)和失敗控制，體系結(jié)構(gòu)正則化[59]、訓(xùn)練和推理速度等。該表的目標(biāo)是顯示復(fù)制粘貼增強(qiáng)的好處及其自我訓(xùn)練的附加增益。我們的基線模型是一個(gè)級聯(lián)掩碼RCNN，具有高效的ET-B7主干和NAS-FPN。我們觀察到使用拷貝粘貼時(shí)+1.2盒AP和+0.5掩模AP的改善。結(jié)合使用未標(biāo)記COCO和未標(biāo)記Objects365[48]進(jìn)行偽標(biāo)記的自我訓(xùn)練，我們看到2.5 box AP和2.2 mask AP的進(jìn)一步改進(jìn)，在COCO test dev上獲得了57.3 box AP和49.1 mask AP的強(qiáng)大性能，而沒有增加測試時(shí)間和模型集成。

4.6. 復(fù)制粘貼為PASCAL檢測和分割生成更好的表示

前面我們已經(jīng)演示了簡單的拷貝粘貼增強(qiáng)在實(shí)例分割上提供的改進(jìn)的性能。在這一節(jié)中，我們研究了用COCO上的拷貝粘貼訓(xùn)練的預(yù)先訓(xùn)練的實(shí)例分割模型的遷移學(xué)習(xí)性能。我們在pascalvoc2007數(shù)據(jù)集上進(jìn)行遷移學(xué)習(xí)實(shí)驗(yàn)。表5顯示了在PASCAL檢測中，學(xué)習(xí)的復(fù)制粘貼模型與基線模型相比是如何傳遞的。表6給出了PASCAL語義切分的遷移學(xué)習(xí)結(jié)果。在PASCAL檢測和PASCAL語義切分兩方面，我們發(fā)現(xiàn)用拷貝粘貼轉(zhuǎn)移訓(xùn)練的模型比基線模型更適合微調(diào)。

4.7. 復(fù)制粘貼在LVIS上提供了強(qiáng)大的收益

我們對LVIS數(shù)據(jù)集的Copy-Paste進(jìn)行基準(zhǔn)測試，以了解它在具有1203個(gè)類的長尾分布的數(shù)據(jù)集上的性能。LVIS基準(zhǔn)通常使用兩種不同的訓(xùn)練范式：（1）單階段，直接在LVIS數(shù)據(jù)集上訓(xùn)練檢測器；（2）兩階段，第一階段的模型通過類重新平衡損失進(jìn)行微調(diào)，以幫助處理類不平衡。

復(fù)制粘貼改善單階段LVIS訓(xùn)練。

單階段訓(xùn)練模式與COCO上的copyplaste設(shè)置非常相似。除了標(biāo)準(zhǔn)的培訓(xùn)設(shè)置外，還使用了一些方法來處理LVIS上的班級不平衡問題。一種常用的方法是從[21]中重復(fù)因子抽樣（RFS），t=0.001。該方法通過對含有稀有類的圖像進(jìn)行過采樣來解決LVIS上的大類不平衡問題。表8顯示了在強(qiáng)單階段LVIS基線上應(yīng)用復(fù)制粘貼的結(jié)果。我們使用EfficientNet-B7 FPN和640×640輸入大小，使用256批大小隨機(jī)初始化180k步，從頭開始訓(xùn)練模型。正如[21]所建議的，我們將每幅圖像的檢測次數(shù)增加到300次，并將分?jǐn)?shù)閾值降低到0。我們觀察到，復(fù)制粘貼增強(qiáng)在AP、APc和APf上優(yōu)于RFS，但在APr（稀有類的AP）上性能較差。最好的整體效果來自于結(jié)合RFS和拷貝粘貼增強(qiáng)，實(shí)現(xiàn)了+2.4ap和+8.7apr的提升。復(fù)制粘貼改善兩階段LVIS訓(xùn)練。

兩階段訓(xùn)練被廣泛采用來解決數(shù)據(jù)不平衡問題，并在LVIS上獲得良好的性能[37，45，54]。我們的目的是研究復(fù)制粘貼在這兩個(gè)階段的設(shè)置效果。我們的兩階段訓(xùn)練如下：首先我們用標(biāo)準(zhǔn)的訓(xùn)練技術(shù)訓(xùn)練目標(biāo)檢測器（即與我們的單階段訓(xùn)練相同），然后我們使用類平衡損失對第一階段訓(xùn)練的模型進(jìn)行微調(diào)[8]。類的權(quán)重由（1）計(jì)算? β)/(1? β n），其中n是類的實(shí)例數(shù)β = 0.999. 4在第二階段微調(diào)中，我們用3× 計(jì)劃并僅使用分類損失更新Mask R-CNN中的最終分類層。從表9中的mask AP結(jié)果中，我們可以看到使用Copy-Paste訓(xùn)練的模型對于低炮類學(xué)習(xí)更好的特性（APr為+2.3，APc為+2.6）。有趣的是，我們發(fā)現(xiàn)RFS在單階段訓(xùn)練中是非常有用的，而且在兩階段訓(xùn)練中，RFS與Copy-Paste是相加的。這一發(fā)現(xiàn)的一個(gè)可能解釋是，使用RFS學(xué)習(xí)的特征比使用原始LVIS數(shù)據(jù)集學(xué)習(xí)的特征更差。我們留下了一個(gè)更詳細(xì)的調(diào)查之間的權(quán)衡RFS和數(shù)據(jù)增強(qiáng)在兩個(gè)階段的培訓(xùn)，為今后的工作。

與最新技術(shù)的比較。

此外，我們將我們的兩階段模型與表7中LVIS5的最新方法進(jìn)行了比較。令人驚訝的是，我們最小的模型ResNet50 FPN，經(jīng)過復(fù)制粘貼訓(xùn)練，其性能優(yōu)于ResNeXt-101-32的強(qiáng)基線cRT[33]×8d主干。

使用復(fù)制粘貼訓(xùn)練的EfficientNetB7 NAS-FPN模型（不含級聯(lián)6）在整體掩模AP和無測試時(shí)間增加的盒AP上與LVIS challenge 2020優(yōu)勝者的結(jié)果相當(dāng)。此外，它實(shí)現(xiàn)了32.1面具4月為罕見的類別超過了3.6面具4月的LVIS挑戰(zhàn)獲勝條目。

5.結(jié)論

數(shù)據(jù)增強(qiáng)是許多視覺系統(tǒng)的核心。本文對復(fù)制粘貼數(shù)據(jù)增強(qiáng)方法進(jìn)行了深入的研究，發(fā)現(xiàn)該方法具有很強(qiáng)的魯棒性和有效性。Copy-Paste在多個(gè)實(shí)驗(yàn)設(shè)置中表現(xiàn)良好，并且在COCO和LVIS實(shí)例分割基準(zhǔn)上提供了強(qiáng)大基線之上的顯著改進(jìn)。復(fù)制粘貼增強(qiáng)策略簡單，易于插入任何實(shí)例分割代碼庫，且不增加訓(xùn)練成本和推理時(shí)間。我們還表明，復(fù)制粘貼是有用的，納入額外的未標(biāo)記的圖像在訓(xùn)練過程中，是加上成功的自我訓(xùn)練技術(shù)。我們希望，令人信服的經(jīng)驗(yàn)證據(jù)，其好處，使復(fù)制粘貼增強(qiáng)的標(biāo)準(zhǔn)增強(qiáng)程序時(shí)，訓(xùn)練實(shí)例分割模型。

A.復(fù)制粘貼法

在本節(jié)中，我們將介紹復(fù)制粘貼方法的燒蝕。我們采用掩模R-CNN高效ETB7 FPN結(jié)構(gòu)，圖像尺寸為640×我們的實(shí)驗(yàn)需要640美元。

粘貼對象的子集。

在我們的方法中，我們將對象的隨機(jī)子集從一個(gè)圖像粘貼到另一個(gè)圖像上。表10顯示，雖然我們只將一個(gè)隨機(jī)對象或一幅圖像的所有對象粘貼到另一幅圖像中得到了改進(jìn)，但通過粘貼對象的隨機(jī)子集，我們得到了最好的改進(jìn)。這表明粘貼對象子集所引入的隨機(jī)性是有幫助的。

混合。

在我們的實(shí)驗(yàn)中，我們使用alpha混合平滑粘貼對象的邊緣（見第3節(jié)）。表10表明，這不是一個(gè)重要的步驟，我們在沒有任何混合的情況下得到相同的結(jié)果，而[13]發(fā)現(xiàn)混合對于強(qiáng)大的性能至關(guān)重要。

縮放抖動。

在這項(xiàng)工作中，我們展示了通過結(jié)合大規(guī)模抖動和復(fù)制粘貼，我們比標(biāo)準(zhǔn)規(guī)模抖動的基線得到了顯著的改進(jìn)（圖1）。在復(fù)制粘貼方法中，我們對粘貼的圖像（粘貼對象從中復(fù)制的圖像）和主圖像應(yīng)用獨(dú)立的隨機(jī)比例抖動。在表11中，我們研究了主圖像和粘貼圖像上大尺度抖動的重要性。從表11可以看出，大尺度抖動帶來的大部分改進(jìn)來自于對主圖像的應(yīng)用，而增加粘貼圖像的尺度抖動范圍只得到了輕微的改進(jìn)（0.3框AP和0.2掩模AP）

B.復(fù)制粘貼提供了更困難的椰子類增益

圖6顯示了在COCO數(shù)據(jù)集上應(yīng)用復(fù)制粘貼獲得的每個(gè)類別的相對AP增益。CopyPaste提高了除吹風(fēng)機(jī)以外所有課程的AP。在圖6中，類是基于每個(gè)類別的基線AP進(jìn)行排序的?？梢钥吹?，大多數(shù)改進(jìn)最大的類都在左側(cè)（較低的基線AP），這表明復(fù)制粘貼對最難的類幫助最大。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡書系信息發(fā)布平臺，僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

用PowerBI將制作數(shù)據(jù)報(bào)告變成復(fù)制粘貼的簡單工作
一、需求需要將接近20個(gè)excel和csv文件的數(shù)據(jù)進(jìn)行分析并生成圖表，然后復(fù)制到word中，再根據(jù)圖表信息改寫...
PowerQuery閱讀 5,058評論 3贊 6
DE01復(fù)制粘貼玩大數(shù)據(jù)系列教程說明
0x00 教程簡介本系列課是一套只需要復(fù)制粘貼就能玩起大數(shù)據(jù)的教程，甚至不需要思考就能獨(dú)立完成項(xiàng)目。 0x01 ...
邵奈一閱讀 468評論 0贊 0

DE01.1復(fù)制粘貼玩大數(shù)據(jù)系列教程之詳細(xì)說明
0x00 文章內(nèi)容標(biāo)題說明教程... 0x01 標(biāo)題說明 1.D001復(fù)制粘貼玩大數(shù)據(jù)之?dāng)?shù)據(jù)可視化 D：大數(shù)據(jù)...
邵奈一閱讀 479評論 0贊 0
送你一個(gè)晚安故事
我是黑夜里大雨紛飛的人啊 1 “又到一年六月，有人笑有人哭，有人歡樂有人憂愁，有人驚喜有人失落，有的覺得收獲滿滿有...
陌忘宇閱讀 8,835評論 28贊 54
信任重要性
信任包括信任自己和信任他人很多時(shí)候，很多事情，失敗、遺憾、錯過，源于不自信，不信任他人覺得自己做不成，別人做不...
吳氵晃閱讀 6,365評論 4贊 8

友情鏈接更多精彩內(nèi)容

1贊2贊

贊賞

手機(jī)看全文

武平县| 台东县| 文水县| 天峻县| 长阳| 屯门区| 丘北县| 鹤山市| 万盛区| 五莲县| 东丰县| 晋宁县| 固安县| 威远县| 台南县| 永顺县| 疏附县| 托克托县| 通化县| 邳州市| 定远县| 金堂县| 梁平县| 桃江县| 南阳市| 闽侯县| 视频| 黔江区| 玉龙| 集安市| 澄迈县| 武宁县| 馆陶县| 胶州市| 错那县| 广宗县| 巴塘县| 句容市| 彰武县| 天镇县| 黄骅市|

<bdo id="q4i4i"></bdo>

<fieldset id="q4i4i"><tr id="q4i4i"></tr></fieldset>

<bdo id="q4i4i"><object id="q4i4i"></object></bdo>

<kbd id="q4i4i"><tr id="q4i4i"></tr></kbd>