本文主要在論文《A survey on?Image Data Augmentation for?Deep Learning》基礎(chǔ)上做提煉和總結(jié)。
論文地址:https://link.springer.com/article/10.1186/s40537-019-0197-0
數(shù)據(jù)增強(qiáng)主要是為了應(yīng)對訓(xùn)練集欠缺的情況,通過提升現(xiàn)有數(shù)據(jù)的數(shù)量和質(zhì)量以訓(xùn)練更好的網(wǎng)絡(luò)。主要的數(shù)據(jù)增強(qiáng)方法有:geometric transformations(幾何變換), color space augmentations(色彩空間增強(qiáng)),kernel flters(內(nèi)核過濾器),mixing images(圖像混合),random erasing(隨即擦除),feature space augmentation(特征空間增強(qiáng)),adversarial training(對抗訓(xùn)練),generative adversarial networks(生成對抗網(wǎng)絡(luò)),neural style transfer(神經(jīng)風(fēng)格遷移)和 meta-learning(元學(xué)習(xí))。這些方法大致可以分為基于圖像處理和基于深度學(xué)習(xí)兩個方向,以下簡要總結(jié)基于圖像處理的數(shù)據(jù)增強(qiáng)方法:
geometric transformations幾何變換
下面討論的增強(qiáng)方法特點是易于實施,同時還討論了每種方法的“安全性”問題。數(shù)據(jù)增強(qiáng)方法的安全性是指其在轉(zhuǎn)換后保留標(biāo)簽的可能性。
1、flipping翻轉(zhuǎn)
一般都是水平方向翻轉(zhuǎn)而少用垂直方向,即鏡像變換。圖像數(shù)據(jù)集上證實有用(CIFAR-10,ImageNet等),但無法應(yīng)用在文本識別數(shù)據(jù)集(MNIST,SVHN等)
2、color space色彩空間
簡單做法是隔離單個色彩通道,例如R,G或B,此外可以通過簡單的矩陣運算以增加或減少圖像的亮度。更高級的做法從顏色直方圖著手,更改這些直方圖中的強(qiáng)度值(想到了圖像處理中的直方圖均衡)。
3、cropping裁剪
分統(tǒng)一裁剪和隨機(jī)裁剪。統(tǒng)一裁剪將不同尺寸的圖像裁剪至設(shè)定大小,隨機(jī)裁剪類似translation,不同之處在于translation保留原圖尺寸而裁剪會降低尺寸。裁剪要注意不要丟失重要信息以至于改變圖像標(biāo)簽。
4、rotation旋轉(zhuǎn)
要注意旋轉(zhuǎn)度數(shù)。以MNIST為例,輕微旋轉(zhuǎn)(例如1°-20°)可能有用,再往后增加時數(shù)據(jù)標(biāo)簽可能不再保留。
5、translation位置變換(個人理解)
向左,向右,向上或向下移動圖像可能是非常有用的轉(zhuǎn)換,以避免數(shù)據(jù)中的位置偏差。例如人臉識別數(shù)據(jù)集中人臉基本位于圖像正中,位置變換可以增強(qiáng)模型泛化能力。
6、noise injection添加噪聲
添加高斯分布的隨機(jī)矩陣
7、color space transformations色彩空間增強(qiáng)
照明偏差是圖像識別問題中最常見的挑戰(zhàn)之一,因此色彩空間轉(zhuǎn)換(也稱為光度轉(zhuǎn)換)的比較直觀有效。
①遍歷圖像以恒定值減少或增加像素值(過亮或過暗)
②拼接出(splice out)各個RGB顏色矩陣
③將像素值限制為某個最小值或最大值
④操作色彩直方圖以改變圖像色彩空間特征
注意將彩色圖轉(zhuǎn)換黑白雖然簡化了這些操作,但精度會降低
geometric versus photometric transformations幾何與光度轉(zhuǎn)換
1、kernel flters內(nèi)核過濾器
平滑和銳化,即圖像處理中用卷積核滑過整幅圖像的操作。這一點尚未開發(fā),它和CNN中卷積機(jī)制非常相似(就一樣?。虼丝梢酝ㄟ^調(diào)整網(wǎng)絡(luò)參數(shù)更好地改善網(wǎng)絡(luò),而不需要額外進(jìn)行這樣的數(shù)據(jù)增強(qiáng)操作。
2、mixing images圖像混合
做法是通過平均圖像像素值將圖像混合在一起:

研究發(fā)現(xiàn)是當(dāng)混合來自整個訓(xùn)練集的圖像而不是僅來自同一類別的實例的圖像時,可以獲得更好的結(jié)果。其它一些做法:
①一種非線性方法將圖像組合成新的訓(xùn)練實例:

②另一方法是隨機(jī)裁剪圖像并將裁剪后的圖像連接在一起以形成新圖像:

這類方法從人的視角看毫無意義,但確實提升了精度??赡芙忉屖菙?shù)據(jù)集大小的增加導(dǎo)致了諸如線和邊之類的低級特征的更可靠表示。
3、random erasing隨機(jī)擦除
這一點受到dropout正規(guī)化的啟發(fā),隨機(jī)擦除迫使模型學(xué)習(xí)有關(guān)圖像的更多描述性特征,從而防止過擬合某個特定視覺特征。隨機(jī)擦除的好處在于可以確保網(wǎng)絡(luò)關(guān)注整個圖像,而不只是其中的一部分。最后隨機(jī)擦除的一個缺點是不一定會保留標(biāo)簽(例如文本8->6)。
