深度學(xué)習(xí)數(shù)據(jù)增強(qiáng)概括一

本文主要在論文《A survey on?Image Data Augmentation for?Deep Learning》基礎(chǔ)上做提煉和總結(jié)。

論文地址:https://link.springer.com/article/10.1186/s40537-019-0197-0

數(shù)據(jù)增強(qiáng)主要是為了應(yīng)對訓(xùn)練集欠缺的情況,通過提升現(xiàn)有數(shù)據(jù)的數(shù)量和質(zhì)量以訓(xùn)練更好的網(wǎng)絡(luò)。主要的數(shù)據(jù)增強(qiáng)方法有:geometric transformations(幾何變換), color space augmentations(色彩空間增強(qiáng)),kernel flters(內(nèi)核過濾器),mixing images(圖像混合),random erasing(隨即擦除),feature space augmentation(特征空間增強(qiáng)),adversarial training(對抗訓(xùn)練),generative adversarial networks(生成對抗網(wǎng)絡(luò)),neural style transfer(神經(jīng)風(fēng)格遷移)和 meta-learning(元學(xué)習(xí))。這些方法大致可以分為基于圖像處理和基于深度學(xué)習(xí)兩個方向,以下簡要總結(jié)基于圖像處理的數(shù)據(jù)增強(qiáng)方法:

geometric transformations幾何變換

下面討論的增強(qiáng)方法特點是易于實施,同時還討論了每種方法的“安全性”問題。數(shù)據(jù)增強(qiáng)方法的安全性是指其在轉(zhuǎn)換后保留標(biāo)簽的可能性。

1、flipping翻轉(zhuǎn)

一般都是水平方向翻轉(zhuǎn)而少用垂直方向,即鏡像變換。圖像數(shù)據(jù)集上證實有用(CIFAR-10,ImageNet等),但無法應(yīng)用在文本識別數(shù)據(jù)集(MNIST,SVHN等)

2、color space色彩空間

簡單做法是隔離單個色彩通道,例如R,G或B,此外可以通過簡單的矩陣運算以增加或減少圖像的亮度。更高級的做法從顏色直方圖著手,更改這些直方圖中的強(qiáng)度值(想到了圖像處理中的直方圖均衡)。

3、cropping裁剪

分統(tǒng)一裁剪和隨機(jī)裁剪。統(tǒng)一裁剪將不同尺寸的圖像裁剪至設(shè)定大小,隨機(jī)裁剪類似translation,不同之處在于translation保留原圖尺寸而裁剪會降低尺寸。裁剪要注意不要丟失重要信息以至于改變圖像標(biāo)簽。

4、rotation旋轉(zhuǎn)

要注意旋轉(zhuǎn)度數(shù)。以MNIST為例,輕微旋轉(zhuǎn)(例如1°-20°)可能有用,再往后增加時數(shù)據(jù)標(biāo)簽可能不再保留。

5、translation位置變換(個人理解)

向左,向右,向上或向下移動圖像可能是非常有用的轉(zhuǎn)換,以避免數(shù)據(jù)中的位置偏差。例如人臉識別數(shù)據(jù)集中人臉基本位于圖像正中,位置變換可以增強(qiáng)模型泛化能力。

6、noise injection添加噪聲

添加高斯分布的隨機(jī)矩陣

7、color space transformations色彩空間增強(qiáng)

照明偏差是圖像識別問題中最常見的挑戰(zhàn)之一,因此色彩空間轉(zhuǎn)換(也稱為光度轉(zhuǎn)換)的比較直觀有效。

①遍歷圖像以恒定值減少或增加像素值(過亮或過暗)

②拼接出(splice out)各個RGB顏色矩陣

③將像素值限制為某個最小值或最大值

④操作色彩直方圖以改變圖像色彩空間特征

注意將彩色圖轉(zhuǎn)換黑白雖然簡化了這些操作,但精度會降低

geometric versus photometric transformations幾何與光度轉(zhuǎn)換

1、kernel flters內(nèi)核過濾器

平滑和銳化,即圖像處理中用卷積核滑過整幅圖像的操作。這一點尚未開發(fā),它和CNN中卷積機(jī)制非常相似(就一樣?。虼丝梢酝ㄟ^調(diào)整網(wǎng)絡(luò)參數(shù)更好地改善網(wǎng)絡(luò),而不需要額外進(jìn)行這樣的數(shù)據(jù)增強(qiáng)操作。

2、mixing images圖像混合

做法是通過平均圖像像素值將圖像混合在一起:

mixing images

研究發(fā)現(xiàn)是當(dāng)混合來自整個訓(xùn)練集的圖像而不是僅來自同一類別的實例的圖像時,可以獲得更好的結(jié)果。其它一些做法:

①一種非線性方法將圖像組合成新的訓(xùn)練實例:

非線性方法

②另一方法是隨機(jī)裁剪圖像并將裁剪后的圖像連接在一起以形成新圖像:

隨機(jī)裁剪再拼接

這類方法從人的視角看毫無意義,但確實提升了精度??赡芙忉屖菙?shù)據(jù)集大小的增加導(dǎo)致了諸如線和邊之類的低級特征的更可靠表示。

3、random erasing隨機(jī)擦除

這一點受到dropout正規(guī)化的啟發(fā),隨機(jī)擦除迫使模型學(xué)習(xí)有關(guān)圖像的更多描述性特征,從而防止過擬合某個特定視覺特征。隨機(jī)擦除的好處在于可以確保網(wǎng)絡(luò)關(guān)注整個圖像,而不只是其中的一部分。最后隨機(jī)擦除的一個缺點是不一定會保留標(biāo)簽(例如文本8->6)。

random erasing
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容