摘要
? 深度學(xué)習(xí)為了獲得較好效果需要大量的訓(xùn)練數(shù)據(jù),并且需要對這些數(shù)據(jù)進(jìn)行人工標(biāo)注。收集標(biāo)注數(shù)據(jù)的過程費(fèi)時(shí)費(fèi)力,因此,使用合成圖片訓(xùn)練網(wǎng)絡(luò)越發(fā)吸引關(guān)注。本文提出了一個(gè)使用合成數(shù)據(jù)訓(xùn)練目標(biāo)檢測網(wǎng)絡(luò)的簡單有效的方法:在真實(shí)圖片上預(yù)訓(xùn)練好的通用網(wǎng)絡(luò),固定其前幾層,然后使用OpenGL渲染合成的圖片訓(xùn)練優(yōu)化后續(xù)層的參數(shù)。文章在幾個(gè)經(jīng)典的網(wǎng)絡(luò)(Faster-RCNN, Mask-RCNN, InceptionResnet, ResNet)上做了測試,均取得了更好的效果
介紹
? 對于目標(biāo)檢測一類問題來說,使用合成圖片訓(xùn)練網(wǎng)絡(luò)是十分吸引人的。但是在合成數(shù)據(jù)和真實(shí)數(shù)據(jù)之間的分布差異--'domain gap' .在合成圖片上訓(xùn)練的網(wǎng)絡(luò)直接用于真實(shí)圖片上性能不盡人意。目前主流的解決方法有:
- 使用合成圖片和真實(shí)圖片混合訓(xùn)練網(wǎng)絡(luò),這種方法能在一定程度上改善網(wǎng)絡(luò)性能,但仍然需要真實(shí)的標(biāo)注數(shù)據(jù)
- 遷移學(xué)習(xí)
- Photo-Realistic Graphics
- 域隨機(jī)化(domain randomiztion) 生成隨機(jī)域的數(shù)據(jù),例如隨機(jī)光照、紋理、位置、材質(zhì)等變化來迫使網(wǎng)絡(luò)智能學(xué)習(xí)到目標(biāo)的本質(zhì)特征信息,規(guī)避噪聲信息,從而提高泛化能力
- GAN 生成真實(shí)場景圖片
關(guān)鍵
? 在真實(shí)圖片上預(yù)訓(xùn)練的特征提取器已經(jīng)能夠做到提取一個(gè)圖片上的所有特征信息,不需要用更多的數(shù)據(jù)去訓(xùn)練它了。當(dāng)輸入一張合成圖片時(shí),預(yù)訓(xùn)練的特征提取器能夠看作一個(gè)投影器(Projector),輸出和真實(shí)圖片相似的特征信息。
? 因此將預(yù)訓(xùn)練網(wǎng)絡(luò)的前幾層凍結(jié)(freeze),用合成圖片訓(xùn)練后續(xù)部分,優(yōu)化參數(shù),能夠得到更好的效果。