近期看的GAN在圖像處理的應(yīng)用
-paper1:Image-to-Image Translation with Conditional Adversarial Networks
-paper2:STGAN 待補(bǔ)充
paper1:Pix2Pix
提出了基于CGAN的 map pixels to pixels 通用框架。
Objective
-
An Unconditional GAN (Discriminator does not observe x)
-
A Conditional GAN
本文CGAN結(jié)構(gòu) - 修改:加入
約束得到帶正則項(xiàng)帶目標(biāo)函數(shù)
選擇約束而非
約束的原因可以參考http://cs231n.github.io/neural-networks-2/
正則p偏向于懲罰大數(shù)值權(quán)重向量從而分散權(quán)重向量。input和weight之間大乘法操作使得網(wǎng)絡(luò)更傾向于使用所有輸入特征,而不是嚴(yán)重依賴輸入特征中某些小部分特征。
正則與
相反,會讓權(quán)重向量在最優(yōu)化的過程中變得稀疏(即非常接近0)。網(wǎng)絡(luò)更傾向于選擇最重要的輸入數(shù)據(jù)的稀疏子集。
選擇上看你的需求,如果不是特別關(guān)注某些明確的特征選擇,一般說來正則化都會比
正則化效果好。本文顯然
更適合。
Network architectures
-
Generator with skips
在Image-to-Image Translation的大多任務(wù)中,圖像的底層特征同樣重要,所以利用U-net代替encoder-decoder.
- Markovian discriminator (PatchGAN)
This discriminator tries to classify if each N ×N patch in an image is real or fake. We run this discriminator convolutionally across the image, averaging all responses to provide the ultimate output of D.
PatchGAN的概念從上段原文的看,其實(shí)就是一個(gè)convnet。一般GAN只需要輸出一個(gè)true or fasle 的矢量;PatchGAN輸出的是一個(gè)N x N的矩陣,矩陣中每個(gè)元素都代表著在既定的感受野上的一個(gè)判斷。
Experiments
實(shí)驗(yàn)部分沒有細(xì)看,但是它的Evaluation metrics(Evaluating the quality of synthesized images)值得我借鑒:
1. AMT,一種人工評測平臺,在amazon上。
2. FCN-8,使用預(yù)訓(xùn)練好的語義分類器來判斷圖片的可區(qū)分度,這是一種不直接的衡量方式。
總結(jié)論文主要工作
- 目標(biāo)函數(shù)中加入L1約束,保證輸入輸出一致性
- 在生成器中,用U-net結(jié)構(gòu)代替encoder-decoder,skip-connection來共享更多的信息
- 使用PatchGAN作為Discriminator
- input為圖像,pairwise保證映射
思考??
看完這篇文章一直不能理解為什么作者說他提出了一種生成特定場景圖像的通用框架,后來看了其它博客的分析明白了:普通GAN損失函數(shù)只關(guān)注生成的圖像是否真實(shí),絲毫不管是否對應(yīng)。所以訓(xùn)練時(shí)間長了以后會導(dǎo)致只輸出一個(gè)圖像(mode collapse)。





