關(guān)于圖像

近期看的GAN在圖像處理的應(yīng)用
-paper1:Image-to-Image Translation with Conditional Adversarial Networks
-paper2:STGAN 待補(bǔ)充

paper1:Pix2Pix

提出了基于CGAN的 map pixels to pixels 通用框架。

Objective

  • An Unconditional GAN (Discriminator does not observe x)


  • A Conditional GAN



    本文CGAN結(jié)構(gòu)
  • 修改:加入L_1約束得到帶正則項(xiàng)帶目標(biāo)函數(shù)
    選擇L_1約束而非L_2約束的原因可以參考http://cs231n.github.io/neural-networks-2/
    L_2正則p偏向于懲罰大數(shù)值權(quán)重向量從而分散權(quán)重向量。input和weight之間大乘法操作使得網(wǎng)絡(luò)更傾向于使用所有輸入特征,而不是嚴(yán)重依賴輸入特征中某些小部分特征。
    L_1正則與L_2相反,會讓權(quán)重向量在最優(yōu)化的過程中變得稀疏(即非常接近0)。網(wǎng)絡(luò)更傾向于選擇最重要的輸入數(shù)據(jù)的稀疏子集。
    選擇上看你的需求,如果不是特別關(guān)注某些明確的特征選擇,一般說來L_2正則化都會比L_1正則化效果好。本文顯然L_1更適合。

Network architectures

  • Generator with skips

    在Image-to-Image Translation的大多任務(wù)中,圖像的底層特征同樣重要,所以利用U-net代替encoder-decoder.
  • Markovian discriminator (PatchGAN)

This discriminator tries to classify if each N ×N patch in an image is real or fake. We run this discriminator convolutionally across the image, averaging all responses to provide the ultimate output of D.

PatchGAN的概念從上段原文的看,其實(shí)就是一個(gè)convnet。一般GAN只需要輸出一個(gè)true or fasle 的矢量;PatchGAN輸出的是一個(gè)N x N的矩陣,矩陣中每個(gè)元素都代表著在既定的感受野上的一個(gè)判斷。

Experiments

實(shí)驗(yàn)部分沒有細(xì)看,但是它的Evaluation metrics(Evaluating the quality of synthesized images)值得我借鑒:
1. AMT,一種人工評測平臺,在amazon上。
2. FCN-8,使用預(yù)訓(xùn)練好的語義分類器來判斷圖片的可區(qū)分度,這是一種不直接的衡量方式。

總結(jié)論文主要工作

  1. 目標(biāo)函數(shù)中加入L1約束,保證輸入輸出一致性
  2. 在生成器中,用U-net結(jié)構(gòu)代替encoder-decoder,skip-connection來共享更多的信息
  3. 使用PatchGAN作為Discriminator
  4. input為圖像,pairwise保證映射

思考??

看完這篇文章一直不能理解為什么作者說他提出了一種生成特定場景圖像的通用框架,后來看了其它博客的分析明白了:普通GAN損失函數(shù)只關(guān)注生成的圖像是否真實(shí),絲毫不管是否對應(yīng)。所以訓(xùn)練時(shí)間長了以后會導(dǎo)致只輸出一個(gè)圖像(mode collapse)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容