GAN
由Goodfellow等人于2014年引入的生成對抗網(wǎng)絡(luò)(GAN)是用于學(xué)習(xí)圖像潛在空間的VAE的替代方案。它們通過強(qiáng)制生成的圖像在統(tǒng)計上幾乎與真實圖像幾乎無法區(qū)分,從而能夠生成相當(dāng)逼真的合成圖像。
理解GAN的直觀方式是想象一個偽造者試圖創(chuàng)造一幅偽造的畢加索作品。起初,偽造者的任務(wù)非常糟糕。他將他的一些假貨與真正的畢加索混合在一起,并將它們?nèi)空故窘o藝術(shù)品經(jīng)銷商。藝術(shù)品經(jīng)銷商對每幅畫進(jìn)行真實性評估,并給出關(guān)于畢加索看起來像畢加索的原因的偽造反饋。偽造者回到他的工作室準(zhǔn)備一些新的假貨。隨著時間的推移,偽造者越來越有能力模仿畢加索的風(fēng)格,藝術(shù)品經(jīng)銷商越來越專業(yè)地發(fā)現(xiàn)假貨。最后,他們手上拿著一些優(yōu)秀的假畢加索。
這就是GAN的意義:偽造網(wǎng)絡(luò)和專家網(wǎng)絡(luò),每個網(wǎng)絡(luò)都經(jīng)過最好的培訓(xùn)。因此,GAN由兩部分組成:
- 生成網(wǎng)絡(luò)(generator): 將隨機(jī)向量(潛在空間中的隨機(jī)點)作為輸入,并將其解碼為合成圖像;
- 辨別網(wǎng)絡(luò)(discriminator): 將圖像(真實的或合成的)作為輸入,并預(yù)測圖像是來自訓(xùn)練集還是由生成器網(wǎng)絡(luò)創(chuàng)建。
生成器網(wǎng)絡(luò)經(jīng)過訓(xùn)練,能夠欺騙鑒別器網(wǎng)絡(luò),因此隨著訓(xùn)練的進(jìn)行,它逐漸產(chǎn)生越來越逼真的圖像:人工圖像看起來與真實圖像無法區(qū)分,只要鑒別器網(wǎng)絡(luò)不可能鑒別兩張圖片。同時,鑒別器不斷適應(yīng)發(fā)生器逐漸改進(jìn)的能力,為生成的圖像設(shè)置了高度的真實感。一旦訓(xùn)練結(jié)束,生成器就能夠?qū)⑵漭斎肟臻g中的任何點轉(zhuǎn)換為可信的圖像。與VAE不同,這個潛在空間對有意義結(jié)構(gòu)的明確保證較少;特別是,它不是連續(xù)的。
[圖片上傳失敗...(image-599f61-1536326082049)]
值得注意的是,GAN是一個優(yōu)化最小值不固定的系統(tǒng)。通常,梯度下降包括在靜態(tài)損失中滾下山丘。但是使用GAN,從山上下來的每一步都會改變整個景觀。這是一個動態(tài)系統(tǒng),其中優(yōu)化過程尋求的不是最小,而是兩個力之間的平衡。出于這個原因,GAN是眾所周知的難以訓(xùn)練 - 讓GAN工作需要大量仔細(xì)調(diào)整模型架構(gòu)和訓(xùn)練參數(shù)。
GAN實現(xiàn)示意圖
使用keras實現(xiàn)一個簡單的GAN網(wǎng)絡(luò):DCGAN,Generator和Discriminator都是由卷積網(wǎng)絡(luò)組成。使用Conv2DTranspose網(wǎng)絡(luò)層在Generator用來對圖片上采樣。
在CIFAR10,50000張32x32 RGB圖片數(shù)據(jù)集上訓(xùn)練。為了訓(xùn)練更容易,僅使用“青蛙"類圖片。
實現(xiàn)GAN網(wǎng)絡(luò)流程:
- generator網(wǎng)絡(luò)將(latent_dim, )向量轉(zhuǎn)換成(32,32,3)圖片;
- discriminator將(32,32,3)圖片映射到2分類得分上,得到圖片為真的概率;
- gan網(wǎng)絡(luò)將generator和discriminator結(jié)合起來:gan(x) = discriminator(generator(x))。gan網(wǎng)絡(luò)將隱空間向量映射到鑒別器鑒別generator由隱空間向量生成圖片為真的概率上;
- 使用帶real/fake標(biāo)簽的real、fake圖片對Discriminator訓(xùn)練;
- 要訓(xùn)練Generator,可以使用gan模型損失對Generator權(quán)重的梯度。這意味著,在每個步驟中,將生成器的權(quán)重移動到使鑒別器更可能將生成器解碼的圖像歸類為“真實”的方向上。換句話說,你訓(xùn)練生成器來欺騙鑒別器。
A bag of tricks
眾所周知,訓(xùn)練GAN和調(diào)整GAN實現(xiàn)的過程非常困難。你應(yīng)該記住一些已知的技巧。像深度學(xué)習(xí)中的大多數(shù)事情一樣:這些技巧是啟發(fā)式的,而不是理論支持的指導(dǎo)方針。 他們得到了對手頭現(xiàn)象的直觀理解的支持,并且他們已經(jīng)知道在經(jīng)驗上運作良好,盡管不一定在每種情況下都有效。
以下是實現(xiàn)GAN生成器和鑒別器時使用的一些技巧。它不是GAN相關(guān)技巧的詳盡列表;你會在GAN文獻(xiàn)中找到更多:
- Generator使用tanh作為最后一層的激活函數(shù),而不是sigmoid;
- 隱空間取樣時使用正態(tài)分布(高斯分布),而不是均勻分布;
- 為了健壯性可以增加隨機(jī)性。由于GAN訓(xùn)練導(dǎo)致動態(tài)平衡,GAN可能會以各種方式陷入困境。在訓(xùn)練期間引入隨機(jī)性有助于防止這種情況。我們以兩種方式引入隨機(jī)性:通過在鑒別器中使用dropout并通過向鑒別器的標(biāo)簽添加隨機(jī)噪聲。
- 稀疏梯度可能會阻礙GAN訓(xùn)練。在深度學(xué)習(xí)中,稀疏性通常是理想的屬性,但在GAN中則不然。有兩件事可以引起梯度稀疏:最大池操作和ReLU激活。建議使用跨步卷積進(jìn)行下采樣,而不是最大池化,建議使用LeakyReLU層而不是ReLU激活。它與ReLU類似,但它通過允許小的負(fù)激活值來放寬稀疏性約束。
- 在生成的圖像中,通常會看到由于生成器中像素空間的不均勻覆蓋而導(dǎo)致的棋盤格偽影(見圖8.17)。為了解決這個問題,每當(dāng)我們在生成器和鑒別器中使用跨步的Conv2DTranpose或Conv2D時,我們使用可以被步長大小整除的內(nèi)核大小。

Generator
首先,開發(fā)一個生成器模型,該模型將矢量(從潛在空間 - 在訓(xùn)練期間將隨機(jī)采樣)轉(zhuǎn)換為候選圖像。 GAN通常出現(xiàn)的許多問題之一是生成器卡在生成的看起來像噪聲的圖像。一種可能的解決方案是在鑒別器和發(fā)生器上使用dropout。
GAN 生成器網(wǎng)絡(luò)
import keras
from keras import layers
import numpy as np
latent_dim = 2
height = 32
width = 32
channels = 3
generator_input = keras.Input(shape=(latent_dim,))
x = layers.Dense(128 * 16 * 16)(generator_input)
x = layers.LeakyReLU()(x)
x = layers.Reshape((16, 16, 128))(x)#將輸入轉(zhuǎn)換成16*16 128通道的特征圖
x = layers.Conv2D(256, 5, padding='same')(x)
x = layers.LeakyReLU()(x)
x=layers.Conv2DTranspose(256, 4, strides=2, padding='same')(x)#上采樣32*32
x = layers.LeakyReLU()(x)
x = layers.Conv2D(256, 5, padding='same')(x)
x = layers.LeakyReLU()(x)
x = layers.Conv2D(256, 5, padding='same')(x)
x = layers.LeakyReLU()(x)
#產(chǎn)生32x32 1通道的特征圖
x = layers.Conv2D(channels, 7, activation='tanh', padding='same')(x)
generator = keras.models.Model(generator_input, x)#將(latent_dim,)->(32,32,3)
generator.summary()
Discriminator
接下來,將開發(fā)一個鑒別器模型,將候選圖像(真實的或合成的)作為輸入,并將其分為兩類:“生成的圖像”或“來自訓(xùn)練集的真實圖像”。
GANs 鑒別器網(wǎng)絡(luò)
discriminator_input = layers.Input(shape=(height, width, channels))
x = layers.Conv2D(128, 3)(discriminator_input)
x = layers.LeakyReLU()(x)
x = layers.Conv2D(128, 4, strides=2)(x)
x = layers.LeakyReLU()(x)
x = layers.Conv2D(128, 4, strides=2)(x)
x = layers.LeakyReLU()(x)
x = layers.Conv2D(128, 4, strides=2)(x)
x = layers.LeakyReLU()(x)
x = layers.Flatten()(x)
x = layers.Dropout(0.4)(x)
x = layers.Dense(1, activation='sigmoid')(x)#二分類
discriminator = keras.models.Model(discriminator_input, x)
discriminator.summary()
discriminator_optimizer = keras.optimizers.RMSprop(lr=0.0008,
clipvalue=1.0,decay=1e-8)
discriminator.compile(optimizer=discriminator_optimizer,
loss='binary_crossentropy')
對抗網(wǎng)絡(luò)
最后,設(shè)置GAN,它鏈接生成器和鑒別器。經(jīng)過訓(xùn)練,該模型將使生成器向一個方向移動,從而提高其欺騙鑒別器的能力。這個模型將潛在空間點轉(zhuǎn)換為分類決策(“假”或“真實”) 并且它意味著使用始終“這些是真實圖像”的標(biāo)簽進(jìn)行訓(xùn)練。因此,訓(xùn)練gan將更新生成器的權(quán)重。在查看假圖像時,使鑒別器更有可能預(yù)測“真實”的方式。非常重要的是要注意在訓(xùn)練期間將鑒別器設(shè)置為凍結(jié)(不可訓(xùn)練):訓(xùn)練gan時不會更新其權(quán)重。如果在此過程中可以更新鑒別器權(quán)重,那么將訓(xùn)練鑒別器始終預(yù)測“真實”,這不是我們想要的!
對抗網(wǎng)絡(luò)
discriminator.trainable = False
gan_input = keras.Input(shape=(latent_dim,))
gan_output = discriminator(generator(gan_input))
gan = keras.models.Model(gan_input,gan_output)
gan_optimizer = keras.optimizers.RMSprop(lr=0.0004,clipvalue=1.0,
decay=1e-8)
gan.compile(optimizer=gan_optimizer,loss='binary_crossentropy')
訓(xùn)練DCGAN
現(xiàn)在可以開始訓(xùn)練了??偨Y(jié)一下,這就是訓(xùn)練循環(huán)的流程。對于每個epoch,執(zhí)行以下操作:
- 在潛在空間中繪制隨機(jī)點(隨機(jī)噪聲);
- 在生成器中使用隨機(jī)噪聲生成圖像;
- 將生成的圖像與實際圖像混合;
- 使用這些混合圖像訓(xùn)練鑒別器,并使用相應(yīng)的目標(biāo):要么“真實”(對于真實圖像)要么“假”(對于生成的圖像);
- 在潛在空間中繪制新的隨機(jī)點;
- 使用這些隨機(jī)向量訓(xùn)練gan,目標(biāo)都是“這些都是真實的圖像?!边@會更新生成器的權(quán)重(僅因為鑒別器在gan內(nèi)被凍結(jié))以使它們朝向讓鑒別器預(yù)測“這些是真實的圖像“用于生成的圖像:這會訓(xùn)練發(fā)生器欺騙鑒別器。
GAN訓(xùn)練
import os
from keras.preprocessing import image
(x_train, y_train), (_, _) = keras.datasets.cifar10.load_data()
x_train = x_train[y_train.flatten() == 6]#第6類
x_train = x_train.reshape((x_train.shape[0],)+(height, width, channels)).astype('float32') / 255.
iterations = 10000
batch_size = 20
save_dir = 'your_dir'#保存生成圖片
start = 0
for step in range(iterations):
random_latent_vectors = np.random.normal(size=(batch_size,
latent_dim))#正態(tài)分布隨機(jī)取點
generated_images = generator.predict(random_latent_vectors)#fake圖
stop = start + batch_size
real_images = x_train[start: stop]
#混合真、假圖片
combined_images = np.concatenate([generated_images, real_images])
#標(biāo)簽
labels = np.concatenate([np.ones((batch_size, 1)),
np.zeros((batch_size, 1))])
labels += 0.05 * np.random.random(labels.shape)#加隨機(jī)噪聲
d_loss = discriminator.train_on_batch(combined_images, labels)
random_latent_vectors = np.random.normal(size=(batch_size,
latent_dim))
isleading_targets = np.zeros((batch_size, 1))
#gan訓(xùn)練:訓(xùn)練generator,固定discriminator
a_loss = gan.train_on_batch(random_latent_vectors,
misleading_targets)
start += batch_size
if start > len(x_train) - batch_size:
start = 0
if step % 100 == 0:#每100步保存一次
gan.save_weights('gan.h5')
print('discriminator loss:', d_loss)
print('adversarial loss:', a_loss)
img = image.array_to_img(generated_images[0] * 255., scale=False)
img.save(os.path.join(save_dir,'generated_frog'\
+str(step)+'.png'))
img = image.array_to_img(real_images[0] * 255., scale=False)
img.save(os.path.join(save_dir,'real_frog' + str(step) + '.png'))
訓(xùn)練時,可能會看到對抗性損失開始顯著增加,而判別性損失往往為零 - 鑒別者最終可能主導(dǎo)生成器。如果是這種情況,嘗試降低鑒別器學(xué)習(xí)速率,并提高鑒別器的丟失率dropout。

小結(jié)
- GAN由與鑒別器網(wǎng)絡(luò)和生成器網(wǎng)絡(luò)組成。訓(xùn)練鑒別器以在生成器的輸出和來自訓(xùn)練數(shù)據(jù)集的真實圖像之間進(jìn)行區(qū)分,并且訓(xùn)練生成器以欺騙鑒別器。值得注意的是,生成器組不能直接從訓(xùn)練集中看到圖像;它對數(shù)據(jù)的信息來自鑒別器。
- GAN難以訓(xùn)練,因為訓(xùn)練GAN是一個動態(tài)過程,而不是具有固定損失的簡單梯度下降過程。GAN正確訓(xùn)練需要使用一些啟發(fā)式技巧,以及大量的參數(shù)調(diào)整。
- GAN可以產(chǎn)生高度逼真的圖像。但是與VAE不同,他們學(xué)到的潛在空間沒有整齊的連續(xù)結(jié)構(gòu),因此可能不適合某些實際應(yīng)用,例如通過潛在空間概念向量進(jìn)行圖像編輯。