利用 TensorFlow 和 MNIST 數(shù)據(jù)集演示 GAN 的構(gòu)建

自打關(guān)注深度學(xué)習(xí)這個領(lǐng)域就不時的看到和 Generative Adversarial Network, GAN 相關(guān)的東西,也一直非常好奇這個被 LeCun 稱為深度學(xué)習(xí)近年來最大的突破的東西到底是什么樣子的。正好在 Udacity 的課堂里遇到了,在完成了通過 GAN 來完成人臉生成的項目后,在這里做一個總結(jié),加深一下對于 GAN 這個網(wǎng)絡(luò)的理解。為了便于本地試驗,這里展示的是利用 MNIST 數(shù)據(jù)集來訓(xùn)練一個簡單的 GAN 來生成手寫數(shù)字的過程。注意文中代碼和示例圖片來自 Udacity 深度學(xué)習(xí)納米學(xué)位課程,版權(quán)歸 Udacity 所有。

深度神經(jīng)網(wǎng)絡(luò)最令人詬病一點就在于其決策過程的不可解釋性,你無從知道網(wǎng)絡(luò)中的單元提取了哪些特征來完成了一項分類或識別任務(wù)。比如在圖片識別任務(wù)中,即便你可以提取隱藏層的 feature map 來可視化出來相應(yīng)層的情況,其圖像在人類看來是抽象而詭異甚至有些驚悚的。這一點其實在我看來是十分正常的,也不應(yīng)該像很多媒體的解讀方式那樣過分的夸大,事實上,人腦的加工過程有誰可以可視化出來呢?只不過我們對于人類行為的可預(yù)測性是有把握的,所以不像對于新生技術(shù)那樣容易催生恐懼。

而 GAN 最為聰明之處在于既然人類無法理解網(wǎng)絡(luò)內(nèi)部的生成過程,索性不用人腦和人類對于圖像的理解方式去理解中間過程,而是用另一個類似結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),二者的相互理解過程也就是對抗 Adversarial 的過程。其實現(xiàn)的大致思路是:

  • 作為生成器的一個典型代表,GAN 的一個典型應(yīng)用是通過模型來生成類似已有數(shù)據(jù)集的圖片來實現(xiàn)數(shù)據(jù)擴增,因此可以首先建立一個通過多層神經(jīng)網(wǎng)絡(luò)實現(xiàn)的生成器,其主要作用是通過對于符合一定分布規(guī)律的原始數(shù)據(jù)進行處理,進而得到一個符合另一特定分布情況的結(jié)果圖像。這里要求這個網(wǎng)絡(luò)至少包含一個隱藏層,否則網(wǎng)絡(luò)就不具有足夠的學(xué)習(xí)和泛化能力,這個網(wǎng)絡(luò)在 GAN 中被稱為生成器 Generator。例如在下面的示例圖片中,生成器的輸入是符合某個分布特征的隨機數(shù)字:在后續(xù)的代碼示例中采用的是 (-1, 1) 之間的均勻分布

  • 在獲得了生成器之后,還要建立一個類似結(jié)構(gòu)的可以完成圖像識別任務(wù)的分類器,其特殊之處在于這個網(wǎng)絡(luò)的輸出層只對輸入是來自原始數(shù)據(jù)集還是由生成器網(wǎng)絡(luò)生成的結(jié)果做一個真假判斷,這個網(wǎng)絡(luò)在 GAN 中稱為識別器 Discriminator

High level overview of GAN with MNIST

在看到代碼之前我一直以為 GAN 的實現(xiàn)會比較復(fù)雜,但真正看到代碼之后就像看到 E = mc2 一樣,發(fā)現(xiàn)其是如此的簡潔,優(yōu)雅,直觀,不得不佩服 Ian Goodfellow 強大的思路。閑話到此為止,網(wǎng)絡(luò)架構(gòu)和實現(xiàn)代碼如下:

Network Architecture
%matplotlib inline
import pickle as pkl
import numpy as np
import tensorflow as tf
import matplotlib.pyplot as plt

# load data
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets('MNIST_data')

# define the model input for both Generator and Discirminator
def model_inputs(real_dim, z_dim):
    inputs_real = tf.placeholder(tf.float32, (None, real_dim), name='input_real') 
    inputs_z = tf.placeholder(tf.float32, (None, z_dim), name='input_z')
    
    return inputs_real, inputs_z

# define the Generator
def generator(z, out_dim, n_units=128, reuse=False, alpha=0.01):
    with tf.variable_scope('generator', reuse=reuse):
        # Hidden layer
        h1 = tf.layers.dense(z, n_units, activation=None)
        # Leaky ReLU
        h1 = tf.maximum(alpha * h1, h1)
        
        # Logits and tanh output
        logits = tf.layers.dense(h1, out_dim, activation=None)
        out = tf.tanh(logits)
        
        return out

# define the Discriminator
def discriminator(x, n_units=128, reuse=False, alpha=0.01):
    with tf.variable_scope('discriminator', reuse=reuse):
        # Hidden layer
        h1 = tf.layers.dense(x, n_units, activation=None)
        # Leaky ReLU
        h1 = tf.maximum(alpha * h1, h1)
        
        logits = tf.layers.dense(h1, 1, activation=None)
        out = tf.sigmoid(logits)
        
        return out, logits

這里之所以要定義這個 variable_scope 是由于在后續(xù)的訓(xùn)練中,需要分別更新生成器和判別器的參數(shù),為了提取參數(shù)而特別設(shè)置的。另外值得注意的是,激活函數(shù)需要采用 Leaky ReLU 來保證梯度可以從判別器傳回到生成器。

# build the network
tf.reset_default_graph()
# Create our input placeholders
input_real, input_z = model_inputs(input_size, z_size)

# Build the model
g_model = generator(input_z, input_size, n_units=g_hidden_size, alpha=alpha)
# g_model is the generator output

d_model_real, d_logits_real = discriminator(input_real, n_units=d_hidden_size, alpha=alpha)
d_model_fake, d_logits_fake = discriminator(g_model, reuse=True, n_units=d_hidden_size, alpha=alpha)

# Calculate losses
d_loss_real = tf.reduce_mean(
                  tf.nn.sigmoid_cross_entropy_with_logits(logits=d_logits_real, 
                                                          labels=tf.ones_like(d_logits_real) * (1 - smooth)))
d_loss_fake = tf.reduce_mean(
                  tf.nn.sigmoid_cross_entropy_with_logits(logits=d_logits_fake, 
                                                          labels=tf.zeros_like(d_logits_real)))
d_loss = d_loss_real + d_loss_fake

g_loss = tf.reduce_mean(
             tf.nn.sigmoid_cross_entropy_with_logits(logits=d_logits_fake,
                                                     labels=tf.ones_like(d_logits_fake)))

在這里新引入的一個操作是 label smoothing,其目的在于適度的放低要求以促進收斂。而針對損失函數(shù)這部分,由于希望判別器將真實數(shù)據(jù)識別為 1, 而將生成器生成的數(shù)據(jù)識別為 0,因此需要分別計算這兩部分的損失函數(shù)。

# Optimizers
learning_rate = 0.002

# Get the trainable_variables, split into G and D parts
t_vars = tf.trainable_variables()
g_vars = [var for var in t_vars if var.name.startswith('generator')]
d_vars = [var for var in t_vars if var.name.startswith('discriminator')]

d_train_opt = tf.train.AdamOptimizer(learning_rate).minimize(d_loss, var_list=d_vars)
g_train_opt = tf.train.AdamOptimizer(learning_rate).minimize(g_loss, var_list=g_vars)

這一段代碼非常重要,正式因為選擇了間歇性的訓(xùn)練才使得網(wǎng)絡(luò)的對抗得以實現(xiàn)。

# Size of input image to discriminator
input_size = 784
# Size of latent vector to generator
z_size = 100
# Sizes of hidden layers in generator and discriminator
g_hidden_size = 128
d_hidden_size = 128
# Leak factor for leaky ReLU
alpha = 0.01
# Smoothing 
smooth = 0.1

下面代碼部分為比較常見的訓(xùn)練代碼結(jié)構(gòu):

batch_size = 100
epochs = 100
samples = []
losses = []
# Only save generator variables
saver = tf.train.Saver(var_list=g_vars)
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    for e in range(epochs):
        for ii in range(mnist.train.num_examples//batch_size):
            batch = mnist.train.next_batch(batch_size)
            
            # Get images, reshape and rescale to pass to D
            batch_images = batch[0].reshape((batch_size, 784))
            batch_images = batch_images*2 - 1
            
            # Sample random noise for G
            batch_z = np.random.uniform(-1, 1, size=(batch_size, z_size))
            
            # Run optimizers
            _ = sess.run(d_train_opt, feed_dict={input_real: batch_images, input_z: batch_z})
            _ = sess.run(g_train_opt, feed_dict={input_z: batch_z})
        
        # At the end of each epoch, get the losses and print them out
        train_loss_d = sess.run(d_loss, {input_z: batch_z, input_real: batch_images})
        train_loss_g = g_loss.eval({input_z: batch_z})
            
        print("Epoch {}/{}...".format(e+1, epochs),
              "Discriminator Loss: {:.4f}...".format(train_loss_d),
              "Generator Loss: {:.4f}".format(train_loss_g))    
        # Save losses to view after training
        losses.append((train_loss_d, train_loss_g))
        
        # Sample from generator as we're training for viewing afterwards
        sample_z = np.random.uniform(-1, 1, size=(16, z_size))
        gen_samples = sess.run(
                       generator(input_z, input_size, n_units=g_hidden_size, reuse=True, alpha=alpha),
                       feed_dict={input_z: sample_z})
        samples.append(gen_samples)
        saver.save(sess, './checkpoints/generator.ckpt')

# Save training generator samples
with open('train_samples.pkl', 'wb') as f:
    pkl.dump(samples, f)

為了監(jiān)控訓(xùn)練,可以提取訓(xùn)練過程中的參數(shù)來識別訓(xùn)練結(jié)果。實際上在學(xué)習(xí)過程中可以發(fā)現(xiàn) GAN 的訓(xùn)練對于超參數(shù)的選擇十分敏感,并且在后續(xù)的 DCGAN 學(xué)習(xí)中,作者們甚至通過調(diào)整 Adam 中的指數(shù)加權(quán)平均參數(shù) beta1 來實現(xiàn)較好的訓(xùn)練效果。Ian Goodfellow 在 Andrew Ng 的訪談里也提到自己現(xiàn)在 40% 的時間話在研究如何 Stablize GAN,當(dāng)時沒理解是什么意思,直到自己訓(xùn)練了 DCGAN 之后才知道原來 GAN 的訓(xùn)練對于超參數(shù)是如此的敏感。

def view_samples(epoch, samples):
    fig, axes = plt.subplots(figsize=(7,7), nrows=4, ncols=4, sharey=True, sharex=True)
    for ax, img in zip(axes.flatten(), samples[epoch]):
        ax.xaxis.set_visible(False)
        ax.yaxis.set_visible(False)
        im = ax.imshow(img.reshape((28,28)), cmap='Greys_r')
    
    return fig, axes

rows, cols = 10, 6
fig, axes = plt.subplots(figsize=(7,12), nrows=rows, ncols=cols, sharex=True, sharey=True)

for sample, ax_row in zip(samples[::int(len(samples)/rows)], axes):
    for img, ax in zip(sample[::int(len(sample)/cols)], ax_row):
        ax.imshow(img.reshape((28,28)), cmap='Greys_r')
        ax.xaxis.set_visible(False)
        ax.yaxis.set_visible(False)
Generated result as the training goes

參考閱讀

  1. Tips and tricks to make GANs work

  2. Generative Adversarial Networks for beginners

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容