PGGAN中已經(jīng)可以生成很棒很真實的圖片了,但是由于計算量稍復(fù)雜。有人提出使用VAE和GAN的結(jié)合體IntroVAE來實現(xiàn)高分辨圖像的合成。
一、摘要
IntroVAE能夠自我評估其生成的樣品的質(zhì)量并相應(yīng)地改進自身。它的推理和生成器模型以內(nèi)省的方式共同訓(xùn)練。一方面,需要發(fā)生器將來自推理模型的噪聲輸出的輸入圖像重建為正常VAE。另一方面,鼓勵推理模型在生成的樣本和實際樣本之間進行分類,而生成器試圖將其作為GAN欺騙。
二、VAE與GAN兩者方面各有的優(yōu)缺點
VAE理論上優(yōu)雅,易于訓(xùn)練。它們具有很好的流形表示,但會產(chǎn)生非常模糊的圖像,缺乏細節(jié)
GAN通常會產(chǎn)生更清晰的圖像,但在訓(xùn)練穩(wěn)定性和采樣多樣性方面面臨挑戰(zhàn),尤其是在合成高分辨率圖像時。
三、本文所貢獻的三種方法
我們?yōu)閂AE提出了一種新的訓(xùn)練技術(shù),以內(nèi)省的方式訓(xùn)練VAE,使得模型本身估計生成的圖像和真實圖像之間的差異,而無需額外的鑒別器。
我們提出了用于高分辨率攝影圖像合成的單流單級對抗模型,這是GAN以這種簡單而有效的方式生成高分辨率圖像的第一種可行方法。
方法結(jié)合了GAN和VAE的優(yōu)勢,產(chǎn)生的高分辨率照片圖像與最先進的GAN產(chǎn)生的圖像相當(dāng),同時保留了VAE的優(yōu)點,如穩(wěn)定訓(xùn)練和漂亮的潛在變化。
四、方法
- 對抗性分布匹配
為了使生成的樣本的分布與給定訓(xùn)練數(shù)據(jù)的真實分布相匹配,我們使用正化術(shù)語作為對抗訓(xùn)練成本函數(shù)。訓(xùn)練推理模型以最小化,使得樣本的后驗分布大致匹配先前分布。

- 內(nèi)省的變分推斷
推理模型E和生成器G的訓(xùn)練對象可以重新表述如下:

增加重建誤差,在推理模型E和發(fā)生器G之間建立了一個橋梁,并產(chǎn)生了VAE和GAN的特定混合模型。對于來自訓(xùn)練集的數(shù)據(jù)樣本x,所提出的方法的對象折疊到VAE的標(biāo)準ELBO對象,從而保留了VAE的屬性;對于生成的樣本,此對象在E和G之間生成GAN的最小 - 最大游戲,并使圖片更加逼真。
五、算法表示如下

其中ng(.)表示此時停止了梯度的反向傳播,Enc(.)表示E的映射函數(shù),α和β是用于平衡每個項目的重要性的加權(quán)參數(shù)。
六、生成1024 * 1024 圖片的結(jié)果
將我們的采樣結(jié)果與PGGAN進行了比較,后者是合成高分辨率圖像的最先進技術(shù)。如圖所示,我們的方法能夠合成與PGGAN相當(dāng)?shù)母叻直媛矢哔|(zhì)量樣本,這些樣本都可以與真實圖像區(qū)分開來。雖然PGGAN采用漸進式多階段方式訓(xùn)練對稱發(fā)生器和鑒別器,但我們的模型以更簡單的方式進行訓(xùn)練,在單個階段中迭代地訓(xùn)練單個推理模型和單個發(fā)生器,就像原始GAN一樣。我們的方法的結(jié)果表明,通過直接使用高分辨率圖像進行訓(xùn)練,可以合成非常高分辨率的圖像,而無需將單個任務(wù)分解為多個從低到高的分辨率任務(wù)。此外,我們在圖中的LSUN BEDROOM中提供了視覺質(zhì)量結(jié)果,這進一步證明了我們的方法能夠合成與PGGAN相當(dāng)?shù)母哔|(zhì)量圖像


七、結(jié)論
推理模型不僅學(xué)習(xí)了一個漂亮的潛在流形結(jié)構(gòu),而且還充當(dāng)了一個鑒別器,以最大化生成數(shù)據(jù)的近似后驗與先驗的發(fā)散。因此,所提出的IntroVAE具有內(nèi)省能力,以自我估計所生成圖像的質(zhì)量并相應(yīng)地改進其自身。
文章引用于 http://tongtianta.site/paper/22917
編輯 Lornatang
校準 Lornatang