GAN生成對抗網(wǎng)絡(luò)簡介及應(yīng)用

姓名:白曉惠

學(xué)號:19021110335

【嵌牛導(dǎo)讀】生成性對抗網(wǎng)絡(luò)是一種新型網(wǎng)絡(luò)結(jié)構(gòu),作為十年來被評為最有趣的算法,它能夠模仿任意數(shù)據(jù)分布,一旦成功訓(xùn)練,它可以創(chuàng)造出嶄新的圖像視頻等,GAN的應(yīng)用也十分廣泛,在不同領(lǐng)域中都能產(chǎn)生良好成果。

【嵌牛鼻子】GAN? 神經(jīng)網(wǎng)絡(luò)

【嵌牛提問】什么是GAN?GAN又有哪些有趣的應(yīng)用?

【嵌牛正文】

很長一段時間,只有人類有能力創(chuàng)造,人工智能唯一的好處是解決回歸,分類和聚類等問題,但隨著生成網(wǎng)絡(luò)的引入,人工智能研究人員能夠使機器生成相同的內(nèi)容或與人類同行相比質(zhì)量更高。

什么是GANs?

生成性對抗網(wǎng)絡(luò)(GANs)是蒙特利爾大學(xué)(University of Montreal)的伊恩?古德費洛(Ian Goodfellow)和其他研究人員(包括約舒亞?本吉奧)在2014年6月提出的一種新型神經(jīng)結(jié)構(gòu)。GANs被稱為十年來最有趣的想法。

GANs基于對抗性訓(xùn)練的理念。它們基本上由兩個相互競爭的神經(jīng)網(wǎng)絡(luò)組成。這種競爭力有助于他們模仿任何數(shù)據(jù)分布。他們模仿數(shù)據(jù)的能力使他們就像一個機器人藝術(shù)家,因為一旦成功訓(xùn)練,GANs就能夠創(chuàng)作藝術(shù)品,歌曲,圖像,甚至視頻。

GANs有什么特別之處?

為了理解GANs為何與眾不同,讓我們理解生成和判別算法的概念。

判別算法的主要目的是對輸入數(shù)據(jù)進行分類,即如果我們給它們一組特定的特征,我們將試圖找出這些特征所屬的標簽或類別,即判別算法幫助我們將特征映射到標簽。

另一方面,生成算法的工作方式與判別算法完全不同,因為它試圖創(chuàng)建輸入數(shù)據(jù),即我們?yōu)樗峁┝艘唤M不會對其進行分類的特征,而是嘗試創(chuàng)建一個適合某個標簽。

因此,GANs是生成模型的一個特例,它能夠以更好的方式預(yù)測特征,因為對抗性訓(xùn)練解釋了為什么它們在AI社區(qū)中被大肆宣傳。

GANs如何工作?

GAN由兩個神經(jīng)網(wǎng)絡(luò)組成,一個稱為生成器,另一個稱為判別器。生成器或生成模型嘗試捕獲數(shù)據(jù)分布,判別器或判別模型估計樣本來自訓(xùn)練數(shù)據(jù)而不是G的概率。即,生成器試圖創(chuàng)建與訓(xùn)練集和判別器嘗試相同的樣本區(qū)分生成器正在創(chuàng)建的內(nèi)容和訓(xùn)練集中的原始樣本。在訓(xùn)練期間,生成器試圖更好地愚弄判別器并且判別器試圖捕獲由生成器生成的假貨,因此訓(xùn)練過程被稱為對抗訓(xùn)練。

圖片發(fā)自簡書App


讓我們舉一個使用GAN生成手寫數(shù)字的例子,最初,隨機噪聲將提供給生成器,生成器將嘗試生成一個數(shù)字,然后判別器將決定它接收到的輸入是否是假的。在該過程開始時,由生成器生成的樣本并不會很好并且很容易被判別器輕易地丟棄,隨著訓(xùn)練的繼續(xù)生成器將越來越好地生成數(shù)字,同時判別器也將變得更好。在訓(xùn)練過程中,我們將開始生成假的字符,這些字符將類似于人類寫的字符。

訓(xùn)練GAN時要記住的要點

生成器和判別器應(yīng)針對靜態(tài)對手進行訓(xùn)練,這意味著在訓(xùn)練生成器時,保持判別器不變并在訓(xùn)練判別器時保持生成器不變。這有助于更好地理解梯度。

GAN的每個網(wǎng)絡(luò)都可以壓倒另一個網(wǎng)絡(luò)。如果生成器太好,它將持續(xù)利用判別器中的弱點導(dǎo)致漏報。如果判別器太好了,它將返回非常接近0或1的值,使得生成器難以讀取梯度。

GANs可以應(yīng)用于哪里?

GANs有能力解決醫(yī)療保健,汽車美術(shù)等眾多行業(yè)的問題。在本節(jié)中,我們將了解對抗網(wǎng)絡(luò)的一些用例以及用于該應(yīng)用程序的GAN架構(gòu)。

單幅圖像超分辨率

我們經(jīng)常面臨低分辨率圖像的問題,因為它們不清楚,GANs幫助我們從單個低分辨率圖像創(chuàng)建高分辨率圖像。

對于這個問題,使用了一個名為SRGAN的GAN ,我們可以看到SRGAN如何能夠在下圖中創(chuàng)建最高分辨率的圖像

圖片發(fā)自簡書App


盡管存在許多方法,但是當圖像超分辨率時恢復(fù)更精細的紋理細節(jié)的問題仍然存在。 SRGAN是第一個能夠為4倍放大因子推斷照片真實感自然圖像的框架。它使用感知損失函數(shù),其包括對抗性損失和內(nèi)容損失。對抗性損失使用經(jīng)過訓(xùn)練以區(qū)分超分辨圖像和原始照片真實圖像的判別器網(wǎng)絡(luò)將解決方案推送到自然圖像集。

圖片發(fā)自簡書App

生成器和判別器的結(jié)構(gòu)

以上顯示了生成器和判別器的結(jié)構(gòu)。其中k表示內(nèi)核大小,n表示特征映射的數(shù)量, s表示卷積層的步幅。在SRGAN中,訓(xùn)練生成器以產(chǎn)生高分辨率圖像,并且訓(xùn)練判別器以區(qū)分原始圖像和高分辨率圖像。

對象檢測

在CVPR 2017中,提出了兩種利用GANs進行對象檢測的技術(shù)。

感知GAN

PGANs是專門用于檢測小對象,就像以前的對象檢測策略一樣,檢測小對象因其分辨率低和噪聲表示而眾所周知地具有挑戰(zhàn)性。PGANs將小對象的表示形式更改為“超解析”

實現(xiàn)與大對象類似的特征,因此對檢測更具判別力。它的生成器學(xué)會將感知到的小對象的不良表示轉(zhuǎn)移到超分辨率對象中,這些超分辨對象與真正的大對象非常相似,足以欺騙競爭的判別器。同時,其判別器與生成器競爭以識別所生成的表示并強加一個額外的感知需求生成的表示。

對小目標的檢測必須有利于對生成器的目的。

圖片發(fā)自簡書App

通過對手生成強烈積極的一面

該技術(shù)試圖使對象檢測器對遮擋和變形不變。該技術(shù)創(chuàng)建具有遮擋和變形的圖像。我們訓(xùn)練了一個GAN,它能生成對象檢測器難以分類的示例。在此技術(shù)之前,我們依賴于數(shù)據(jù)集,希望它可能具有被遮擋的圖像,如果遮擋的示例較少則會訓(xùn)練探測器,這意味著探測器將無法進行正確的分類。

圖片發(fā)自簡書App

文本到圖像合成

從文本描述中合成高質(zhì)量的圖像是計算機視覺中的挑戰(zhàn)性問題。由現(xiàn)有的文本到圖像方法生成的樣本可以粗略地反映給定描述的含義,但是它們不能包含必要的細節(jié)和生動的對象部分。這個應(yīng)用程序的最佳網(wǎng)絡(luò)是StackGAN或堆疊生成對抗網(wǎng)絡(luò),它根據(jù)文本描述生成256x256的逼真照片般的圖像。

圖片發(fā)自簡書App

StackGAN在多個階段工作:

在階段1中,GAN根據(jù)給定的文本描述繪制對象的原始形狀和顏色,從而產(chǎn)生低分辨率圖像

在階段2中,GAN將階段1和文本描述的結(jié)果作為輸入,并生成具有真實感細節(jié)的高分辨率圖像。它能夠糾正階段1結(jié)果中的缺陷,并通過細化過程添加引人注目的細節(jié)。

醫(yī)療應(yīng)用

GANs在醫(yī)學(xué)領(lǐng)域非常有用,因為它經(jīng)過對抗性訓(xùn)練,可以用于圖像分析、異常檢測甚至新藥的發(fā)現(xiàn)。他們以前所未有的現(xiàn)實水平合成圖像的能力也使人們希望在這些生成模型的幫助下可以解決醫(yī)學(xué)領(lǐng)域中標記數(shù)據(jù)的長期稀缺性。我們來看看在這種情況下如何使用GANs。

用于異常檢測的AnoGAN

創(chuàng)建模型以檢測與疾病進展和治療監(jiān)測相關(guān)的異常是具有挑戰(zhàn)性的。模型通?;诖罅繋ё⑨尩臄?shù)據(jù),用于自動檢測。高注釋工作量和對已知標記的詞匯的限制限制了這些方法的能力。因此,使用監(jiān)督學(xué)習檢測異常是可行的,但不能提供有用的結(jié)果。

圖片發(fā)自簡書App

為了應(yīng)對上述挑戰(zhàn),我們采用了一種無監(jiān)督的方法,使用GANs,專門設(shè)計的AnoGAN來檢測醫(yī)學(xué)領(lǐng)域的異常。AnoGAN是一種深度卷積生成對抗網(wǎng)絡(luò),用于學(xué)習多種正常的解剖變異性,伴隨著基于從圖像空間到潛在空間的映射的新型異常評分方案。應(yīng)用于新數(shù)據(jù),模型標記異常,并對圖像塊進行評分,表明它們適合學(xué)習的分布。

生成3D對象

3D對象生成可以找到各種應(yīng)用,例如用于增強3D對象識別的數(shù)據(jù)集,也可以用于3D面部重建,其可以用于使面部識別系統(tǒng)越來越強大。3D生成對抗網(wǎng)絡(luò)或3D-GAN用于使用體積卷積網(wǎng)絡(luò)和生成對抗網(wǎng)絡(luò)從概率空間生成3D對象。

使用3D-GAN的好處:

使用對抗性標準而不是傳統(tǒng)的啟發(fā)式標準,使得生成器能夠隱式捕獲對象結(jié)構(gòu)并合成高質(zhì)量的3D對象

該生成器建立從低維概率空間到3D對象空間的映射,以便我們可以在沒有參考圖像或CAD模型的情況下對對象進行采樣,并探索3D對象多樣性。

對抗性判別器提供了強大的3D形狀描述符,在沒有監(jiān)督的情況下學(xué)習,在3D對象識別中具有廣泛的應(yīng)用。

圖片發(fā)自簡書App


高分辨率圖像合成

高分辨率圖像合成是圖像分割的逆過程。在這里,我們使用語義映射來生成高分辨率圖像。這對于生成用于訓(xùn)練自動駕駛車輛的視頻非常有用,而不是自己制作視頻。用于這種類型的圖像合成。

圖片發(fā)自簡書App

Pix2pix是一種條件GAN。對于該任務(wù),生成器G的目標是將語義標簽映射轉(zhuǎn)換為具有真實感的圖像,而判別器D旨在將真實圖像與翻譯的圖像區(qū)分開。pix2pix方法采用U-Net作為生成器。

以及patch-based的完全卷積網(wǎng)絡(luò)作為判別器。判別器的輸入是語義標簽映射和對應(yīng)圖像的通道順序連接。我們可以通過使用粗到精生成器,multi-scale判別器架構(gòu)和強大的對抗性學(xué)習目標函數(shù)來提高真實感和分辨率。

視頻生成

視頻生成是圖像生成的延伸,這是一個巨大的挑戰(zhàn),因為我們必須在生成過程中考慮視頻的時間維度,因為理解對象運動和場景動態(tài)是視頻生成核心問題,這對視頻生成提出了很大的挑戰(zhàn)。由于記憶和訓(xùn)練穩(wěn)定性的限制,隨著視頻分辨率/時長的增加,生成變得越來越具有挑戰(zhàn)性。視頻生成過程可以通過兩種方式進行,一種是提供文本作為創(chuàng)建相應(yīng)視頻的特性,另一種是提供視頻并生成視頻的下一幀。為了實現(xiàn)生成器具有時空卷積結(jié)構(gòu)的生成對抗網(wǎng)絡(luò),它將場景的前景從背景中分離出來。

圖片發(fā)自簡書App


我們?yōu)榫W(wǎng)絡(luò)提供了一個100維高斯噪聲輸入,它有兩個獨立的數(shù)據(jù)流,一個用于分階時空卷積的運動前景路徑,另一個用于分階空間卷積的靜態(tài)背景路徑,兩者都對輸入數(shù)據(jù)進行上采樣。將這兩個路徑組合以使用來自運動路徑的掩模來創(chuàng)建所生成的視頻。

與GANs的競爭

GANs不是唯一屬于生成模型類的模型,其他深度學(xué)習模型(如變分自編碼器和自回歸模型)也是生成模型的好示例,用于模擬數(shù)據(jù)的分布。

這些生成算法具有不同的基本工作,對于GANs而言,訓(xùn)練過程就像生成器和判別器之間的競爭,而變分自編碼器允許我們在概率圖形模型的框架中形成生成訓(xùn)練樣本的問題,我們最大化了數(shù)據(jù)的對數(shù)可能性的最低范圍。在PixelRNN的自回歸模型的情況下,對網(wǎng)絡(luò)進行訓(xùn)練以模擬每個單獨像素的條件分布到前一像素的條件分布進行建模。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容