無(wú)【英偉達(dá)NIPS論文AI腦洞大開(kāi)】用GAN讓晴天下大雨,小貓變獅子,黑夜轉(zhuǎn)白天

【英偉達(dá)NIPS論文AI腦洞大開(kāi)】用GAN讓晴天下大雨,小貓變獅子,黑夜轉(zhuǎn)白天

來(lái)源:research.nvidia.com

作者:費(fèi)欣欣 常佩琦

【新智元導(dǎo)讀】英偉達(dá)最近GAN相關(guān)研究和應(yīng)用方面進(jìn)展迅猛。在最新的一項(xiàng)工作中,英偉達(dá)研究人員利用生成對(duì)抗網(wǎng)絡(luò)(GAN)和無(wú)監(jiān)督學(xué)習(xí),創(chuàng)建了一個(gè)擁有“想象力”系統(tǒng),僅需一次數(shù)據(jù)輸入,即可模擬出其他情形,比如將冬日拍攝的照片想象為夏日,將貓想象為獅子、老虎,大大減少網(wǎng)絡(luò)訓(xùn)練所需的標(biāo)簽數(shù)據(jù)。對(duì)于在醫(yī)療、自動(dòng)駕駛這樣標(biāo)注數(shù)據(jù)少的領(lǐng)域,擁有極大應(yīng)用潛力。

只“看”一次,把貓“想象”成獅子,冬日變?yōu)橄奶?/p>

“在無(wú)監(jiān)督學(xué)習(xí)中使用GAN并不是新鮮事,但我們?nèi)〉昧饲八从械某晒?,”英偉達(dá)在最新發(fā)表的一篇官博文章中表示。不僅如此,這項(xiàng)工作還能有效減少訓(xùn)練神經(jīng)網(wǎng)絡(luò)所需的標(biāo)注數(shù)據(jù)數(shù)量。

這項(xiàng)成果指的是今年NIPS上英偉達(dá)的論文《無(wú)監(jiān)督圖像翻譯網(wǎng)絡(luò)》(Unsupervised Image-to-Image Translation Networks)。在這篇論文中,研究人員展示了一款具有“想象力”的機(jī)器學(xué)習(xí)系統(tǒng),可以把圖像中的白天轉(zhuǎn)換成黑夜,貓變成獅子,等等。

研究人員首先假設(shè),相似的圖像都享有一個(gè)共同的latent空間,都可以映射為這個(gè)共享空間中的同一個(gè)latent表示?;谶@個(gè)假設(shè),他們提出了基于生成對(duì)抗網(wǎng)絡(luò)(GAN)和變分自編碼器(VAE)的一個(gè)框架。在圖像轉(zhuǎn)換(翻譯)的過(guò)程中,首先,使用VAE-GAN對(duì)每個(gè)圖像域進(jìn)行建模。對(duì)抗訓(xùn)練目標(biāo)與權(quán)重共享約束相互作用,強(qiáng)制共享latent空間在兩個(gè)域中生成相應(yīng)的圖像,然后VAE將翻譯后的圖像與各個(gè)域中的輸入圖像相關(guān)聯(lián),最后就得到了“想象結(jié)果”。

論文中不同種類(lèi)的狗的轉(zhuǎn)換結(jié)果,左邊一列是輸入

英偉達(dá)的研究人員表示,這個(gè)框架在多種無(wú)監(jiān)督圖像翻譯問(wèn)題中,都生成了高清質(zhì)量的圖像。此外,將這個(gè)框架應(yīng)用于領(lǐng)域自適應(yīng)(domain adaptation)問(wèn)題,也在基準(zhǔn)數(shù)據(jù)集上取得了state-of-the-art的結(jié)果。

最關(guān)鍵的是,在高質(zhì)量標(biāo)注數(shù)據(jù)稀缺的當(dāng)下,這種方法大大減少了網(wǎng)絡(luò)訓(xùn)練所需的標(biāo)簽數(shù)據(jù),進(jìn)而減少AI的訓(xùn)練時(shí)間。研究人員表示,“以無(wú)人駕駛為例,只需捕獲一次訓(xùn)練數(shù)據(jù),便可在不同的虛擬情景下使用,如晴天、多云、下雪天、雨天、夜晚?!?/p>

無(wú)需預(yù)訓(xùn)練網(wǎng)絡(luò),合成2048×1024圖像,添一棵樹(shù),加上胡子,任君編輯

類(lèi)似的,就在上周,英偉達(dá)和伯克利合作,發(fā)布了一個(gè)名為pix2pixHD的項(xiàng)目。Pix2pixHD利用條件GAN進(jìn)行高清圖像合成和處理(分辨率2048x1024),輸入語(yǔ)義標(biāo)注圖,系統(tǒng)能夠生成逼真的現(xiàn)實(shí)世界圖像,例如街景、人臉。

作者在論文《使用條件GAN進(jìn)行高清圖像合成和語(yǔ)義操縱》(High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs)中介紹了他們的方法。他們提出了一種多尺度的生成器和判別器架構(gòu),結(jié)合新的對(duì)抗學(xué)習(xí)目標(biāo)函數(shù)。實(shí)驗(yàn)結(jié)果表明,條件GAN能夠合成高分辨率、照片級(jí)逼真的圖像,不需要任何手工損失或預(yù)訓(xùn)練的網(wǎng)絡(luò)。

不僅如此,作者還提出了一種方法,讓用戶能夠交互式地編輯物體的外觀,大大豐富了生成的數(shù)據(jù)類(lèi)型。例如,在下面的視頻中,你可以發(fā)現(xiàn)用戶能夠選擇更換街景中車(chē)輛的顏色和型號(hào),給街景圖增加一些樹(shù)木,或者改變街道類(lèi)型(例如將水泥路變成十字路)。類(lèi)似地,利用語(yǔ)義標(biāo)注圖合成人臉時(shí),給定語(yǔ)義標(biāo)注的人臉圖像,你可以選擇組合人的五官,調(diào)整大小膚色,添加胡子等。

作者在文中指出,他們的方法可以擴(kuò)展到其他領(lǐng)域,尤其是醫(yī)療圖像這樣缺乏預(yù)訓(xùn)練網(wǎng)絡(luò)的領(lǐng)域。

在這里,還不得不提一下英偉達(dá)此前在官網(wǎng)發(fā)表了一篇已經(jīng)提交給 ICLR 2018 的論文“Progressive Growing of GANs for Improved Quality, Stability, and Variation”,提出了一種以漸進(jìn)增大的方式訓(xùn)練GAN的方法。作者表示,這不僅穩(wěn)定了訓(xùn)練,還生成了迄今質(zhì)量最高的GAN生成的圖像。

例如上面的人像,忽略背景,幾乎與真實(shí)照片無(wú)異。

英偉達(dá):積極推進(jìn)GAN在醫(yī)療圖像和自動(dòng)駕駛落地

這些研究充分證明了生成模型的潛力,尤其是在無(wú)監(jiān)督的情況下。現(xiàn)在的英偉達(dá),已經(jīng)遠(yuǎn)遠(yuǎn)不止一家專注游戲的GPU公司,一直在試圖將其硬件推向邊緣設(shè)備,并使用人工智能作為實(shí)現(xiàn)這一點(diǎn)的手段和工具。

上周,英偉達(dá)宣布與通用電氣醫(yī)療(GE Healthcare)達(dá)成協(xié)議,通過(guò)Revolution Frontier CT,更新全球部署的500,000臺(tái)醫(yī)療成像設(shè)備,以便在醫(yī)院進(jìn)行更好的成像。而英偉達(dá)在自動(dòng)駕駛領(lǐng)域更是布局已久,今年10月還發(fā)布了全球首款A(yù)I自動(dòng)駕駛平臺(tái),瞄準(zhǔn)L5級(jí)自動(dòng)駕駛。而上述研究無(wú)一例外,均在醫(yī)療圖像和自動(dòng)駕駛領(lǐng)域有應(yīng)用潛力。

英偉達(dá)第三季度財(cái)報(bào)顯示,截至10月29日的第三季度英偉達(dá)營(yíng)收26.4億美元,同比增長(zhǎng)31.5%,再次創(chuàng)新記錄。其中,數(shù)據(jù)中心業(yè)務(wù)達(dá)到5.01億美元,汽車(chē)業(yè)務(wù)收入1.44億美元,增長(zhǎng)至13.3%。截至目前,英偉達(dá)依靠其在人工智能和無(wú)人駕駛方面的優(yōu)勢(shì),股價(jià)已經(jīng)上漲了約92%。

了解更多

Unsupervised Image-to-Image Translation Networks:http://papers.nips.cc/paper/6672-unsupervised-image-to-image-translation-networks.pdf

High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs:https://tcwang0509.github.io/pix2pixHD/

Progressive Growing of GANs for Improved Quality, Stability, and Variation:https://arxiv.org/abs/1710.10196

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容