訂閱
糾錯(cuò)
加入自媒體

打開混淆虛擬與現(xiàn)實(shí)的潘朵拉魔盒

打開混淆虛擬與現(xiàn)實(shí)的潘朵拉魔盒

——生成式對(duì)抗網(wǎng)絡(luò)簡(jiǎn)述

投稿作者:極鏈科技AI實(shí)驗(yàn)室王曉平

你是否曾設(shè)想過(guò)這樣的場(chǎng)景:當(dāng)你坐在電腦前,一邊品嘗著清香的茶飲,一邊饒有興致地在網(wǎng)頁(yè)上瀏覽著一張張精彩的圖片,從表情豐富的清晰人臉,到色彩艷麗的旖旎風(fēng)光,還有姿態(tài)各異的動(dòng)物萌寵,等等,一切都是那么的賞心悅目!然而,當(dāng)你接下來(lái)突然被告知,所有的這一切都是由計(jì)算機(jī)生成的虛擬照片時(shí),你會(huì)否大吃一驚轉(zhuǎn)而不敢相信?畢竟,這些照片是如此的栩栩如生!現(xiàn)如今,這樣的情形已不再是夢(mèng)幻,例如,thispersondoesnotexist.com就是這樣的一個(gè)虛擬人臉生成網(wǎng)站,當(dāng)用戶進(jìn)入網(wǎng)站后,每一次刷新都可以得到網(wǎng)站即時(shí)生成的一張逼真的“人臉”照片,然而,正如該網(wǎng)站名所指的涵義:在現(xiàn)實(shí)中,This person does not exist!那么,這種無(wú)中生有的神奇效果究竟是如何實(shí)現(xiàn)的呢?該網(wǎng)頁(yè)同時(shí)在右下角也注明了:“Produced by a GAN (generative adversarial network)”。OK,本文的主角——生成式對(duì)抗網(wǎng)絡(luò)(GAN)正式登場(chǎng)。

2014年,加拿大蒙特利爾大學(xué)的Ian J. Goodfellow在《Generative Adversarial Nets》一文中正式提出了生成式對(duì)抗網(wǎng)絡(luò),其基本思想就是基于兩個(gè)模型:一個(gè)生成器和一個(gè)判別器。判別器的任務(wù)是判斷一張給定的圖片是真實(shí)的還是虛假的,而生成器的任務(wù)則是生成與真實(shí)圖片相似的圖片以盡可能騙過(guò)判別器。打個(gè)比方,生成模型類似一個(gè)假幣制造團(tuán)伙,其任務(wù)是生產(chǎn)和使用假幣,而判別模型則類似金融警察,其職責(zé)是發(fā)現(xiàn)和查處假幣。原始的GAN公式如下式所示,G、D分別為生成器、判別器,x為真實(shí)數(shù)據(jù),z為噪聲數(shù)據(jù),在對(duì)值函數(shù)V進(jìn)行最大、最小化約束下,生成器和判別器交替訓(xùn)練優(yōu)化,在此過(guò)程中,生成器不斷提升“造假”能力,直至判別器無(wú)法區(qū)分真幣和假幣的程度,此時(shí)GAN訓(xùn)練完成。

打開混淆虛擬與現(xiàn)實(shí)的潘朵拉魔盒

相比于其它模型,為什么GAN一經(jīng)提出就會(huì)受到如此之高的關(guān)注熱度?從本質(zhì)上說(shuō),GAN的真正強(qiáng)大之處在于開創(chuàng)了一種新的對(duì)抗式學(xué)習(xí)模式,大大提高了對(duì)數(shù)據(jù)分布的學(xué)習(xí)能力,甚至可在一定程度上認(rèn)為它賦予了機(jī)器一種類似想象力的能力,能夠展示出諸多炫目的生成效果,也正是因?yàn)檫@種強(qiáng)大之處,GAN入選了《麻省理工科技評(píng)論》 2018 年全球十大突破性技術(shù),而近年來(lái)掀起的以其為基礎(chǔ)的各種改進(jìn)或創(chuàng)新研究的熱潮也推動(dòng)了GAN技術(shù)的迅速發(fā)展。下面本文就將對(duì)GAN的發(fā)展進(jìn)行簡(jiǎn)要的介紹,總體上,這一發(fā)展主要體現(xiàn)在以下幾方面:

一、圖像風(fēng)格轉(zhuǎn)換方面

打開混淆虛擬與現(xiàn)實(shí)的潘朵拉魔盒

一百多年前,當(dāng)莫奈在春光明媚的塞納河畔畫下這幅油畫時(shí),當(dāng)時(shí)他眼前的景象究竟是怎樣的?現(xiàn)實(shí)的風(fēng)景是否如同畫作所描述的一般優(yōu)美?要想認(rèn)真回答這個(gè)問(wèn)題的確很難,因?yàn)槟壳拔覀冞無(wú)法乘坐時(shí)光機(jī)器穿越時(shí)空去感同身受,但是,我們可以使用具有風(fēng)格轉(zhuǎn)換功能的GAN來(lái)將莫奈的油畫轉(zhuǎn)換為照片風(fēng)格,從而近似地去感受當(dāng)時(shí)的真實(shí)場(chǎng)景。風(fēng)格轉(zhuǎn)換的酷炫效果使得GAN大放異彩,在這方面,典型的有 pix2pix、CycleGAN、DiscoGAN、DualGAN等,其中,pix2pix解決了成對(duì)圖像訓(xùn)練的風(fēng)格轉(zhuǎn)換問(wèn)題,CycleGAN、DiscoGAN、DualGAN則從訓(xùn)練集合的高度,通過(guò)定義循環(huán)損失函數(shù)解決了非成對(duì)圖像訓(xùn)練的風(fēng)格轉(zhuǎn)換問(wèn)題,雖然在風(fēng)格轉(zhuǎn)換效果方面稍遜于pix2pix,但卻節(jié)省了大量的樣本準(zhǔn)備時(shí)間,從而大大降低了將GAN投入實(shí)際應(yīng)用的門檻。

打開混淆虛擬與現(xiàn)實(shí)的潘朵拉魔盒

成對(duì)訓(xùn)練圖像(pix2pix)與非成對(duì)訓(xùn)練圖像(CycleGAN)

打開混淆虛擬與現(xiàn)實(shí)的潘朵拉魔盒

CycleGAN

在風(fēng)格轉(zhuǎn)換的實(shí)際應(yīng)用過(guò)程中,隨之也出現(xiàn)了新的問(wèn)題如:無(wú)論是Pix2Pix還是CycleGAN等,都是從一個(gè)領(lǐng)域到另一個(gè)領(lǐng)域的轉(zhuǎn)換,當(dāng)有多種不同領(lǐng)域的風(fēng)格轉(zhuǎn)換需求時(shí),就需要對(duì)每一種領(lǐng)域轉(zhuǎn)換都從頭開始訓(xùn)練一個(gè)新模型來(lái)解決,這在實(shí)際使用時(shí)無(wú)疑將相當(dāng)?shù)芈闊┖偷托Вb于此,StarGAN應(yīng)運(yùn)而生,其貢獻(xiàn)是提出了高效的多領(lǐng)域轉(zhuǎn)換的統(tǒng)一算法框架。下圖是StarGAN的效果,在同一種模型下,可以進(jìn)行多種圖像風(fēng)格轉(zhuǎn)換任務(wù),如改變頭發(fā)顏色、性別、年齡、膚色等。

打開混淆虛擬與現(xiàn)實(shí)的潘朵拉魔盒

StarGAN

二、超分辨率圖像生成方面

超分辨率是計(jì)算機(jī)視覺(jué)的一個(gè)經(jīng)典領(lǐng)域,旨在從觀測(cè)到的低分辨率圖像重建出相應(yīng)的高分辨率圖像,它在衛(wèi)星遙感圖像、圖像復(fù)原等諸多領(lǐng)域都有著重要的應(yīng)用價(jià)值,而GAN的相關(guān)研究也進(jìn)一步推動(dòng)了這一領(lǐng)域技術(shù)的發(fā)展。典型的有PG-GAN、BigGAN、pix2pixHD、SR-GAN等,例如,來(lái)自NVIDIA的PG-GAN論文,提出以一種漸進(jìn)增大生成器和鑒別器的方式訓(xùn)練GAN,從最初的4x4低分辨率開始,隨著訓(xùn)練的進(jìn)行,不斷添加新的層對(duì)越來(lái)越精細(xì)的細(xì)節(jié)進(jìn)行建模,最終達(dá)到1024x1024分辨率,實(shí)現(xiàn)了效果令人驚嘆的生成圖像。

打開混淆虛擬與現(xiàn)實(shí)的潘朵拉魔盒

PG-GAN

三、生成的可解釋性方面

雖然GAN的對(duì)抗式學(xué)習(xí)機(jī)制帶來(lái)了驚艷的圖像生成效果,但是剛開始人們對(duì)于GAN的生成過(guò)程缺乏行之有效的干預(yù)手段,因此,研究者們?cè)谶@方面進(jìn)行了一系列努力,設(shè)法利用控制變量對(duì)生成過(guò)程進(jìn)行監(jiān)督,代表性的工作有InfoGAN、CGAN等,其中,InfoGAN提出將生成器的輸入分解為不可壓縮的噪聲和具有不同意義的潛在控制變量,然后通過(guò)調(diào)節(jié)潛在控制變量來(lái)引導(dǎo)生成器生成具有不同方向、不同字體寬度的圖像。

打開混淆虛擬與現(xiàn)實(shí)的潘朵拉魔盒

InfoGAN

MIT的研究者們通過(guò)對(duì)網(wǎng)絡(luò)進(jìn)行分解,并觀察特定單元在激活或關(guān)閉時(shí)對(duì)生成結(jié)果的影響來(lái)實(shí)現(xiàn)對(duì)GAN的可視化理解(如GAN DISSECTION圖),進(jìn)而在此基礎(chǔ)上實(shí)現(xiàn)了高效繪畫,僅需輕松操作鼠標(biāo),GAN就可以在鼠標(biāo)劃過(guò)的地方繪制或擦除樹木、草地、門、天空、云朵、磚墻、圓屋頂?shù)染拔铩?/p>

打開混淆虛擬與現(xiàn)實(shí)的潘朵拉魔盒

GAN DISSECTION

四、其它方面

除了上述方面,GAN和其它方面技術(shù)的結(jié)合也展現(xiàn)了相當(dāng)不錯(cuò)的效果,例如,加州大學(xué)伯克利分校的研究人員利用姿態(tài)估計(jì)技術(shù)和GAN實(shí)現(xiàn)了不同人之間的動(dòng)作遷移“do as I do”,即使你完全不會(huì)跳舞,但借助這項(xiàng)技術(shù),只需預(yù)先輸入一段善舞者姿態(tài)優(yōu)美的舞蹈視頻,然后再輸入你本人的隨意動(dòng)作視頻,經(jīng)過(guò)姿態(tài)估計(jì)和網(wǎng)絡(luò)訓(xùn)練、視頻生成后,你立馬就可變身為生成視頻里翩翩起舞的絕對(duì)主角。所以,在GAN的助力下,不會(huì)跳舞?不存在的!

打開混淆虛擬與現(xiàn)實(shí)的潘朵拉魔盒

do as I do

其它的還有能夠?qū)崿F(xiàn)不同人之間聲音轉(zhuǎn)換的starGAN-vc,提高訓(xùn)練的穩(wěn)定性方面如WGAN、WGAN-GP、SNGAN,隱私保護(hù)方面如賓夕法尼亞大學(xué)利用AC-GAN生成的虛擬臨床數(shù)據(jù)進(jìn)行共享以滿足保護(hù)參與者隱私的需求,等等。

GAN技術(shù)的迅速發(fā)展在為我們帶來(lái)諸多欣喜成果的同時(shí),其出色的圖像生成能力也使我們難以對(duì)諸如“呈現(xiàn)在你眼前的究竟是虛擬OR現(xiàn)實(shí)?”之類的問(wèn)題給出準(zhǔn)確的答案,因此,眼見(jiàn)也未必為實(shí)。一旦GAN的這種能力被別有用心者利用,將會(huì)造成難以預(yù)見(jiàn)的負(fù)面影響,例如2017年底網(wǎng)絡(luò)上出現(xiàn)的基于GAN的換臉視頻就帶給了世人恐慌和震驚。混淆虛擬與現(xiàn)實(shí)之間界線的潘朵拉魔盒已經(jīng)打開,應(yīng)引導(dǎo)人們以造福學(xué)習(xí)、工作、生活為目的正確合理地使用這項(xiàng)技術(shù),不斷地讓魔盒帶給我們驚喜和希望!

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)