今天的智能手機通常使用人工智能(AI)來(lái)幫助我們拍攝更清晰,更清晰的照片。但是,如果可以使用這些AI工具從頭開(kāi)始創(chuàng )建整個(gè)場(chǎng)景呢?

麻省理工學(xué)院和IBM的團隊現在已經(jīng)完成了“ GANpaint Studio ”,這個(gè)系統可以自動(dòng)生成逼真的攝影圖像并編輯其中的對象。除了幫助藝術(shù)家和設計師快速調整視覺(jué)效果外,研究人員表示,這項工作可能有助于計算機科學(xué)家識別“虛假”圖像。
麻省理工學(xué)院計算機科學(xué)與人工智能實(shí)驗室(CSAIL)博士生David Bau將該項目描述為計算機科學(xué)家首次能夠實(shí)際“用神經(jīng)元繪制神經(jīng)網(wǎng)絡(luò )”之一 - 特別是流行類(lèi)型網(wǎng)絡(luò )稱(chēng)為生成對抗網(wǎng)絡(luò )(GAN)。
GANpaint Studio 可在線(xiàn)獲取作為交互式演示,允許用戶(hù)上傳他們選擇的圖像并修改其外觀(guān)的多個(gè)方面,從更改對象的大小到添加全新的項目(如樹(shù)木和建筑物)。
設計師的恩惠
由麻省理工學(xué)院教授安東尼奧·托拉爾巴(Antonio Torralba)牽頭,作為麻省理工學(xué)院 - IBM沃森人工智能實(shí)驗室的一部分,他指導該項目具有巨大的潛在應用。設計師和藝術(shù)家可以使用它來(lái)更快地調整他們的視覺(jué)效果。使系統適應視頻剪輯將使計算機圖形編輯器能夠快速組成特定鏡頭所需對象的特定排列。(想象一下,例如,如果一位導演拍攝了演員的完整場(chǎng)景,但忘記在背景中包含一個(gè)對劇情很重要的物體。)
通過(guò)分析需要刪除的“工件”單元,GANpaint Studio還可用于改進(jìn)和調試正在開(kāi)發(fā)的其他GAN。在不透明的AI工具使圖像處理比以往更容易的世界中,它可以幫助研究人員更好地理解神經(jīng)網(wǎng)絡(luò )及其底層結構。
“現在,機器學(xué)習系統就是這些黑盒子,我們并不總是知道如何改進(jìn),有點(diǎn)像那些你必須通過(guò)擊打它們而必須修復的舊電視機,”Bau,相關(guān)的第一作者說(shuō)。有關(guān)由Torralba監督的團隊的系統的論文。“這項研究表明,雖然開(kāi)放電視并看看所有電線(xiàn)可能會(huì )讓人感到害怕,但那里會(huì )有很多有意義的信息。”
一個(gè)意外的發(fā)現是系統實(shí)際上似乎已經(jīng)學(xué)習了一些關(guān)于對象之間關(guān)系的簡(jiǎn)單規則。它以某種方式知道不要將某些東西放在它不屬于的地方,就像天空中的窗戶(hù)一樣,它也會(huì )在不同的環(huán)境中創(chuàng )造出不同的視覺(jué)效果。例如,如果圖像中有兩個(gè)不同的建筑物,并且要求系統為兩者添加門(mén),則不會(huì )簡(jiǎn)單地添加相同的門(mén) - 它們最終可能看起來(lái)彼此完全不同。
“所有繪圖應用程序都將遵循用戶(hù)指令,但如果用戶(hù)命令將對象放在不可能的位置,我們可能決定不繪制任何內容,”Torralba說(shuō)。“這是一個(gè)具有強烈個(gè)性的繪圖工具,它打開(kāi)了一個(gè)窗口,讓我們了解GAN如何學(xué)會(huì )代表視覺(jué)世界。”
GAN是為相互競爭而開(kāi)發(fā)的一組神經(jīng)網(wǎng)絡(luò )。在這種情況下,一個(gè)網(wǎng)絡(luò )是專(zhuān)注于創(chuàng )建逼真圖像的生成器,第二個(gè)是鑒別器,其目標是不被生成器欺騙。每次鑒別器“捕獲”發(fā)生器時(shí),它必須暴露內部推理以做出決定,這使得發(fā)生器能夠不斷變得更好。
“看到這項工作如何讓我們直接看到GAN實(shí)際上學(xué)到的東西開(kāi)始看起來(lái)有點(diǎn)像常識,真是令人興奮,” 芬蘭阿爾托大學(xué)副教授Jaakko Lehtinen說(shuō),他沒(méi)有參與該項目。“我認為這種能力是擁有可以在人類(lèi)世界中發(fā)揮作用的自主系統的關(guān)鍵踏腳石,這種系統是無(wú)限的,復雜的,不斷變化的。”
剔除不需要的“假”圖像
該團隊的目標是讓人們更好地控制GAN網(wǎng)絡(luò )。但是他們認識到,隨著(zhù)權力的增加,濫用的可能性就像使用這些技術(shù)來(lái)醫生照片一樣。合著(zhù)者朱俊艷表示,他相信更好地了解GAN - 以及他們所犯的錯誤 - 將有助于研究人員更好地消除偽造。
“你需要先了解你的對手才能防御它,”CSAIL的博士后朱說(shuō)。“這種理解可能有助于我們更輕松地檢測假圖像。”
為了開(kāi)發(fā)該系統,該團隊首先確定了GAN內部與特定類(lèi)型的對象(如樹(shù)木)相關(guān)的單元。然后,它單獨測試這些單元,看看是否擺脫它們會(huì )導致某些物體消失或出現。重要的是,他們還確定了導致視覺(jué)錯誤(工件)的單元,并努力將其移除以提高圖像的整體質(zhì)量。
IBM的研究科學(xué)家Hendrik Strobelt說(shuō):“每當GAN產(chǎn)生非常不切實(shí)際的圖像時(shí),這些錯誤的原因以前就是一個(gè)謎。” “我們發(fā)現這些錯誤是由特定的神經(jīng)元觸發(fā)的,我們可以沉默,以提高圖像的質(zhì)量。”
Bau,Strobelt,Torralba和朱與前CSAIL博士生Bolei Zhou,博士后助理Jonas Wulff和本科生William Peebles共同撰寫(xiě)了這篇論文。他們將于下個(gè)月在洛杉磯舉行的SIGGRAPH會(huì )議上發(fā)表演講。“這個(gè)系統為更好地理解GAN模型打開(kāi)了一扇大門(mén),這將有助于我們對GAN進(jìn)行任何類(lèi)型的研究,”Lehtinen說(shuō)。
