當今的智能手機經(jīng)常使用人工智能來(lái)使我們拍攝的照片更清晰

2019-11-12 17:10:02    來(lái)源:    作者:

當今的智能手機經(jīng)常使用人工智能(AI)來(lái)使我們拍攝的照片更清晰,更清晰。但是,如果可以使用這些AI工具從頭開(kāi)始創(chuàng )建整個(gè)場(chǎng)景呢?麻省理工學(xué)院和IBM的團隊現在已經(jīng)使用“ GANpaint Studio”完成了這一任務(wù),該系統可以自動(dòng)生成逼真的攝影圖像并編輯其中的對象。研究人員說(shuō),除了幫助藝術(shù)家和設計師快速調整視覺(jué)效果外,這項工作還可以幫助計算機科學(xué)家識別“偽造”圖像。

David Bau博士 麻省理工學(xué)院計算機科學(xué)與人工智能實(shí)驗室(CSAIL)的一名學(xué)生將這個(gè)項目描述為計算機科學(xué)家首次真正能夠“用神經(jīng)網(wǎng)絡(luò )的神經(jīng)元進(jìn)行繪畫(huà)”,特別是一種流行的網(wǎng)絡(luò ),稱(chēng)為“生成網(wǎng)絡(luò )”。對抗網(wǎng)絡(luò )(GAN)。

GANpaint Studio 作為交互式演示在線(xiàn)提供,用戶(hù)可以上傳自己選擇的圖像并修改其外觀(guān)的多個(gè)方面,從更改對象的大小到添加全新的項目(如樹(shù)木和建筑物)。

設計師的福音

該項目由MIT教授A(yíng)ntonio Torralba牽頭,是他領(lǐng)導的MIT-IBM Watson AI Lab的一部分,該項目具有廣泛的潛在應用。設計師和藝術(shù)家可以使用它來(lái)更快地調整其視覺(jué)效果。使系統適應視頻剪輯,將使計算機圖形編輯人員可以快速組合特定鏡頭所需的特定對象布置。(例如,想象一下,如果一個(gè)導演與演員一起拍攝了一個(gè)完整的場(chǎng)景,但是卻忘記在背景中包含一個(gè)對劇情很重要的對象。)

GANpaint Studio還可以通過(guò)分析需要刪除的“工件”單元,來(lái)改進(jìn)和調試正在開(kāi)發(fā)的其他GAN。在不透明的AI工具使圖像處理比以往更容易的世界中,它可以幫助研究人員更好地理解神經(jīng)網(wǎng)絡(luò )及其底層結構。

“目前,機器學(xué)習系統就是這些黑匣子,我們并不總是知道如何改進(jìn)這些黑匣子,就像老式的電視機一樣,您必須將它們撞到一邊,” Bau說(shuō)。由Torralba監督的團隊撰寫(xiě)有關(guān)該系統的論文。“這項研究表明,盡管打開(kāi)電視并仔細查看所有電線(xiàn)可能會(huì )很?chē)樔?,但那里?huì )有很多有意義的信息。”

一個(gè)意外的發(fā)現是該系統實(shí)際上似乎已經(jīng)學(xué)習了一些有關(guān)對象之間關(guān)系的簡(jiǎn)單規則。它以某種方式知道不要在不屬于自己的地方放置某些東西,例如天空中的窗戶(hù),并且它還會(huì )在不同的上下文中創(chuàng )建不同的視覺(jué)效果。例如,如果圖像中有兩個(gè)不同的建筑物,并且要求系統在兩個(gè)建筑物上都添加門(mén),則不只是添加相同的門(mén),它們最終看起來(lái)可能彼此完全不同。

“所有繪圖應用程序都將遵循用戶(hù)的說(shuō)明,但是如果用戶(hù)命令將對象放置在不可能的位置,我們的應用程序可能會(huì )決定不繪制任何內容,” Torralba說(shuō)。“這是一個(gè)具有強烈個(gè)性的繪圖工具,它打開(kāi)了一個(gè)窗口,使我們能夠了解GAN如何學(xué)會(huì )代表視覺(jué)世界。”

GAN是為相互競爭而開(kāi)發(fā)的神經(jīng)網(wǎng)絡(luò )集。在這種情況下,一個(gè)網(wǎng)絡(luò )是專(zhuān)注于創(chuàng )建逼真的圖像的生成器,第二個(gè)網(wǎng)絡(luò )是一個(gè)甄別器,其目標是不被該生成器欺騙。鑒別器每次“捕獲”生成器時(shí),都必須公開(kāi)決策的內部推理,這使生成器不斷變得更好。

芬蘭阿爾托大學(xué)副教授Jaakko Lehtinen說(shuō):“看到這項工作如何使我們直接看到GAN真正開(kāi)始學(xué)習一些常識,真是令人難以置信。” 。“我認為這種能力是擁有可以在人類(lèi)世界中實(shí)際運行的自治系統的關(guān)鍵墊腳石,它是無(wú)限,復雜和不斷變化的。”

刪除不需要的“假”圖像

該團隊的目標是使人們對GAN網(wǎng)絡(luò )有更多的控制權。但是他們認識到,權力的增強會(huì )帶來(lái)濫用的可能性,例如使用此類(lèi)技術(shù)來(lái)篡改照片。合著(zhù)者朱俊彥說(shuō),他相信更好地了解GAN以及他們犯的錯誤種類(lèi)將有助于研究人員更好地杜絕偽造品。

CSAIL的博士后朱說(shuō):“在防御之前,您需要了解對手。” “這種了解可能會(huì )幫助我們更輕松地檢測偽造圖像。”

為了開(kāi)發(fā)該系統,團隊首先確定了GAN內部與特定類(lèi)型的對象(例如樹(shù)木)相關(guān)的單元。然后,它分別測試了這些單元,看清除它們是否會(huì )導致某些物體消失或出現。重要的是,他們還確定了導致視覺(jué)錯誤(偽影)的單元,并努力將其移除以提高圖像的整體質(zhì)量。

IBM的合著(zhù)者Hendrik Strobelt說(shuō):“每當GAN生成極其不真實(shí)的圖像時(shí),這些錯誤的原因就一直是個(gè)謎。” “我們發(fā)現這些錯誤是由特定的神經(jīng)元集合觸發(fā)的,我們可以沉默這些神經(jīng)元來(lái)改善圖像質(zhì)量。”

Bau,Strobelt,Torralba和Zhu與前CSAIL博士共同撰寫(xiě)了這篇論文。學(xué)生Bolei Zhou,博士后研究員Jonas Wulff和本科生William Peebles。他們將在下個(gè)月于洛杉磯舉行的SIGGRAPH會(huì )議上介紹該文檔。Lehtinen說(shuō):“該系統為更好地理解GAN模型打開(kāi)了一扇門(mén),這將有助于我們進(jìn)行需要對GAN進(jìn)行的任何類(lèi)型的研究。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。