訓練AI在照片中生成各種姿勢和顏色的物體和動(dòng)物

2020-05-08 11:35:32    來(lái)源:新經(jīng)網(wǎng)    作者:馮思韻

大多數的救火車(chē)都是紅色的,但是用藍色描繪一個(gè)并不難。電腦幾乎沒(méi)有創(chuàng )造力。

他們對世界的理解通常會(huì )從字面上被他們所訓練的數據所著(zhù)色。如果他們所看到的只是紅色消防車(chē)的照片,他們將無(wú)法繪制其他任何東西。

為了給計算機視覺(jué)模型一個(gè)更完整,更富想象力的世界視圖,研究人員試圖為它們提供更多不同的圖像。有些人嘗試從奇特的角度和不尋常的位置拍攝物體,以更好地傳達其真實(shí)世界的復雜性。其他人則要求模型使用稱(chēng)為GAN或生成對抗網(wǎng)絡(luò )的人工智能形式生成自己的圖片。在這兩種情況下,目的都是為了填補圖像數據集的空白,以更好地反映三維世界,并減少面部和物體識別模型的偏倚。

訓練AI在照片中生成各種姿勢和顏色的物體和動(dòng)物

在國際學(xué)習表示會(huì )議上的一項新研究中,麻省理工學(xué)院的研究人員提出了一種創(chuàng )造力測試,以了解GAN可以對給定圖像進(jìn)行細化處理。他們將模型 “引導” 到照片的主體中,并要求其在明亮的光線(xiàn)下,在空間中旋轉或以不同的顏色繪制特寫(xiě)的物體和動(dòng)物。

該模型的創(chuàng )建方式有些微妙,有時(shí)甚至令人驚訝。事實(shí)證明,這些變化緊密地追蹤了人類(lèi)攝影師如何在鏡頭前構圖場(chǎng)景。這些偏見(jiàn)被烘焙到基礎數據集中,并且該研究中提出的控制方法旨在使這些限制顯而易見(jiàn)。

麻省理工學(xué)院的研究科學(xué)家阿里·賈哈尼安說(shuō):“潛伏空間是圖像的DNA所在。” “我們證明,您可以直接進(jìn)入這個(gè)抽象空間,并控制您希望GAN表現出的特性,直到某一點(diǎn)。我們發(fā)現GAN的創(chuàng )造力受到其學(xué)習圖像多樣性的限制。” 賈哈尼(Jahanian)是該研究的合著(zhù)者盧西·柴(Lucy Chai)參與的研究。麻省理工學(xué)院的學(xué)生,高級作者Phillip Isola,Bonnie and Marty(1964)Tenenbaum CD電氣工程和計算機科學(xué)助理教授。

研究人員將他們的方法應用于已經(jīng)接受ImageNet 1400萬(wàn)張照片訓練的GAN。然后,他們測量了模型在變換不同類(lèi)別的動(dòng)物,物體和場(chǎng)景方面可以走多遠。他們發(fā)現,藝術(shù)冒險的程度因GAN試圖操縱的主題類(lèi)型而異。

例如,一個(gè)上升的熱氣球比旋轉的比薩餅產(chǎn)生更多的醒目的姿勢。放大波斯貓而不是知更鳥(niǎo)時(shí),情況也是如此,貓離觀(guān)察者越遠,它們融化成一堆毛皮,而鳥(niǎo)幾乎保持不變。他們發(fā)現,模特高興地把汽車(chē)變成了藍色,將水母變成了紅色,但是它拒絕用標準顏色以外的任何顏色畫(huà)金翅雀或救火車(chē)。

GAN似乎還令人驚訝地適應了某些景觀(guān)。當研究人員提高一組山上照片的亮度時(shí),該模型異想天開(kāi)地向火山中噴出了火熱噴發(fā),但在阿爾卑斯山卻沒(méi)有一個(gè)地質(zhì)上較老的休眠親戚。好像GAN捕捉到的GAN會(huì )隨著(zhù)白天到深夜的變化而變化,但似乎可以理解,只有火山在晚上變得更亮。

研究人員說(shuō),這項研究提醒人們,深度學(xué)習模型的輸出在多大程度上取決于其數據輸入。GAN憑借其從數據推斷和以新穎的方式可視化世界的能力而引起了情報研究人員的關(guān)注。

他們可以拍攝爆頭,然后將其轉換成文藝復興時(shí)期風(fēng)格的肖像或喜愛(ài)的名人。但是,盡管GAN能夠自己學(xué)習令人驚訝的細節,例如如何將風(fēng)景分為云朵和樹(shù)木,或生成貼在人們腦海中的圖像,但它們仍然主要是數據的奴隸。他們的創(chuàng )作反映了成千上萬(wàn)攝影師的偏見(jiàn),無(wú)論是他們選擇的拍攝方式還是構圖的方式。

芬蘭Aaalto大學(xué)教授,NVIDIA研究科學(xué)家Jaako Lehtinen表示:“我喜歡這項工作,是在看GAN所學(xué)到的陳述,并推動(dòng)它揭示做出這些決定的原因。”研究。“ GAN令人難以置信,可以學(xué)習有關(guān)物理世界的各種事物,但是它們仍然無(wú)法像人類(lèi)一樣以物理上有意義的方式表示圖像。”

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。