利用AI生成高度逼真視頻的一次重要嘗試

2019-07-25 15:50:28 來(lái)源：人工智能網(wǎng) 作者：

近日，DeepMind的研究人員研發(fā)了一個(gè)名叫Dual Video Discriminator GAN(DVD-GAN)的人工智能模型，該模型通過(guò)能夠通過(guò)學(xué)習一系列的YouTube視頻數據集，生成高度逼真且連貫的256 x 256像素視頻，最長(cháng)可達48幀。

目前，DVD-GAN的研究成果已于美國時(shí)間2019年7月15日發(fā)表在arxiv上，名為《在復雜數據集上的高效視頻生成(Efficient Video Generation on Complex Datasets)》。

AI造假視頻比造假圖片更難

最近，俄羅斯AI研究人員開(kāi)發(fā)的FaceApp著(zhù)實(shí)大火了一把，這款應用通過(guò)人工智能技術(shù)能夠改變用戶(hù)自拍照的年齡、外貌、發(fā)色和性別，甚至可以生成虛構的人物照片。這直接讓人們近距離地感受了人工智能技術(shù)給我們的生活帶來(lái)的樂(lè )趣。

但是否有人想過(guò)，有朝一日這些技術(shù)也能應用在視頻領(lǐng)域呢?

如果說(shuō)BigGAN是DeepMind在圖像領(lǐng)域開(kāi)發(fā)的能夠生成高度逼真圖像的圖像生成器，那么DeepMind研究人員們開(kāi)發(fā)的DVD-GAN，就是人工智能在視頻剪輯生成領(lǐng)域的最新突破。

研究人員在論文中表示，生成自然視頻對生成式建模來(lái)說(shuō)是一個(gè)較大的挑戰，同時(shí)還會(huì )受到數據復雜性和計算需求增加的困擾。

因此，之前業(yè)界的研究人員們在研究視頻生成領(lǐng)域時(shí)，幾乎都圍繞著(zhù)相對簡(jiǎn)單的數據集，或者采用有限的時(shí)間信息來(lái)降低任務(wù)的復雜程度。

而這次，DeepMind的研究人員們主要針對視頻合成和視頻預測的任務(wù)，將生成圖像模型的強大功能和逼真效果擴展到視頻領(lǐng)域。

DVD-GAN：基于BigGAN模型結構

研究人員們基于BigGAN的模型結構，構建了DVD-GAN的系統，并引入了一系列用于視頻生成的調整，使DVD-GAN能夠在Kinetics-600上進(jìn)行訓練。

Kinetics-600是一組由50萬(wàn)段10秒高分辨率的YouTube視頻剪輯匯編而成的訓練數據集，它最初是為識別人類(lèi)動(dòng)作而制作的，比目前其他常用的語(yǔ)料庫還大一個(gè)數量級。

同時(shí)，研究人員們表示，Kinetics-600具有多樣化特征，能消除他們對過(guò)擬合(Overfitting)的擔憂(yōu)。過(guò)擬合主要是指機器學(xué)習時(shí)選擇的模型所包含的參數過(guò)多，以至出現這一模型對已知數據預測得很好，但對未知數據預測得很差的現象。

另一方面，DeepMind的研究人員們利用生成對抗以提供一個(gè)能生成動(dòng)作的學(xué)習信號。

此外，DVD-GAN還有一個(gè)單獨的Transformer模塊，它可以讓學(xué)習信息在整合AI模型中傳播。

訓練12至96小時(shí)即可生成視頻

研究論文表明，在經(jīng)過(guò)Google第三代TPU訓練了12至96個(gè)小時(shí)后，DVD-GAN可以成功地生成視頻，這些視頻內容包含了物體的組成和運動(dòng)，以及各種復雜的紋理。

不足的是，DVD-GAN生成的視頻內容有時(shí)較為“詭異”，例如生成的物體和人形奇形怪狀，甚至人體忽長(cháng)忽短地變化。

但研究人員指出，當把DVD-GAN放在UCF-101(一個(gè)包含13320個(gè)人類(lèi)動(dòng)作視頻的較小數據集)上進(jìn)行評估后，DVD-GAN生成的樣本初始值最高為32.97。

DeepMind的研究人員們希望能進(jìn)一步強調在大型復雜視頻數據集上訓練生成模型的好處，例如Kinetics-600。

“我們設想通過(guò)DVD-GAN在這個(gè)數據集上建立強大的基線(xiàn)，該基線(xiàn)將被用作未來(lái)建模生成領(lǐng)域的參考點(diǎn)。”研究人員表示，“盡管在不受約束的環(huán)境下持續生成逼真的視頻還需要進(jìn)行很多工作，但我們相信DVD-GAN是我們朝這個(gè)方向邁出的重要一步。”

網(wǎng)絡(luò )(GANs)來(lái)區分生成樣本和真實(shí)世界樣本，該網(wǎng)絡(luò )主要由生成器和判別器兩部分組成。

GANs曾被應用在把文字轉換成一幕幕的場(chǎng)景故事，或生成人造星系圖像等任務(wù)中。而研究人員們這次使用的是名為BigGANs的生成對抗網(wǎng)絡(luò )，該網(wǎng)絡(luò )以大批量和數百萬(wàn)個(gè)參數而得名。

值得一提的是，DVD-GAN包含兩個(gè)判別器。一個(gè)是空間判別器(Spatial Discriminator：D_S)，該判別器通過(guò)隨機采樣全分辨率幀并單獨處理，以評估單個(gè)幀的內容和結構;另一個(gè)是時(shí)間判別器(Temporal Discriminator：D_T)，它可以提供一個(gè)能生成動(dòng)作的學(xué)習信號。

此外，DVD-GAN還有一個(gè)單獨的Transformer模塊，它可以讓學(xué)習信息在整合AI模型中傳播。

結語(yǔ)：用AI生成高度逼真視頻的一次嘗試

不管是BigGAN還是FaceApp，以往的研究人員們在人工智能生成圖像領(lǐng)域進(jìn)行了許多具有突破性的研究，但在視頻領(lǐng)域，除了AI換臉曾火了一把之外，并沒(méi)有更多的突破性進(jìn)展。

而DeepMind的研究人員們基于BigGAN架構和Kinetics-600訓練數據集開(kāi)發(fā)的DVD-GAN，利用計算高效的判別器分解，擴展到時(shí)間更長(cháng)、分辨率更高的視頻。就目前來(lái)說(shuō)，雖然這一成果還有些許不足，但這無(wú)疑是研究人員們利用AI生成高度逼真視頻的一次重要嘗試。

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播更多信息之目的，如作者信息標記有誤，請第一時(shí)間聯(lián)系我們修改或刪除，多謝。

RM新时代投资官网

相關(guān)推薦