深度學(xué)習模型正在教電腦自己思考 有一些非常有趣和有趣的結果

2019-07-30 14:55:04    來(lái)源:    作者:

深度學(xué)習正在應用于越來(lái)越多的領(lǐng)域和行業(yè)。從無(wú)人駕駛汽車(chē)到播放Go,再到生成圖像的音樂(lè ),每天都會(huì )有新的深度學(xué)習模型出現。在這里,我們介紹幾種流行的深度學(xué)習模型??茖W(xué)家和開(kāi)發(fā)人員正在采用這些模型并以創(chuàng )新的方式對其進(jìn)行修改。我們希望這個(gè)展示會(huì )激發(fā)您的靈感,看看有什么可能。

神經(jīng)風(fēng)格

深度學(xué)習模型之旅

如果您曾經(jīng)使用過(guò)Instagram或Snapchat,那么您熟悉使用可以改變圖像亮度,飽和度,對比度等的濾鏡。神經(jīng)風(fēng)格,一種深度學(xué)習算法,超越了過(guò)濾器,允許您轉換一個(gè)圖像的風(fēng)格,也許是梵高的“星夜”,并將該風(fēng)格應用到任何其他圖像上。

它是如何工作的?

神經(jīng)風(fēng)格使用深度神經(jīng)網(wǎng)絡(luò )來(lái)分離和重新組合任何兩個(gè)圖像的內容和樣式。它是第一個(gè)提供創(chuàng )作藝術(shù)圖像算法的人工神經(jīng)網(wǎng)絡(luò )(ANN)之一。(要了解有關(guān)人工神經(jīng)網(wǎng)絡(luò )的更多信息,請參閱人工智能與神經(jīng)網(wǎng)絡(luò )有什么區別?)

該模型有兩個(gè)輸入圖像,一個(gè)用于樣式,另一個(gè)用于內容。在卷積神經(jīng)網(wǎng)絡(luò )(CNN)層級中的每個(gè)處理階段,圖像被分成一組濾波圖像。雖然不同過(guò)濾器的數量沿著(zhù)處理層級增加,但是過(guò)濾圖像的總體大小減小,導致每層網(wǎng)絡(luò )的單元總數減少。

深度學(xué)習模型之旅

上圖顯示了CNN中不同處理階段的信息。來(lái)自較低層(a,b,c)的內容重建幾乎是原始圖像的精確復制品。然而,在網(wǎng)絡(luò )的較高層中,詳細的像素信息丟失,而高級結構和細節保持相同(d,e)。同時(shí),模型在內容CNN表示之上捕獲另一輸入圖像的樣式。然后,樣式表示在CNN的不同層中的不同特征之間繪制連接。然后,模型在每個(gè)CNN層內的內容表示之上重建輸入圖像的樣式。當您在網(wǎng)絡(luò )的層次結構中移動(dòng)時(shí),這將創(chuàng )建與樣式相匹配的圖像。

神經(jīng)故事講述者

神經(jīng)故事講述者是一種模型,當給出圖像時(shí),可以生成關(guān)于圖像的浪漫故事。這是一個(gè)有趣的玩具,你可以想象未來(lái),看看所有這些人工智能模型的發(fā)展方向。

深度學(xué)習模型之旅

我在同一時(shí)間看著(zhù)河流,因為它已經(jīng)開(kāi)始褪色。事實(shí)上,有很多次我想知道在我腦海里發(fā)生了什么。在遠處,她從湖中撤出,進(jìn)入森林。她不知道該怎么辦他。事實(shí)上,他很可能會(huì )離開(kāi)她。我母親的肢體語(yǔ)言告訴我她很漂亮,但大多數時(shí)候,我深吸一口氣。她可能想掛在懸崖上,把它留在一個(gè)地獄般的湖中

建筑師

構建神經(jīng)網(wǎng)絡(luò )模型以實(shí)現目標越來(lái)越多地涉及構建更大和更復雜的流水線(xiàn),其可以包括將不同算法混合和匹配在一起。神經(jīng)故事講述者由四個(gè)主要部分組成:跳過(guò)思維向量,圖像句子嵌入,樣式移位和條件神經(jīng)語(yǔ)言模型。

跳過(guò)思想向量

跳過(guò)思維向量是一種在無(wú)人監督(從無(wú)標簽數據推斷函數)方式中對文本進(jìn)行編碼的方法。通過(guò)利用文本的連續性,系統以無(wú)人監督的方式工作。對于文本中的任何給定句子,它會(huì )嘗試重建周?chē)奈谋?。對于神?jīng)故事講述者,浪漫小說(shuō)被轉換為跳過(guò)思維的向量。

深度學(xué)習模型之旅

圖像句子嵌入

構建另一個(gè)單獨的模型,即視覺(jué)語(yǔ)義嵌入模型,以便在給定圖像時(shí),輸出描述該圖像的句子。用于訓練此數據集的數據集稱(chēng)為MSCOCO。有許多模型已經(jīng)這樣做,例如Neural Talk。

有了這兩個(gè)模型,它們現在可以連接在一起,以獲得我們正在尋找的結果。寫(xiě)的另一個(gè)程序基本上是這個(gè)函數:

在此函數中,x表示圖像標題,c表示“標題樣式”,b表示“書(shū)籍樣式”。該功能的想法可以轉化為:保持標題的“思想”,但將圖像標題樣式替換為故事的標題樣式。在函數c中,通過(guò)獲取為圖像生成的頂部MSCOCO標題的平均值來(lái)生成標題樣式。而b是浪漫小說(shuō)段落的跳過(guò)思想向量的意思。

風(fēng)格轉移

上述功能是“風(fēng)格轉換”操作,允許模型將標準圖像標題轉換為小說(shuō)中的故事風(fēng)格。風(fēng)格轉換的靈感來(lái)自“藝術(shù)風(fēng)格的神經(jīng)算法”。

數據

此模型中使用了兩種主要的數據源。MSCOCO是Microsoft的數據集,包含大約300,000張圖像,每張圖像包含五個(gè)標題。MSCOCO是唯一使用的監督數據,這意味著(zhù)它是人類(lèi)必須進(jìn)入并明確寫(xiě)出每個(gè)圖像的字幕的唯一數據。

深度學(xué)習模型之旅

另一個(gè)數據源稱(chēng)為BookCorpus。該模型是在BookCorpus的一部分上進(jìn)行訓練的,特別是來(lái)自浪漫小說(shuō)的1100萬(wàn)段。但BookCorpus還包含冒險,科幻和其他類(lèi)型的書(shū)籍。

角色RNN

前饋網(wǎng)絡(luò )與遞歸神經(jīng)網(wǎng)絡(luò )

直到最近,大多數計算機科學(xué)家已經(jīng)主要與前饋神經(jīng)網(wǎng)絡(luò )計算的預測問(wèn)題,實(shí)驗,例如,是一個(gè)電子郵件消息垃圾郵件或不?在典型的前饋神經(jīng)網(wǎng)絡(luò )中,輸入被給予模型。然后,模型處理隱藏層中幕后的輸入并吐出輸出。隱藏層以一種金字塔結構排列,其中每個(gè)較高層是基于來(lái)自每個(gè)連續下層的輸入和計算來(lái)計算的,但反之亦然(較高層級別不影響較低層)。例如,前饋網(wǎng)絡(luò )可用于確定圖像中的對象。較低層將分析對象的形狀和線(xiàn)條,而較高層將組合形狀并對對象進(jìn)行分類(lèi)。

深度學(xué)習模型之旅

前饋神經(jīng)網(wǎng)絡(luò )的主要局限之一是它沒(méi)有記憶。每個(gè)預測都獨立于先前的計算,就好像它是網(wǎng)絡(luò )有史以來(lái)第一次也是唯一的預測。但對于許多任務(wù),例如翻譯句子或段落,輸入應包括順序和上下文相關(guān)的數據。例如,如果沒(méi)有周?chē)鷨卧~提供的上下文,就很難理解句子中的單個(gè)單詞。

深度學(xué)習模型之旅

RNN是不同的,因為它們在神經(jīng)元之間添加了另一組連接。這些鏈接允許來(lái)自隱藏層中的神經(jīng)元的激活在序列的下一步驟中反饋回自身。換句話(huà)說(shuō),在每個(gè)步驟中,隱藏層都從其下面的層接收激活,也從序列中的前一步驟接收激活。該結構基本上給出了遞歸神經(jīng)網(wǎng)絡(luò )存儲器。因此,對于物體檢測的任務(wù),RNN可以利用其先前的狗的分類(lèi)來(lái)幫助確定當前圖像是否是狗。

Char-RNN TED

隱藏層中的這種靈活結構允許RNN非常適合字符級語(yǔ)言模型。Char RNN最初由Andrej Karpathy創(chuàng )建,是一個(gè)模型,它將一個(gè)文本文件作為輸入并訓練RNN以學(xué)習預測序列中的下一個(gè)字符。RNN可以逐字符地生成文本,看起來(lái)像原始訓練數據。使用各種TED演講的成績(jì)單訓練了一個(gè)演示。為模型提供一個(gè)或多個(gè)關(guān)鍵字,它將生成關(guān)于TED對話(huà)的語(yǔ)音/風(fēng)格中的關(guān)鍵字的段落。

結論

這些模型展示了機器智能方面的新突破,這些突破因深入學(xué)習而成為可能。深度學(xué)習表明,我們可以解決以前永遠無(wú)法解決的問(wèn)題,而且我們還沒(méi)有達到這個(gè)高原。由于深度學(xué)習創(chuàng )新,預計未來(lái)幾年會(huì )有更多令人興奮的事情,如無(wú)人駕駛汽車(chē)。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。