本月初,OpenAI-后面去年夏天的研究機構大肆宣傳的語(yǔ)言模型GPT-3發(fā)布的名為DALL-E新的AI模式。盡管它產(chǎn)生的嗡嗡聲不及GPT-3,但DALL-E對AI的未來(lái)具有更深遠的影響。

簡(jiǎn)而言之,DALL-E將文本標題作為輸入,并生成原始圖像作為輸出。(該名稱(chēng)是對超現實(shí)主義藝術(shù)家薩爾瓦多·達利和可愛(ài)的皮克斯機器人WALL-E的致敬。)
例如,當輸入諸如“五角形綠色時(shí)鐘”,“火球”或“建筑物側面的藍色南瓜壁畫(huà)”之類(lèi)的短語(yǔ)時(shí),DALL-E能夠生成令人震驚的準確視覺(jué)效果。(值得花一些時(shí)間親自研究一些示例。)
為什么DALL-E很重要?
首先,它預示了一種稱(chēng)為“多模式AI”的新AI范式的誕生,該范式似乎注定了人工智能的未來(lái)。多模式AI系統能夠在DALL-E的情況,語(yǔ)言和圖像中解釋?zhuān)铣珊头g多種信息模式。DALL-E并不是多模式AI的第一個(gè)示例,但它迄今為止是最令人印象深刻的。
OpenAI聯(lián)合創(chuàng )始人Ilya Sutskever很好地總結了這一點(diǎn):“世界不僅僅是文本。人類(lèi)不僅在說(shuō)話(huà):我們也看到了??雌饋?lái)很重要。”
當前存在的大多數AI系統僅處理一種類(lèi)型的數據。NLP模型(例如GPT-3)僅處理文本;計算機視覺(jué)模型(例如,面部識別系統)僅處理圖像。這是比人腦輕松實(shí)現的智力要豐富得多的形式。
