OpenAI的最新研究將其機器學(xué)習代理置于一個(gè)簡(jiǎn)單的捉迷藏游戲中,他們進(jìn)行了一次巧妙的軍備競賽,以意想不到的方式使用對象來(lái)實(shí)現其可見(jiàn)或被看見(jiàn)的目的。這種自學(xué)成才的AI可能在現實(shí)世界中也很有用。

這項研究旨在并且成功地探究了機器學(xué)習代理學(xué)習復雜的,與現實(shí)世界相關(guān)的技術(shù)的可能性,而不會(huì )干擾研究人員的建議。
諸如識別照片中的物體或發(fā)明合理的人臉之類(lèi)的任務(wù)既困難又有用,但它們并不能真正反映人們在現實(shí)世界中可能采取的行動(dòng)。您可能會(huì )說(shuō),他們具有很高的智力,因此即使不離開(kāi)計算機,也可以達到很高的效率。
試圖訓練AI使用機械臂來(lái)握住杯子并將其放入茶碟中的嘗試比人們想象的要困難得多(并且只有在非常特殊的情況下才能完成);現實(shí),物理世界的復雜性使單純依靠計算機進(jìn)行的任務(wù)學(xué)習變得幾乎不可能。
同時(shí),中間任務(wù)不一定完全反映現實(shí)世界,但仍然可以與現實(shí)世界相關(guān)。一個(gè)簡(jiǎn)單的方法可能是當出現多個(gè)相關(guān)物體或人物時(shí)如何改變機器人的臉。您無(wú)需進(jìn)行一千次物理試驗就可以知道它應該自行旋轉還是可以旋轉相機,使其既可以看到又可以旋轉,也可以在它們之間切換,等等。

OpenAI對其嬰兒ML代理的捉迷藏挑戰遵循以下原則:具有簡(jiǎn)單規則的游戲環(huán)境(稱(chēng)為Polyworld),但仍使用與現實(shí)世界相鄰的物理方法和輸入。如果AI可以自學(xué)導航簡(jiǎn)化的現實(shí),也許他們可以將這些技能(經(jīng)過(guò)一些修改)轉移到成熟的現實(shí)中。
無(wú)論如何,這就是實(shí)驗背后的想法,但它本身很有趣。游戲在一個(gè)由一些隨機生成的墻和物體組成的小型3D競技場(chǎng)中,使兩支隊伍相互對抗。在其中生成了多個(gè)代理,并給“隱藏者”幾秒鐘以熟悉環(huán)境和隱藏。它們還可以與對象互動(dòng),將它們推向四周并將它們鎖定在適當的位置。一旦“搜索者”抬起頭,他們就有一定的時(shí)間發(fā)現它們。
機器學(xué)習程序所了解的全部是基本的感覺(jué)-每個(gè)代理都有一個(gè)世界觀(guān)以及一種告訴他們附近物體位置的“激光雷達”-以及他們可以移動(dòng)物體的知識。但除此之外,他們只是獲得成功或尋找或躲藏的機會(huì ),這就是他們的動(dòng)力。
從這些基本的開(kāi)始就產(chǎn)生了有趣的結果。首先,團隊基本上是隨機移動(dòng)的。但是,在數百萬(wàn)場(chǎng)比賽中,藏身者發(fā)現,通過(guò)以某種方式“粗暴”地逃跑,他們可以更頻繁地提高得分。于是軍備競賽開(kāi)始了。
由于藏匿者逃跑了,搜尋者開(kāi)始發(fā)展更有條理的追求行為。但是隨后出現了工具。
藏匿者發(fā)現他們可以在野外推拉物體,并開(kāi)始在它們上面建造堡壘。
搜尋者的反應是使用在野外發(fā)現的坡道來(lái)提升物體并撞毀要塞。
當搜尋者仍在計數時(shí),躲藏者開(kāi)始尋找坡道,要么偷走它們,要么將它們鎖定在適當的位置(對立團隊的特工無(wú)法撤消鎖定)。有趣的是,這涉及一定程度的分工,因為兩個(gè)藏匿者通常沒(méi)有足夠的時(shí)間出去尋找坡道。一個(gè)不得不準備要塞,而另一個(gè)要進(jìn)行坡道巡邏。
OpenAI團隊以為這就是結局,但尋求者學(xué)會(huì )了利用游戲世界的意外功能。他們發(fā)現可以騎在盒子上面時(shí)“推”箱子,這意味著(zhù)他們可以將其放在斜坡附近,爬上它,然后在整個(gè)田野上“沖浪”,找到那些頑皮的藏身處。
當然,藏身者的回應是鎖定了他們沒(méi)有用來(lái)建造堡壘的所有物品,這似乎是游戲中策略的終點(diǎn)。
那有什么意義呢?正如該論文的作者所解釋的那樣,這就是我們出現的方式。
由于自然選擇指導的生物之間的共同進(jìn)化和競爭,地球上大量的復雜性和多樣性得到了發(fā)展。當出現新的成功策略或變異時(shí),它會(huì )更改相鄰代理需要解決的隱式任務(wù)分配,并為適應帶來(lái)新的壓力。這些進(jìn)化軍備競賽創(chuàng )建了隱式的自動(dòng)課程,因此競爭主體不斷為彼此創(chuàng )建新任務(wù)。
在具有物理基礎和開(kāi)放性的環(huán)境中引入自動(dòng)課程可能最終使代理能夠獲得無(wú)數的與人相關(guān)的技能。
換句話(huà)說(shuō),讓AI模型以無(wú)人監督的方式競爭可能是發(fā)展有用和強大技能的更好的方法,而不是讓它們自己四處閑逛,積累諸如探索環(huán)境百分比之類(lèi)的抽象數字。

通過(guò)參數化和控制AI與環(huán)境的交互作用,人們越來(lái)越難甚至不可能指導AI的各個(gè)方面。對于像機器人在擁擠的環(huán)境中導航這樣的復雜任務(wù),有太多因素導致人為設計行為可能永遠不會(huì )產(chǎn)生這些特工在日常生活中所必需的那種復雜性。
但是,正如我們在這里和GAN中所看到的那樣,它們可以互相教teach,一對決斗的AI在創(chuàng )建或檢測現實(shí)媒體時(shí)相互擊敗。OpenAI研究人員認為,在許多其他方法過(guò)于緩慢或結構化的情況下,“多主體自動(dòng)課程”或自教學(xué)代理是前進(jìn)的道路。他們得出結論:
“這些結果激發(fā)了人們的信心,即在更加開(kāi)放和多樣化的環(huán)境中,多主體動(dòng)態(tài)可能會(huì )導致極其復雜且與人類(lèi)相關(guān)的行為。”
