<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<label id="nhtyz"></label>

<blockquote id="nhtyz"><delect id="nhtyz"></delect></blockquote>

<code id="nhtyz"><wbr id="nhtyz"></wbr></code>

<ruby id="nhtyz"><th id="nhtyz"></th></ruby><code id="nhtyz"><wbr id="nhtyz"><sup id="nhtyz"></sup></wbr></code>

聰明的捉迷藏AI學(xué)會(huì )使用工具并打破規則

2020-02-06 16:30:04 來(lái)源：作者：

OpenAI的最新研究將其機器學(xué)習代理置于一個(gè)簡(jiǎn)單的捉迷藏游戲中，他們進(jìn)行了一次巧妙的軍備競賽，以意想不到的方式使用對象來(lái)實(shí)現其可見(jiàn)或被看見(jiàn)的目的。這種自學(xué)成才的AI可能在現實(shí)世界中也很有用。

聰明的捉迷藏AI學(xué)會(huì )使用工具并打破規則

這項研究旨在并且成功地探究了機器學(xué)習代理學(xué)習復雜的，與現實(shí)世界相關(guān)的技術(shù)的可能性，而不會(huì )干擾研究人員的建議。

諸如識別照片中的物體或發(fā)明合理的人臉之類(lèi)的任務(wù)既困難又有用，但它們并不能真正反映人們在現實(shí)世界中可能采取的行動(dòng)。您可能會(huì )說(shuō)，他們具有很高的智力，因此即使不離開(kāi)計算機，也可以達到很高的效率。

試圖訓練AI使用機械臂來(lái)握住杯子并將其放入茶碟中的嘗試比人們想象的要困難得多(并且只有在非常特殊的情況下才能完成);現實(shí)，物理世界的復雜性使單純依靠計算機進(jìn)行的任務(wù)學(xué)習變得幾乎不可能。

同時(shí)，中間任務(wù)不一定完全反映現實(shí)世界，但仍然可以與現實(shí)世界相關(guān)。一個(gè)簡(jiǎn)單的方法可能是當出現多個(gè)相關(guān)物體或人物時(shí)如何改變機器人的臉。您無(wú)需進(jìn)行一千次物理試驗就可以知道它應該自行旋轉還是可以旋轉相機，使其既可以看到又可以旋轉，也可以在它們之間切換，等等。

聰明的捉迷藏AI學(xué)會(huì )使用工具并打破規則

OpenAI對其嬰兒ML代理的捉迷藏挑戰遵循以下原則：具有簡(jiǎn)單規則的游戲環(huán)境(稱(chēng)為Polyworld)，但仍使用與現實(shí)世界相鄰的物理方法和輸入。如果AI可以自學(xué)導航簡(jiǎn)化的現實(shí)，也許他們可以將這些技能(經(jīng)過(guò)一些修改)轉移到成熟的現實(shí)中。

無(wú)論如何，這就是實(shí)驗背后的想法，但它本身很有趣。游戲在一個(gè)由一些隨機生成的墻和物體組成的小型3D競技場(chǎng)中，使兩支隊伍相互對抗。在其中生成了多個(gè)代理，并給“隱藏者”幾秒鐘以熟悉環(huán)境和隱藏。它們還可以與對象互動(dòng)，將它們推向四周并將它們鎖定在適當的位置。一旦“搜索者”抬起頭，他們就有一定的時(shí)間發(fā)現它們。

機器學(xué)習程序所了解的全部是基本的感覺(jué)-每個(gè)代理都有一個(gè)世界觀(guān)以及一種告訴他們附近物體位置的“激光雷達”-以及他們可以移動(dòng)物體的知識。但除此之外，他們只是獲得成功或尋找或躲藏的機會(huì )，這就是他們的動(dòng)力。

從這些基本的開(kāi)始就產(chǎn)生了有趣的結果。首先，團隊基本上是隨機移動(dòng)的。但是，在數百萬(wàn)場(chǎng)比賽中，藏身者發(fā)現，通過(guò)以某種方式“粗暴”地逃跑，他們可以更頻繁地提高得分。于是軍備競賽開(kāi)始了。

由于藏匿者逃跑了，搜尋者開(kāi)始發(fā)展更有條理的追求行為。但是隨后出現了工具。

藏匿者發(fā)現他們可以在野外推拉物體，并開(kāi)始在它們上面建造堡壘。

搜尋者的反應是使用在野外發(fā)現的坡道來(lái)提升物體并撞毀要塞。

當搜尋者仍在計數時(shí)，躲藏者開(kāi)始尋找坡道，要么偷走它們，要么將它們鎖定在適當的位置(對立團隊的特工無(wú)法撤消鎖定)。有趣的是，這涉及一定程度的分工，因為兩個(gè)藏匿者通常沒(méi)有足夠的時(shí)間出去尋找坡道。一個(gè)不得不準備要塞，而另一個(gè)要進(jìn)行坡道巡邏。

OpenAI團隊以為這就是結局，但尋求者學(xué)會(huì )了利用游戲世界的意外功能。他們發(fā)現可以騎在盒子上面時(shí)“推”箱子，這意味著(zhù)他們可以將其放在斜坡附近，爬上它，然后在整個(gè)田野上“沖浪”，找到那些頑皮的藏身處。

當然，藏身者的回應是鎖定了他們沒(méi)有用來(lái)建造堡壘的所有物品，這似乎是游戲中策略的終點(diǎn)。

那有什么意義呢?正如該論文的作者所解釋的那樣，這就是我們出現的方式。

由于自然選擇指導的生物之間的共同進(jìn)化和競爭，地球上大量的復雜性和多樣性得到了發(fā)展。當出現新的成功策略或變異時(shí)，它會(huì )更改相鄰代理需要解決的隱式任務(wù)分配，并為適應帶來(lái)新的壓力。這些進(jìn)化軍備競賽創(chuàng )建了隱式的自動(dòng)課程，因此競爭主體不斷為彼此創(chuàng )建新任務(wù)。

在具有物理基礎和開(kāi)放性的環(huán)境中引入自動(dòng)課程可能最終使代理能夠獲得無(wú)數的與人相關(guān)的技能。

換句話(huà)說(shuō)，讓AI模型以無(wú)人監督的方式競爭可能是發(fā)展有用和強大技能的更好的方法，而不是讓它們自己四處閑逛，積累諸如探索環(huán)境百分比之類(lèi)的抽象數字。

聰明的捉迷藏AI學(xué)會(huì )使用工具并打破規則

通過(guò)參數化和控制AI與環(huán)境的交互作用，人們越來(lái)越難甚至不可能指導AI的各個(gè)方面。對于像機器人在擁擠的環(huán)境中導航這樣的復雜任務(wù)，有太多因素導致人為設計行為可能永遠不會(huì )產(chǎn)生這些特工在日常生活中所必需的那種復雜性。

但是，正如我們在這里和GAN中所看到的那樣，它們可以互相教teach，一對決斗的AI在創(chuàng )建或檢測現實(shí)媒體時(shí)相互擊敗。OpenAI研究人員認為，在許多其他方法過(guò)于緩慢或結構化的情況下，“多主體自動(dòng)課程”或自教學(xué)代理是前進(jìn)的道路。他們得出結論：

“這些結果激發(fā)了人們的信心，即在更加開(kāi)放和多樣化的環(huán)境中，多主體動(dòng)態(tài)可能會(huì )導致極其復雜且與人類(lèi)相關(guān)的行為。”

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播更多信息之目的，如作者信息標記有誤，請第一時(shí)間聯(lián)系我們修改或刪除，多謝。

RM新时代投资官网

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<menuitem id="mtjq6"><delect id="mtjq6"></delect></menuitem>