<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<pre id="ivpyg"><strong id="ivpyg"></strong></pre>

<u id="ivpyg"><noscript id="ivpyg"></noscript></u>

<style id="ivpyg"></style>

算法幫助AI在傳奇的Atari游戲中獲勝

2019-08-10 09:34:37 來(lái)源：作者：

2015年，谷歌的DeepMind AI的任務(wù)是學(xué)習玩Atari視頻游戲。它也非常成功，在視頻彈球方面與人類(lèi)玩家一樣出色。但由于游戲的復雜性，除了簡(jiǎn)單的街機游戲之外，它開(kāi)始掙扎，眾所周知甚至未能收集傳奇的20世紀80年代冒險游戲Montezuma's Revenge中的第一把鑰匙。

然而，一種新方法導致了一種AI算法，該算法從錯誤中學(xué)習，并確定中間步驟的速度提高了10倍，在Google失敗并成功自主玩Montezuma's Revenge之后取得了成功。

這項工作由Fabio Zambetta及其團隊在澳大利亞墨爾本的RMIT大學(xué)進(jìn)行。Zambetta 于2月1日在夏威夷舉行的第33屆AAAI人工智能會(huì )議上介紹了這一發(fā)現。

設計可以克服計劃問(wèn)題的人工智能，例如獎勵不是很明顯，是推動(dòng)該領(lǐng)域最重要的挑戰之一。

人工智能在冒險游戲中掙扎的原因是，在發(fā)現一些獎勵之前，它認為沒(méi)有動(dòng)力選擇一種行動(dòng)方式而不是其他任何一種方式，例如實(shí)現爬梯或跳過(guò)坑到達更大目標的子目標水平。

他們感到困惑并無(wú)法確定前進(jìn)的道路，而只是隨意開(kāi)始行動(dòng)。

對于某些游戲，例如彈球，獎勵在附近，算法獲得所需的外部輸入。

然而，在一個(gè)冒險游戲中，獎勵更加分散，雞和蛋的情況發(fā)展。該程序發(fā)現自己無(wú)法改善其游戲玩法，直到獲得一些獎勵，但在改進(jìn)其游戲玩法之前不會(huì )找到獎勵。

為了解決這個(gè)問(wèn)題，Zambetta從其他電腦游戲中汲取靈感，如超級馬里奧和Pacman，并引入了顆粒獎勵，提供了小的中間獎勵，并鼓勵它探索和完成子目標。

“真正聰明的人工智能需要能夠學(xué)會(huì )在模糊的環(huán)境中自主完成任務(wù)，”他說(shuō)。

“我們已經(jīng)證明，正確的算法可以使用更智能的方法改善結果，而不是純粹粗暴地在非常強大的計算機上端到端地解決問(wèn)題。”

這種方法意味著(zhù)算法將更自然地行動(dòng)，并且完成子目標的速度比其他AI方法快10倍。

“不僅我們的算法在玩Montezuma's Revenge時(shí)自動(dòng)識別相關(guān)任務(wù)的速度比Google DeepMind快10倍，他們還表現出相對類(lèi)似人類(lèi)的行為，”Zambetta聲稱(chēng)。

“例如，在你可以進(jìn)入游戲的第二個(gè)屏幕之前，你需要確定一些子任務(wù)，例如爬梯子，跳過(guò)一個(gè)敵人，然后最終拿起鑰匙，大致按照這個(gè)順序。

“這最終會(huì )在很長(cháng)一段時(shí)間后隨機發(fā)生，但在我們的測試中如此自然地發(fā)生了某種意圖。

“這使我們成為第一個(gè)完全自主的面向目標的代理商，與這些游戲中最先進(jìn)的代理商真正競爭。”

雖然聽(tīng)起來(lái)微不足道，但這項工作在游戲之外可能很重要。根據Zambetta的說(shuō)法，激勵子目標可能有利于控制自動(dòng)駕駛汽車(chē)的算法以及需要機器人助手在現實(shí)世界中實(shí)現目標的其他情況。

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播更多信息之目的，如作者信息標記有誤，請第一時(shí)間聯(lián)系我們修改或刪除，多謝。

RM新时代投资官网

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<pre id="soyxz"></pre>

<pre id="soyxz"><fieldset id="soyxz"></fieldset></pre>