2015年,谷歌的DeepMind AI的任務(wù)是學(xué)習玩Atari視頻游戲。它也非常成功,在視頻彈球方面與人類(lèi)玩家一樣出色。但由于游戲的復雜性,除了簡(jiǎn)單的街機游戲之外,它開(kāi)始掙扎,眾所周知甚至未能收集傳奇的20世紀80年代冒險游戲Montezuma's Revenge中的第一把鑰匙。

然而,一種新方法導致了一種AI算法,該算法從錯誤中學(xué)習,并確定中間步驟的速度提高了10倍,在Google失敗并成功自主玩Montezuma's Revenge之后取得了成功。
這項工作由Fabio Zambetta及其團隊在澳大利亞墨爾本的RMIT大學(xué)進(jìn)行。Zambetta 于2月1日在夏威夷舉行的第33屆AAAI人工智能會(huì )議上介紹了這一發(fā)現。
設計可以克服計劃問(wèn)題的人工智能,例如獎勵不是很明顯,是推動(dòng)該領(lǐng)域最重要的挑戰之一。
人工智能在冒險游戲中掙扎的原因是,在發(fā)現一些獎勵之前,它認為沒(méi)有動(dòng)力選擇一種行動(dòng)方式而不是其他任何一種方式,例如實(shí)現爬梯或跳過(guò)坑到達更大目標的子目標水平。
他們感到困惑并無(wú)法確定前進(jìn)的道路,而只是隨意開(kāi)始行動(dòng)。
對于某些游戲,例如彈球,獎勵在附近,算法獲得所需的外部輸入。
然而,在一個(gè)冒險游戲中,獎勵更加分散,雞和蛋的情況發(fā)展。該程序發(fā)現自己無(wú)法改善其游戲玩法,直到獲得一些獎勵,但在改進(jìn)其游戲玩法之前不會(huì )找到獎勵。
為了解決這個(gè)問(wèn)題,Zambetta從其他電腦游戲中汲取靈感,如超級馬里奧和Pacman,并引入了顆粒獎勵,提供了小的中間獎勵,并鼓勵它探索和完成子目標。
“真正聰明的人工智能需要能夠學(xué)會(huì )在模糊的環(huán)境中自主完成任務(wù),”他說(shuō)。
“我們已經(jīng)證明,正確的算法可以使用更智能的方法改善結果,而不是純粹粗暴地在非常強大的計算機上端到端地解決問(wèn)題。”
這種方法意味著(zhù)算法將更自然地行動(dòng),并且完成子目標的速度比其他AI方法快10倍。
“不僅我們的算法在玩Montezuma's Revenge時(shí)自動(dòng)識別相關(guān)任務(wù)的速度比Google DeepMind快10倍,他們還表現出相對類(lèi)似人類(lèi)的行為,”Zambetta聲稱(chēng)。
“例如,在你可以進(jìn)入游戲的第二個(gè)屏幕之前,你需要確定一些子任務(wù),例如爬梯子,跳過(guò)一個(gè)敵人,然后最終拿起鑰匙,大致按照這個(gè)順序。
“這最終會(huì )在很長(cháng)一段時(shí)間后隨機發(fā)生,但在我們的測試中如此自然地發(fā)生了某種意圖。
“這使我們成為第一個(gè)完全自主的面向目標的代理商,與這些游戲中最先進(jìn)的代理商真正競爭。”
雖然聽(tīng)起來(lái)微不足道,但這項工作在游戲之外可能很重要。根據Zambetta的說(shuō)法,激勵子目標可能有利于控制自動(dòng)駕駛汽車(chē)的算法以及需要機器人助手在現實(shí)世界中實(shí)現目標的其他情況。
