這家社交媒體巨頭的人工智能研究部門(mén)Facebook AI今天宣布,它已經(jīng)創(chuàng )建了一個(gè)機器人,該機器人可以玩Hanabi,這是一個(gè)涉及不完美信息的合作紙牌游戲,取得了近乎完美的結果,這是一個(gè)里程碑。

這個(gè)里程碑很重要,因為諸如Hanabi之類(lèi)的游戲代表了現實(shí)世界中的情境,在這種情況下,AI必須與人類(lèi)一起參與復雜的任務(wù),從人類(lèi)行為中識別意圖,并根據不完善的信息做出決策。
該機器人不僅在以前的AI系統上進(jìn)行了改進(jìn),而且超出了精英人類(lèi)玩家的能力,這是由對它進(jìn)行評估的資深玩家判斷得出的。
哈納比(Hanabi)是一種復雜的合作式紙牌游戲,在彩色紙牌中包含帶有數字的紙牌,這種游戲非常像集體紙牌游戲。“ Hanabi”這個(gè)名稱(chēng)取自日語(yǔ)中的“煙火”一詞,這也與游戲的目的有關(guān)。
《 Hanabi》由法國游戲設計師Antoine Bauza的AsmodéeÉditions于2010年發(fā)行,這款游戲讓玩家意識到別人的手而不是別人的手。玩家根據看到的內容可以與其他玩家共享的信息類(lèi)型受到限制。然后,此信息將用于確定要玩哪些卡以及要丟棄什么卡。一輪勝利代表煙花表演的成功。

今年早些時(shí)候,Deepmind和Google Brain的AI研究人員將這款游戲作為AI研究的一個(gè)新領(lǐng)域,因為在多人游戲環(huán)境中,合作玩法和不完美的信息相結合。有效的Hanabi玩家必須創(chuàng )建關(guān)于其他玩家的“思想理論”,并使用有限的信息來(lái)了解意圖。這種類(lèi)型的預測能力和意圖建模對于智能代理在由于缺乏理解或對信息的訪(fǎng)問(wèn)較差而導致溝通困難的情況下與人類(lèi)合作時(shí)必不可少。
該機器人通過(guò)使用類(lèi)似于Pluribus的深度限制搜索技術(shù)的實(shí)時(shí)搜索方法來(lái)實(shí)現其超人能力,Pluribus是一種撲克游戲機器人,可以在六人無(wú)限制德州撲克中擊敗職業(yè)玩家。
用于步步高,國際象棋和圍棋等完美信息游戲的搜索算法在諸如Hanabi之類(lèi)的不完善信息游戲中不起作用。在象棋這樣的游戲中,機器人可以根據知道棋盤(pán)上每個(gè)棋子的位置和能力來(lái)模擬所有可能的結果,但是使用Hanabi時(shí),機器人必須考慮許多可能的“世界狀態(tài)”,這些狀態(tài)在制作時(shí)不會(huì )立即顯現出來(lái)。決定。
為此,Facebook AI應用了一種多代理搜索概念的搜索策略,該機器人試圖根據可用信息來(lái)對隊友的搜索決策進(jìn)行建模。這增加了其搜索算法考慮其他玩家意圖的可能性,這些玩家先前曾暗示過(guò)哪些牌在游戲場(chǎng)上可見(jiàn)。

以前在A(yíng)I研究領(lǐng)域,大多數突破都集中在對抗性零和環(huán)境上。盡管這對于開(kāi)發(fā)更好的AI算法很有用,但這些情況并不適合大多數計算機人機交互(例如,消費者和企業(yè)使用的交互),后者將更加依賴(lài)于人與機器智能之間的合作。
展望未來(lái),Facebook AI研究人員希望將此新AI模型應用于其他合作環(huán)境和應用程序,例如既不完全合作也不完全競爭的應用程序。
潛在的示例包括與人進(jìn)行談判,協(xié)調人與人之間的交流,基于了解意圖而提供信息,例如智能代理建議,以及AI必須訪(fǎng)問(wèn)多個(gè)信息源并推斷意圖的其他情況。
