<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<ruby id="bohnb"></ruby><ruby id="bohnb"><samp id="bohnb"></samp></ruby>

人工智能機器人可以在多人隱藏角色游戲中完勝人類(lèi)

2020-02-05 16:46:00 來(lái)源：作者：

該機器人使用演繹推理來(lái)識別朋友或敵人，以確保在某些在線(xiàn)游戲中戰勝人類(lèi)。

麻省理工學(xué)院的研究人員已經(jīng)開(kāi)發(fā)出一種配備了人工智能的機器人，該機器人可以在棘手的在線(xiàn)多人游戲中擊敗人類(lèi)玩家，而其中的玩家角色和動(dòng)機是秘密的。

人工智能機器人可以在多人隱藏角色游戲中完勝人類(lèi)

已經(jīng)建立了許多游戲機器人來(lái)跟上人類(lèi)玩家的步伐。今年早些時(shí)候，卡內基梅隆大學(xué)的一個(gè)團隊開(kāi)發(fā)了世界上第一個(gè)可以擊敗多人撲克專(zhuān)業(yè)人士的機器人。DeepMind的AlphaGo在2016年成為頭條新聞，以擊敗專(zhuān)業(yè)的Go玩家。還建立了一些機器人來(lái)?yè)魯÷殬I(yè)棋手或聯(lián)手合作游戲，例如在線(xiàn)奪旗。但是，在這些游戲中，機器人從一開(kāi)始就了解其對手和隊友。

在下個(gè)月的神經(jīng)信息處理系統大會(huì )上，研究人員將展示DeepRole，這是首款可以贏(yíng)得在線(xiàn)多人游戲的游戲機器人，參與者最初對團隊的忠誠度尚不清楚。該機器人的設計是將新穎的“演繹推理”添加到通常用于玩撲克的AI算法中。這有助于其推理出部分可觀(guān)察的動(dòng)作，從而確定給定玩家是隊友或對手的可能性。這樣，它可以快速了解與誰(shuí)結盟以及采取哪些行動(dòng)來(lái)確保其團隊的勝利。

研究人員在超過(guò)4,000回合的在線(xiàn)游戲“抵抗：阿瓦隆”中將DeepRole與人類(lèi)玩家進(jìn)行了比較。在該游戲中，玩家嘗試隨著(zhù)游戲的進(jìn)行推斷出同齡人的秘密角色，同時(shí)隱藏自己的角色。作為隊友和對手，DeepRole始終優(yōu)于人類(lèi)選手。

“如果用機器人代替人類(lèi)的隊友，則可以期望團隊獲得更高的獲勝率。機器人是更好的合作伙伴。”第一作者杰克·塞里諾(Jack Serrino '18)說(shuō)，他是麻省理工學(xué)院電氣工程和計算機科學(xué)專(zhuān)業(yè)的學(xué)生，??是狂熱的在線(xiàn)“阿瓦隆”玩家。

這項工作是一個(gè)更廣泛的項目的一部分，該項目旨在更好地模擬人類(lèi)如何做出具有社會(huì )根據的決定。這樣做可以幫助構建更好地理解，學(xué)習人類(lèi)并與人類(lèi)合作的機器人。

人工智能機器人可以在多人隱藏角色游戲中完勝人類(lèi)

“人類(lèi)向他人學(xué)習并與他人合作，使我們能夠共同實(shí)現我們一個(gè)人無(wú)法獨自完成的事情，”合著(zhù)者馬克斯·克萊曼·魏納(Max Kleiman-Weiner)說(shuō)，他是大腦，思維與機器中心和美國國防部的博士后。麻省理工學(xué)院和哈佛大學(xué)的腦與認知科學(xué)。“像“阿瓦隆”這樣的游戲可以更好地模仿人類(lèi)在日常生活中所經(jīng)歷的動(dòng)態(tài)社交環(huán)境。無(wú)論是在幼兒園的第一天還是在辦公室的第二天，您都必須弄清楚誰(shuí)在團隊中并會(huì )與您一起工作。”

哈佛大學(xué)的David C.Parkes和計算機認知科學(xué)教授，麻省理工學(xué)院計算機科學(xué)與人工智能實(shí)驗室以及腦，思維和機器中心的成員Joshua B.Tenenbaum和Serrino和Kleiman-Weiner一起加入了本文。

演繹機器人

在“阿瓦隆”中，三名球員被隨機秘密地分配給“抵抗”隊，兩名球員被分配給“間諜”隊。兩名間諜玩家都知道所有玩家的角色。在每個(gè)回合中，一個(gè)玩家提議一個(gè)由兩個(gè)或三個(gè)玩家組成的子集來(lái)執行任務(wù)。所有參與者同時(shí)公開(kāi)投票批準或拒絕該子集。如果獲得多數同意，則子集會(huì )秘密確定任務(wù)是成功還是失敗。如果選擇兩個(gè)“成功”，則任務(wù)成功。如果選擇一個(gè)“失敗”，則任務(wù)失敗。反抗玩家必須始終選擇成功，但間諜玩家可以選擇任一個(gè)結果。抵抗隊在成功完成三個(gè)任務(wù)后獲勝;在執行了三個(gè)失敗的任務(wù)后，間諜團隊獲勝。

贏(yíng)得游戲基本上歸結為推論誰(shuí)是反抗或間諜，然后投票給您的合作者。但這實(shí)際上比下棋和撲克更加復雜。Kleiman-Weiner說(shuō)：“這是一個(gè)信息不完善的游戲。” “您甚至不確定一開(kāi)始就反對誰(shuí)，因此還有一個(gè)發(fā)現階段，尋找與誰(shuí)合作。”

DeepRole使用一種稱(chēng)為“反事實(shí)后悔最小化”(CFR)的游戲計劃算法，該算法通過(guò)反復與自己對戰來(lái)學(xué)習游戲，并增加了演繹推理。在游戲的每個(gè)點(diǎn)上，CFR都會(huì )前瞻性地創(chuàng )建一個(gè)由線(xiàn)條和節點(diǎn)組成的決策“游戲樹(shù)”，描述每個(gè)玩家的潛在未來(lái)動(dòng)作。游戲樹(shù)代表每個(gè)玩家在每個(gè)未來(lái)決策點(diǎn)可以采取的所有可能的動(dòng)作(線(xiàn))。在進(jìn)行可能數十億次的游戲模擬時(shí)，CFR指出哪些動(dòng)作增加或減少了獲勝的機會(huì )，并反復修改其策略以包括更多好的決策。最終，它計劃出一種最佳策略，在最壞的情況下，它會(huì )與任何對手聯(lián)系在一起。

CFR可以很好地用于撲克之類(lèi)的游戲，并且可以通過(guò)公共行動(dòng)(例如下注錢(qián)和棄牌)來(lái)進(jìn)行，但是當行動(dòng)為秘密時(shí)，CFR會(huì )遇到困難。研究人員的CFR結合了公共行為和私人行為的后果，以確定參與者是反抗還是間諜。

該機器人是通過(guò)對抗自己作為抵抗力和間諜來(lái)進(jìn)行訓練的。在玩在線(xiàn)游戲時(shí)，它使用其游戲樹(shù)來(lái)估計每個(gè)玩家將要做什么。游戲樹(shù)代表一種策略，該策略使每個(gè)玩家有最高的獲勝機會(huì )作為指定角色。樹(shù)的節點(diǎn)包含“反事實(shí)值”，基本上是對玩家根據給定策略執行后所獲得的回報的估計。

在執行每個(gè)任務(wù)時(shí)，機器人會(huì )查看每個(gè)人與游戲樹(shù)相比的玩法。如果在整個(gè)游戲中，玩家做出的決定與機器人的期望不一致，那么該玩家可能會(huì )扮演另一個(gè)角色。最終，機器人為每個(gè)玩家的角色分配了很高的概率。這些概率用于更新機器人的策略，以增加其獲勝的機會(huì )。

人工智能機器人可以在多人隱藏角色游戲中完勝人類(lèi)

同時(shí)，它使用相同的技術(shù)來(lái)估計第三人稱(chēng)觀(guān)察者如何解釋自己的行為。這有助于估計其他參與者的反應，從而做出更明智的決策。“如果執行的兩人任務(wù)失敗，那么其他玩家就會(huì )知道一個(gè)玩家是間諜。該機器人很可能不會(huì )在未來(lái)的任務(wù)中提議同一個(gè)團隊，因為它知道其他玩家認為這很不好。

語(yǔ)言：下一個(gè)領(lǐng)域

有趣的是，該機器人無(wú)需與其他玩家進(jìn)行交流，這通常是游戲的關(guān)鍵組成部分。“ Avalon”使玩家可以在游戲過(guò)程中在文本模塊上聊天。Kleiman-Weiner說(shuō)：“但是事實(shí)證明，我們的機器人能夠與其他人一起很好地工作，同時(shí)僅觀(guān)察玩家的行為。” “這很有趣，因為人們可能認為這樣的游戲需要復雜的溝通策略。”

艾伯塔大學(xué)教授邁克爾·鮑林(Michael Bowling)說(shuō)：“我很高興看到這篇論文發(fā)表。”他的研究部分側重于訓練計算機玩游戲。“看到DeepStack中的想法在撲克之外獲得更廣泛的應用，真是令人興奮。[DeepStack]在國際象棋和信息不完善的情況下對AI至關(guān)重要。但是我仍然不希望看到它如此迅速地擴展到像Avalon這樣的隱藏角色游戲中。能夠駕馭社會(huì )扣人心弦的場(chǎng)景，這真是人類(lèi)的精髓，這是非常重要的一步。還有很多工作要做，特別是當社交互動(dòng)更加開(kāi)放時(shí)，但是我們不斷看到，許多具有自學(xué)式學(xué)習的基本AI算法可以走很長(cháng)一段路。”

接下來(lái)，研究人員可以使機器人在游戲過(guò)程中使用簡(jiǎn)單的文字進(jìn)行交流，例如說(shuō)出玩家的好壞。這將涉及將文本分配給玩家抵抗或間諜的相關(guān)概率，機器人已使用該概率做出決策。除此之外，未來(lái)的機器人可能會(huì )配備更復雜的通訊功能，使其能夠玩重語(yǔ)言的社交演繹游戲，例如流行的游戲“狼人”，其中涉及數分鐘的爭論并說(shuō)服其他玩家了解誰(shuí)在好的和壞的團隊。

Serrino說(shuō)：“語(yǔ)言無(wú)疑是下一個(gè)領(lǐng)域。” “但是在那些溝通至關(guān)重要的游戲中，攻擊存在許多挑戰。”

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播更多信息之目的，如作者信息標記有誤，請第一時(shí)間聯(lián)系我們修改或刪除，多謝。

RM新时代投资官网

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<nav id="c1c7i"></nav>