Facebook AI研究人員將CraftAssist開(kāi)源,這是一個(gè)為Minecraft視頻游戲構建交互式助手機器人的框架。這些機器人使用自然語(yǔ)言理解(NLU)來(lái)解析和執行人類(lèi)玩家的文本命令,例如在游戲世界中建造房屋的請求。研究人員可以擴展該框架的模塊化結構,以執行自己的ML實(shí)驗。

研究團隊在最近的博客文章中對該系統進(jìn)行了概述。CraftAssist機器人使用與標準游戲客戶(hù)端相同的協(xié)議連接到游戲,因此可以執行人類(lèi)玩家可以執行的任何操作。機器人使用Minecraft的內置基于文本的聊天界面與其他玩家進(jìn)行交互。人類(lèi)可以向機器人發(fā)出命令,包括高級指令,例如“在藍色立方體旁邊蓋房子”。該發(fā)行版的目的是幫助改善人與人工智能的協(xié)作:
該平臺旨在支持對與人類(lèi)參與者指定和評估的各種任務(wù)交互有趣并有用的代理的研究。為了鼓勵更廣泛的AI研究社區將Craftcraft平臺用于他們自己的實(shí)驗,我們正在開(kāi)放框架,基線(xiàn)助手以及用于構建它的工具和數據的外包。

從廣義上講,機器人控制系統由感知和動(dòng)作選擇子系統組成。感知是將原始傳感器數據轉換為更抽象的表示;例如,圖像識別是一種感知任務(wù),它將圖像像素轉換為描述圖像內容的文本標簽。當對包含許多傳感器輸入示例和所需輸出的示例的數據集進(jìn)行訓練時(shí),現代的深度學(xué)習模型可以在許多視覺(jué)和NLU任務(wù)上實(shí)現接近人類(lèi)水平的性能。

動(dòng)作選擇是機器人“決定”如何與世界互動(dòng)以實(shí)現某個(gè)目標的過(guò)程。例如,為了贏(yíng)得圍棋而做出的舉動(dòng)。許多成功的系統都使用強化學(xué)習(RL),在這種學(xué)習中,機器人會(huì )反復嘗試執行任務(wù),每次嘗試都會(huì )給出數值獎勵 結果。游戲是RL的常見(jiàn)測試平臺,因為它們具有明確的動(dòng)作和結果集,而經(jīng)過(guò)RL訓練的現代機器人在許多不同的游戲中通常都可以勝過(guò)人類(lèi)的頂級能力。某些研究小組(例如Google的DeepMind)將感知和動(dòng)作選擇子系統組合到一個(gè)由受訓者訓練的單一“端到端”系統中深度強化學(xué)習,還有許多用于訓練這些系統的虛擬環(huán)境,包括 Facebook開(kāi)發(fā)的模擬棲息地。微軟已經(jīng)為Minecraft開(kāi)源了一個(gè)名為Project Malmo的“ AI-gym”界面以及一個(gè)大型數據集,以鼓勵將Minecraft用作RL研究的測試平臺。
