研究人員教機器人人類(lèi)想要什么

2020-04-06 11:08:36    來(lái)源:新經(jīng)網(wǎng)    作者:馮思韻

在電腦游戲中,賽車(chē)在沿著(zhù)軌道行駛時(shí)要進(jìn)行優(yōu)化以提高速度,然后汽車(chē)將踏板推到金屬上,然后繼續轉彎。說(shuō)明書(shū)中沒(méi)有任何內容告訴汽車(chē)直行,所以它是即興的。

研究人員教機器人人類(lèi)想要什么

這個(gè)例子-在計算機游戲中很有趣,但在生活中卻沒(méi)有那么多-是促使斯坦福大學(xué)研究人員建立更好的方法來(lái)設定自治系統目標的例子。

計算機科學(xué)和電氣工程學(xué)助理教授Dorsa Sadigh和她的實(shí)驗室將兩種為機器人設定目標的不同方法組合為一個(gè)過(guò)程,在模擬和實(shí)際實(shí)驗中,它們的表現都比單獨一個(gè)部分要好。研究人員于6月24日在機器人技術(shù):科學(xué)與系統會(huì )議上介紹了這項工作。

研究人員教機器人人類(lèi)想要什么

“未來(lái),我完全希望世界上會(huì )有更多的自治系統,它們將需要了解什么是好是壞的概念,”計算機科學(xué)專(zhuān)業(yè)的研究生,Andy Palan的主要作者安迪·帕蘭(Andy Palan)說(shuō)。紙。“至關(guān)重要的是,如果我們將來(lái)希望部署這些自治系統,那么我們必須做到這一點(diǎn)。”

團隊用于向機器人提供指令的新系統-稱(chēng)為獎勵功能-結合了演示(其中人類(lèi)向機器人展示了該做什么)和用戶(hù)偏好調查,其中人們回答了有關(guān)他們希望機器人如何表現的問(wèn)題。

研究人員教機器人人類(lèi)想要什么

薩迪格說(shuō):“示威是有益的,但可能會(huì )帶來(lái)干擾。另一方面,喜好最多只能提供一點(diǎn)信息,但更準確。” “我們的目標是充分利用兩全其美,并更智能地合并來(lái)自這兩個(gè)來(lái)源的數據,以更好地了解人類(lèi)的首選獎勵功能。”

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。