在電腦游戲中,賽車(chē)在沿著(zhù)軌道行駛時(shí)要進(jìn)行優(yōu)化以提高速度,然后汽車(chē)將踏板推到金屬上,然后繼續轉彎。說(shuō)明書(shū)中沒(méi)有任何內容告訴汽車(chē)直行,所以它是即興的。

這個(gè)例子-在計算機游戲中很有趣,但在生活中卻沒(méi)有那么多-是促使斯坦福大學(xué)研究人員建立更好的方法來(lái)設定自治系統目標的例子。
計算機科學(xué)和電氣工程學(xué)助理教授Dorsa Sadigh和她的實(shí)驗室將兩種為機器人設定目標的不同方法組合為一個(gè)過(guò)程,在模擬和實(shí)際實(shí)驗中,它們的表現都比單獨一個(gè)部分要好。研究人員于6月24日在機器人技術(shù):科學(xué)與系統會(huì )議上介紹了這項工作。

“未來(lái),我完全希望世界上會(huì )有更多的自治系統,它們將需要了解什么是好是壞的概念,”計算機科學(xué)專(zhuān)業(yè)的研究生,Andy Palan的主要作者安迪·帕蘭(Andy Palan)說(shuō)。紙。“至關(guān)重要的是,如果我們將來(lái)希望部署這些自治系統,那么我們必須做到這一點(diǎn)。”
團隊用于向機器人提供指令的新系統-稱(chēng)為獎勵功能-結合了演示(其中人類(lèi)向機器人展示了該做什么)和用戶(hù)偏好調查,其中人們回答了有關(guān)他們希望機器人如何表現的問(wèn)題。

薩迪格說(shuō):“示威是有益的,但可能會(huì )帶來(lái)干擾。另一方面,喜好最多只能提供一點(diǎn)信息,但更準確。” “我們的目標是充分利用兩全其美,并更智能地合并來(lái)自這兩個(gè)來(lái)源的數據,以更好地了解人類(lèi)的首選獎勵功能。”
