在他的研究議程v0.9中:將人類(lèi)的偏好綜合為效用函數,斯圖爾特·阿姆斯特朗(Stuart Armstrong)開(kāi)發(fā)了一種生成友好人工智能的方法。他的一致性建議可以廣義地理解為一種逆向強化學(xué)習,其中推斷人類(lèi)偏好的大部分任務(wù)留給了AI本身。我們有責任將正確的假設,定義,偏好學(xué)習方法論和綜合過(guò)程構建到AI系統中,以便能夠有意義地學(xué)習人類(lèi)的偏好并將其合成為足夠的效用函數。為了使這一切正確,他的議程著(zhù)眼于如何理解和識別人類(lèi)偏愛(ài),如何最終將這些習得的偏好綜合成“適當的”效用函數,開(kāi)發(fā)和估算人類(lèi)效用函數的實(shí)用性以及如何做到這一點(diǎn)。議程可以協(xié)助其他AI調整方法。
<img alt="使用Stuart Armstrong將人的喜好合成為實(shí)用功能" data-cke-saved-src="http://www.hkkqyy120.com/uploadfile/2020/0125/20200125113627584.png" src="http://www.hkkqyy120.com/uploadfile/2020/0125/20200125113627584.png" style="style=" max-width:="" 100%;"="">
該研究項目基本上有兩個(gè)核心部分。第一部分是識別人類(lèi)的內部模型,弄清楚它們是什么,我們如何使用它們以及如何獲得AI來(lái)實(shí)現正在發(fā)生的事情。因此,這些給了我們部分偏愛(ài),這是我們建立一般偏愛(ài)的基礎。第二部分是將所有這些部分組合在一起,形成一種對任何給定個(gè)人的總體偏好,這種方式應能很好地發(fā)揮作用,并盡可能尊重該人的不同偏好,元偏好等。該項目的第二部分是人們傾向于發(fā)表強烈意見(jiàn)的部分,因為他們可以看到它是如何工作的以及各個(gè)組成部分如何組合在一起,以及他們希望將其以不同的方式組合在一起等等。但實(shí)質(zhì)上
“因此,當我說(shuō)人類(lèi)價(jià)值觀(guān)是矛盾的,易變的,可操縱的和未定義的時(shí),我說(shuō)的是前三個(gè)相對容易處理,而后一個(gè)則不然。大多數時(shí)候,人們沒(méi)有考慮他們或世界或所面臨的全部情況。沒(méi)有一種情況可以與另一種情況完全相似,因此您必須嘗試將其適應不同的類(lèi)別。因此,如果某個(gè)可疑的人在一個(gè)國家當選并開(kāi)始做非常專(zhuān)制的事情,這是否適合應該抵制的專(zhuān)制政權,或者適合于民主制的正常過(guò)程,在這種情況下,應該忍受并通過(guò)民主來(lái)處理手段。通常會(huì )發(fā)生的事情是同時(shí)具有兩者的功能,因此它可能無(wú)法舒適地放入兩個(gè)盒子中,然后某人偽善或選擇其中一方,卻存在各種各樣的選擇,但之所以存在如此眾多的可能性,是因為這種情況并非完全正確之前面對過(guò),所以人們實(shí)際上在這里沒(méi)有偏好。他們對這種情況沒(méi)有部分偏愛(ài),因為這不是他們從未考慮過(guò)的……我實(shí)際上在研究議程中的某個(gè)時(shí)候爭論過(guò),這是確保我們離目標不遠的論點(diǎn)。人類(lèi)的基線(xiàn)正?;癁楫悋檎{的事物,在這些事物中我們的偏好未得到明確定義,因為在這些區域中,存在較大負面影響的可能性似乎大于存在較大正面影響的可能性……因此,當我說(shuō)不要太過(guò)分時(shí),我并不是說(shuō)不擁抱一個(gè)巨大的變革性未來(lái)。我的意思是說(shuō),不要擁抱我們的道德范疇開(kāi)始瓦解的巨大變革的未來(lái)。”

“尋找效用函數的原因之一是尋找不會(huì )隨時(shí)間變化的穩定事物,并且有證據表明一致性要求會(huì )將任何形式的偏好函數推向效用函數,如果沒(méi)有的話(huà)實(shí)用功能,您只會(huì )失去價(jià)值。因此,將其放入效用函數的渴望并不是對效用函數本身的欽佩,而是我們渴望獲得不會(huì )進(jìn)一步改變或不會(huì )進(jìn)一步朝著(zhù)我們無(wú)法控制的方向漂移的東西的渴望。不知道另一個(gè)原因是,隨著(zhù)我們開(kāi)始更好地控制自己的偏好并具有更好的操縱自己的思想的能力,我們將朝著(zhù)效用函數的方向發(fā)展,因為同樣的壓力基本上不會(huì )無(wú)意義地失去價(jià)值。”

“反射均衡基本上是您完善自己的偏好,使其更加一致,將其應用于自己,直到達到元偏好和偏好都平滑地相互融合的時(shí)刻。我正在做的是一個(gè)更加混亂的綜合過(guò)程,我這樣做是為了盡可能保留實(shí)際的人類(lèi)偏好。僅僅通過(guò)擁有完全平坦的偏好或非常簡(jiǎn)單的偏好就很容易達到反射性均衡,這些偏好往往在自身上非常反射性地處于平衡狀態(tài),而在我看來(lái),朝著(zhù)這個(gè)方向發(fā)展是對過(guò)度簡(jiǎn)單性的追求。失去寶貴的偏好的巨大風(fēng)險。在我看來(lái),失去有價(jià)值的偏好的風(fēng)險似乎比獲得簡(jiǎn)單或優(yōu)雅帶來(lái)的風(fēng)險要高得多。毫無(wú)用處的是,人腦的and亂和偏好的混亂會(huì )導致一些簡(jiǎn)單的反射平衡。實(shí)際上,您可以說(shuō)這是反對自反均衡的一種論點(diǎn),因為它意味著(zhù)許多不同的起點(diǎn),許多不同的頭腦,有著(zhù)截然不同的偏好將導致相似的結果,這基本上意味著(zhù)您將拋棄許多您的輸入數據。”
