<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<button id="yv0kj"><mark id="yv0kj"></mark></button>

<wbr id="yv0kj"></wbr>

使用Stuart Armstrong將人的喜好合成為實(shí)用功能

2020-01-25 11:28:24 來(lái)源：作者：

在他的研究議程v0.9中：將人類(lèi)的偏好綜合為效用函數，斯圖爾特·阿姆斯特朗(Stuart Armstrong)開(kāi)發(fā)了一種生成友好人工智能的方法。他的一致性建議可以廣義地理解為一種逆向強化學(xué)習，其中推斷人類(lèi)偏好的大部分任務(wù)留給了AI本身。我們有責任將正確的假設，定義，偏好學(xué)習方法論和綜合過(guò)程構建到AI系統中，以便能夠有意義地學(xué)習人類(lèi)的偏好并將其合成為足夠的效用函數。為了使這一切正確，他的議程著(zhù)眼于如何理解和識別人類(lèi)偏愛(ài)，如何最終將這些習得的偏好綜合成“適當的”效用函數，開(kāi)發(fā)和估算人類(lèi)效用函數的實(shí)用性以及如何做到這一點(diǎn)。議程可以協(xié)助其他AI調整方法。

<img alt="使用Stuart Armstrong將人的喜好合成為實(shí)用功能" data-cke-saved-src="http://www.hkkqyy120.com/uploadfile/2020/0125/20200125113627584.png" src="http://www.hkkqyy120.com/uploadfile/2020/0125/20200125113627584.png" style="style=" max-width:="" 100%;"="">

該研究項目基本上有兩個(gè)核心部分。第一部分是識別人類(lèi)的內部模型，弄清楚它們是什么，我們如何使用它們以及如何獲得AI來(lái)實(shí)現正在發(fā)生的事情。因此，這些給了我們部分偏愛(ài)，這是我們建立一般偏愛(ài)的基礎。第二部分是將所有這些部分組合在一起，形成一種對任何給定個(gè)人的總體偏好，這種方式應能很好地發(fā)揮作用，并盡可能尊重該人的不同偏好，元偏好等。該項目的第二部分是人們傾向于發(fā)表強烈意見(jiàn)的部分，因為他們可以看到它是如何工作的以及各個(gè)組成部分如何組合在一起，以及他們希望將其以不同的方式組合在一起等等。但實(shí)質(zhì)上

“因此，當我說(shuō)人類(lèi)價(jià)值觀(guān)是矛盾的，易變的，可操縱的和未定義的時(shí)，我說(shuō)的是前三個(gè)相對容易處理，而后一個(gè)則不然。大多數時(shí)候，人們沒(méi)有考慮他們或世界或所面臨的全部情況。沒(méi)有一種情況可以與另一種情況完全相似，因此您必須嘗試將其適應不同的類(lèi)別。因此，如果某個(gè)可疑的人在一個(gè)國家當選并開(kāi)始做非常專(zhuān)制的事情，這是否適合應該抵制的專(zhuān)制政權，或者適合于民主制的正常過(guò)程，在這種情況下，應該忍受并通過(guò)民主來(lái)處理手段。通常會(huì )發(fā)生的事情是同時(shí)具有兩者的功能，因此它可能無(wú)法舒適地放入兩個(gè)盒子中，然后某人偽善或選擇其中一方，卻存在各種各樣的選擇，但之所以存在如此眾多的可能性，是因為這種情況并非完全正確之前面對過(guò)，所以人們實(shí)際上在這里沒(méi)有偏好。他們對這種情況沒(méi)有部分偏愛(ài)，因為這不是他們從未考慮過(guò)的……我實(shí)際上在研究議程中的某個(gè)時(shí)候爭論過(guò)，這是確保我們離目標不遠的論點(diǎn)。人類(lèi)的基線(xiàn)正?；癁楫悋檎{的事物，在這些事物中我們的偏好未得到明確定義，因為在這些區域中，存在較大負面影響的可能性似乎大于存在較大正面影響的可能性……因此，當我說(shuō)不要太過(guò)分時(shí)，我并不是說(shuō)不擁抱一個(gè)巨大的變革性未來(lái)。我的意思是說(shuō)，不要擁抱我們的道德范疇開(kāi)始瓦解的巨大變革的未來(lái)。”

使用Stuart Armstrong將人的喜好合成為實(shí)用功能

“尋找效用函數的原因之一是尋找不會(huì )隨時(shí)間變化的穩定事物，并且有證據表明一致性要求會(huì )將任何形式的偏好函數推向效用函數，如果沒(méi)有的話(huà)實(shí)用功能，您只會(huì )失去價(jià)值。因此，將其放入效用函數的渴望并不是對效用函數本身的欽佩，而是我們渴望獲得不會(huì )進(jìn)一步改變或不會(huì )進(jìn)一步朝著(zhù)我們無(wú)法控制的方向漂移的東西的渴望。不知道另一個(gè)原因是，隨著(zhù)我們開(kāi)始更好地控制自己的偏好并具有更好的操縱自己的思想的能力，我們將朝著(zhù)效用函數的方向發(fā)展，因為同樣的壓力基本上不會(huì )無(wú)意義地失去價(jià)值。”

使用Stuart Armstrong將人的喜好合成為實(shí)用功能

“反射均衡基本上是您完善自己的偏好，使其更加一致，將其應用于自己，直到達到元偏好和偏好都平滑地相互融合的時(shí)刻。我正在做的是一個(gè)更加混亂的綜合過(guò)程，我這樣做是為了盡可能保留實(shí)際的人類(lèi)偏好。僅僅通過(guò)擁有完全平坦的偏好或非常簡(jiǎn)單的偏好就很容易達到反射性均衡，這些偏好往往在自身上非常反射性地處于平衡狀態(tài)，而在我看來(lái)，朝著(zhù)這個(gè)方向發(fā)展是對過(guò)度簡(jiǎn)單性的追求。失去寶貴的偏好的巨大風(fēng)險。在我看來(lái)，失去有價(jià)值的偏好的風(fēng)險似乎比獲得簡(jiǎn)單或優(yōu)雅帶來(lái)的風(fēng)險要高得多。毫無(wú)用處的是，人腦的and亂和偏好的混亂會(huì )導致一些簡(jiǎn)單的反射平衡。實(shí)際上，您可以說(shuō)這是反對自反均衡的一種論點(diǎn)，因為它意味著(zhù)許多不同的起點(diǎn)，許多不同的頭腦，有著(zhù)截然不同的偏好將導致相似的結果，這基本上意味著(zhù)您將拋棄許多您的輸入數據。”

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播更多信息之目的，如作者信息標記有誤，請第一時(shí)間聯(lián)系我們修改或刪除，多謝。

RM新时代投资官网

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<thead id="ffxa7"></thead>

<sup id="ffxa7"></sup>