<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<style id="ymcbn"></style>

<kbd id="ymcbn"></kbd>

討論如何讓人工智能系統做我們想做的事

2020-01-25 17:39:09 來(lái)源：作者：

在這一集中，Rohin將首先按順序進(jìn)行第一集中討論的方法。我們將從嵌入式代理開(kāi)始，然后討論使AI系統完成我們想要的事情的領(lǐng)域，然后我們將討論雄心勃勃的價(jià)值學(xué)習。接下來(lái)，我們將著(zhù)眼于可糾正性，特別是迭代式放大，辯論和因式認知。

討論如何讓人工智能系統做我們想做的事

接下來(lái)，我們將討論對AI系統設置限制，這種性質(zhì)將是AI裝箱和影響度量。之后，我們將介紹魯棒性，包括驗證，對抗性機器學(xué)習和對抗性示例。

接下來(lái)，我們將討論可解釋性研究，最后是全面的AI服務(wù)。通過(guò)閱讀本系列的第一部分，您應該在第二部分中有足夠的背景來(lái)了解這些材料。有點(diǎn)公告，我希望這個(gè)播客對聽(tīng)眾特別有用和有趣。因此，我繼續進(jìn)行了三分鐘的簡(jiǎn)短調查，您可以在FLI頁(yè)面上找到此播客的鏈接，或者在可能找到此播客的描述中找到該鏈接。與往常一樣，如果您覺(jué)得此播客有趣或有用，請確保在您喜歡的收聽(tīng)平臺上喜歡，訂閱和關(guān)注我們。

討論如何讓人工智能系統做我們想做的事

對于尚未熟悉Rohin的人，他是UC Berkeley的計算機科學(xué)專(zhuān)業(yè)五年級博士學(xué)位學(xué)生，與Anca Dragan，Pieter Abbeel和Stuart Russell一起在人類(lèi)兼容AI中心工作。他每周都會(huì )在A(yíng)lignment Newsletter中收集并總結與AI對齊相關(guān)的最新進(jìn)展。這樣一來(lái)，我們將通過(guò)依次遍歷剛才列舉的方法開(kāi)始。行。然后，讓我們繼續，從第一個(gè)開(kāi)始，我認為這是嵌入式代理。

羅欣：是的，所以是嵌入式代理商。我有點(diǎn)想與嵌入式代理機構順序有所不同，因為我不會(huì )做任何能做得那么出色的事情。但是基本思想是我們希望擁有這種智能理論，而對此的一個(gè)主要障礙是，我們目前所有的理論(最值得注意的是，強化學(xué)習)都假設存在良好的清晰邊界在環(huán)境和代理之間。有點(diǎn)像代理正在玩視頻游戲，而視頻游戲就是環(huán)境。環(huán)境無(wú)法真正影響代理。代理具有此定義的輸入通道，可以執行操作，這些操作將被發(fā)送到視頻游戲環(huán)境，視頻游戲環(huán)境會(huì )以此為基礎進(jìn)行操作并創(chuàng )建觀(guān)察結果，然后將該觀(guān)察結果發(fā)回給負責觀(guān)察的代理，那里有一個(gè)非常漂亮，簡(jiǎn)潔的抽象。該代理可以比視頻游戲大，就像我比井字游戲大一樣。

實(shí)際上，我可以模擬井字游戲的整個(gè)游戲樹(shù)，并找出井字游戲的最佳策略。實(shí)際上就是這個(gè)很棒的XKCD確實(shí)向您展示了整個(gè)游戲樹(shù)，這很棒。

因此，以與視頻游戲設置相同的方式，該代理可以比視頻游戲環(huán)境更大，因為它可以具有完全準確的環(huán)境模型并確切知道其動(dòng)作將要做什么。因此，我們在視頻游戲環(huán)境中擁有所有這些不錯的假設，但在現實(shí)世界中，這些假設是行不通的。如果您在地球上考慮我，我將無(wú)法獲得整個(gè)環(huán)境的精確模型，因為該環(huán)境將我包含在其中，而且我無(wú)法在我的內部擁有一個(gè)完美的我的模型。那只是不可能發(fā)生的事情。更不用說(shuō)擁有宇宙其余部分的完美模型了，但我們甚至將其擱置一旁。

有一個(gè)事實(shí)是我的動(dòng)作空間到底是什么還不是很清楚。一旦有了我可以使用的筆記本電腦，筆記本電腦是否會(huì )在我的行動(dòng)空間中開(kāi)始說(shuō)話(huà)?我們是否只談?wù)撐铱梢运闹\動(dòng)的命令?但是，如果我突然上傳并且現在我再也沒(méi)有鏡頭了，那會(huì )發(fā)生什么?我的動(dòng)作發(fā)生了什么，消失了嗎?因此，嵌入式代理商將這個(gè)問(wèn)題大致分為四個(gè)子問(wèn)題。我將它們與顏色相關(guān)聯(lián)，因為這是Scott和Abram在其順序中所做的。紅色是決策理論。通常，決策理論是考慮所有可能的行為以模擬其后果，選擇一種會(huì )帶來(lái)最高預期效用的行為。當您是嵌入式代理時(shí)，這不是您可以做的事情，因為環(huán)境可能取決于您執行的策略。

最典型的例子是紐康問(wèn)題，其中部分環(huán)境是強大的存在，歐米茄。Omega能夠完美地預測您的情況，因此它確切地知道您將要做什么，并且Omega 100%值得信賴(lài)，并且所有這些都簡(jiǎn)化了假設。歐米茄為您提供以下游戲。他將在您面前放兩個(gè)透明的盒子。第一個(gè)框將始終包含$ 1,000美元，第二個(gè)框將包含百萬(wàn)美元或什么都不包含，您可以看到此內容，因為它們是透明的。您可以選擇帶一個(gè)盒子或兩個(gè)盒子，然后隨便拿里面的東西。

令人不安的是，如果歐米茄預測您只會(huì )帶上百萬(wàn)美元的盒子，而不帶另一個(gè)盒子，他只會(huì )把一百萬(wàn)美元放在盒子里。所以現在您看到兩個(gè)盒子，看到一個(gè)盒子有一百萬(wàn)美元，另一個(gè)盒子有一千美元。在這種情況下，您是否應該同時(shí)使用兩個(gè)盒子?還是只帶上一百萬(wàn)美元的盒子?因此，按照我現在的設置方式，從邏輯上講，除了花費一百萬(wàn)美元之外，您什么都做不到。因此，也許您會(huì )說(shuō)好，我在邏輯上要求這樣做，所以這不是很有趣。但是，您可以將其放寬到一個(gè)問(wèn)題，即Omega達到99.999%的預測正確率的可能性。從某種意義上說(shuō)，現在您確實(shí)有代理權。您可以選擇兩個(gè)框，但這在邏輯上是不可能的，并且您知道，兩個(gè)框都在那里。您現在無(wú)法更改框中的金額?；镉?，您應該只帶兩個(gè)盒子，因為這樣可以多給您$ 1,000。你為什么不這樣做呢?

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播更多信息之目的，如作者信息標記有誤，請第一時(shí)間聯(lián)系我們修改或刪除，多謝。

RM新时代投资官网

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<code id="2ichv"><strong id="2ichv"><legend id="2ichv"></legend></strong></code>

<p id="2ichv"></p>

<pre id="2ichv"><option id="2ichv"></option></pre>

<pre id="2ichv"><fieldset id="2ichv"></fieldset></pre>