<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<strike id="ygvib"></strike>

<p id="ygvib"></p>

<p id="ygvib"><strong id="ygvib"><b id="ygvib"></b></strong></p>

<s id="ygvib"></s>

DeepMind的人工智能安全基準測試

2020-01-25 11:00:58 來(lái)源：作者：

大家好，歡迎來(lái)到AI Alignment播客。我是盧卡斯·佩里。今天，我們正在與Jan Leike交談。Jan Leike是DeepMind的高級研究科學(xué)家，他的研究旨在幫助使機器學(xué)習變得強大而有益。他致力于增強學(xué)習代理的安全性和一致性?？梢詫⑺斍暗难芯坷斫鉃橐韵聠?wèn)題的動(dòng)機：我們如何設計競爭性和可擴展的機器學(xué)習算法，這些算法在沒(méi)有獎勵功能的情況下做出順序決策?如果這個(gè)播客對您來(lái)說(shuō)有趣或有價(jià)值，請考慮在您喜歡的收聽(tīng)平臺上關(guān)注我們，并給我們留下很好的評價(jià)。

DeepMind的人工智能安全基準測試

這次對話(huà)涵蓋了Jan的博士學(xué)位和從理論研究到經(jīng)驗AI研究的轉變，為何發(fā)生這種轉變以及他對經(jīng)驗AI安全研究的重要性的看法，我們討論了DeepMind如何處理有益的AI和AI安全項目。我們將討論當今的AI整合前景以及Jan最激動(dòng)的方法。我們進(jìn)入Jan的遞歸獎勵建模研究的主要領(lǐng)域，并討論DeepMind上的AI安全基準測試工作以及AI對齊/ AI安全社區與主流AI和機器學(xué)習社區之間的知識和文化差異。作為友好的通知，播客后半段的傳入音頻存在一些音頻問(wèn)題。我們竭盡所能清理這些聲音，我覺(jué)得最終的音頻很容易聽(tīng)。我還要感謝Richard Ngo，Vishal Maini和Richard Mallah在開(kāi)發(fā)和完善此播客問(wèn)題時(shí)所提供的幫助。因此，讓我們開(kāi)始與Jan Leike進(jìn)行對話(huà)。

DeepMind的人工智能安全基準測試

您為什么不先帶領(lǐng)我們完成AI領(lǐng)域的旅程呢?您最初是如何對數學(xué)和計算機科學(xué)感興趣的?告訴我一些關(guān)于你讀博士的時(shí)間。是什么引起了您的好奇心，為什么要追求自己的追求?

Jan Leike：我在2012年左右對AGI和AGI安全產(chǎn)生了興趣。我一次攻讀碩士學(xué)位，并且試圖思考我應該為自己的職業(yè)做什么。我正在網(wǎng)上閱讀很多東西。這就是我進(jìn)入整個(gè)領(lǐng)域的方式。我當時(shí)的背景是數學(xué)和計算機科學(xué)，但我并不是真正從事AI方面的工作。我正在從事軟件驗證方面的工作。然后，我遇到了Marcus Hutter的AIXI模型，該模型基本上是AGI外觀(guān)的正式數學(xué)模型。它是高度理想化的。它實(shí)際上不是可以運行的東西，但是您可以考慮一下，并且可以實(shí)際證明它。我對此感到非常興奮。我認為這是一個(gè)很好的起點(diǎn)，因為您還記得那是在2012年整個(gè)深度學(xué)習革命發(fā)生之前，因此，目前尚不清楚我們實(shí)際上可以對AGI采用哪種方法。我的博士學(xué)位的目的是從高級理論角度來(lái)理解AGI。

盧卡斯·佩里(Lucas Perry)：與馬庫斯·哈特(Marcus Hutter)一起攻讀AIXI或“ A”，“ I”，“ X”，“ I”。

Jan Leike：因此，我的論文最終只是一些理論上的結果，其中一些實(shí)際上是這種理想化的代理人AIXI在任何客觀(guān)意義上都不是最優(yōu)的。在某種程度上，這全都取決于用于定義它的通用圖靈機。但是，AIXI上有一些具有客觀(guān)屬性的變體，例如漸近收斂到最優(yōu)策略。此變體基本上是基于Thompson采樣的變體，但這是一個(gè)完全通用的強化學(xué)習設置。所以這是部分可觀(guān)察到的，而且您沒(méi)有劇集。就像一切都是一集。因此，這并不是一個(gè)可以給出任何示例復雜度界限的設置。漸近收斂是您所能做的。隨之而來(lái)的另一件事是我們所說(shuō)的“解決糧食問(wèn)題的正式解決方案。

DeepMind的人工智能安全基準測試

這里的想法是AIXI形式模型的問(wèn)題之一是它假設其環(huán)境是可計算的，但其本身是不可爭議的。您不能真正使用它進(jìn)??行多主體分析。因此，我們所做的就是提出一種形式主義，就像AIXI的變體一樣，如果我們將代理或環(huán)境與其他類(lèi)似AIXI的代理一起嵌入，則可以屬于自己的環(huán)境類(lèi)。然后，當他們這樣做時(shí)，他們仍然可以漸近學(xué)習正確預測代理將執行的操作，然后漸近收斂到Nash平衡。

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播更多信息之目的，如作者信息標記有誤，請第一時(shí)間聯(lián)系我們修改或刪除，多謝。

RM新时代投资官网

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<s id="zrsjf"><nav id="zrsjf"></nav></s>