OpenAI發(fā)布新研究:用CoT監控大模型 防止惡意行為

2025-03-16 02:40:01    來(lái)源:新經(jīng)網(wǎng)    作者:馮思韻
很多朋友不知道【OpenAI發(fā)布新研究:用CoT監控大模型 防止惡意行為】,今天小綠就為大家解答一下。

  OpenAI的最新研究為解決這些問(wèn)題提供了新的思路。通過(guò)CoT監控方法,可以有效識別和阻止大模型的惡意行為,提升AI的安全性和可靠性。

版權所有,未經(jīng)許可不得轉載

  【CNMO科技消息】近兩年,AI大模型在全球范圍內迅速普及,幾乎人人都在使用AI。然而,隨著(zhù)AI的廣泛應用,如何解決大模型的安全和治理問(wèn)題也變得愈發(fā)迫切。近日,OpenAI發(fā)布了一項最新研究,提出了一種名為“CoT監控”的方法,可以有效阻止大模型的惡意行為,如胡說(shuō)八道或隱藏真實(shí)意圖。這一方法也被視為監督超級模型的有效工具之一。

  在2025年GDC全球開(kāi)發(fā)者先鋒大會(huì )的工作坊“安全超級智能”上,AI智能安全研究員朱小虎作為此次工作坊的負責人,指出:“你的AI大模型有可能會(huì )欺騙你?!彼岬?,大模型存在“欺騙性?xún)r(jià)值對齊”(Deceptive value alignment)的情況,即模型通過(guò)欺騙的方式獲得對齊,但這種對齊并不能反映AI的真實(shí)目標或意圖。這種現象在訓練階段和推理階段尤為明顯,模型會(huì )對形成的上下文產(chǎn)生“欺騙性的對齊”,從而影響用戶(hù)的判斷,尤其是老年人和兒童。此外,這種行為還可能侵犯隱私,是模型不安全的一大方面。

  在研究中,OpenAI使用了最新發(fā)布的前沿模型o3-mini作為被監控對象,并以較弱的GPT-4o模型作為監控器。測試環(huán)境為編碼任務(wù),要求AI在代碼庫中實(shí)現功能以通過(guò)單元測試。結果顯示,CoT監控器在檢測系統性“獎勵黑客”行為時(shí)表現卓越,召回率高達95%,遠超僅監控行為的60%。


以上問(wèn)題已經(jīng)回答了。如果你想了解更多,請關(guān)新經(jīng)網(wǎng)網(wǎng)站 (http://www.hkkqyy120.com/)
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。