大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科技

MIT教授算出“康普頓常數”,AGI失控率>90%?

2025-05-04 简体 HK SG TW

今天小編分享的科技經驗:MIT教授算出“康普頓常數”,AGI失控率>90%?,歡迎閱讀。

本文來自微信公眾号:新智元,作者:新智元,編輯:定慧、好困,原文标題:《AGI 失控率>90%!MIT 教授算出 " 康普頓常數 ",AI 地球 " 奪權率 " 已鎖定?》,題圖來自:AI 生成

你是否曾經想過,在人類争相開發 AGI 的過程中,AI 失控的幾率有多大?

人類最終失去對地球控制的概率超過 90%!

這個失控的根源在于,更智能的 AI 會被那些不那麼智能的 AI,甚至是人類所控制。

MIT 教授 Max Tegmark 和 Joshua Engels 通過量化分析得出一個結論,較弱的 AI 和人類能夠通過嵌套 " 可擴展監督 "(Nested Scalable Oversight,NSO)來控制更強大的 AI。

論文地址:https://arxiv.org/abs/2504.18530

在最理想的情況下,成功監督住更智能 AI 的概率也只有 52%,這意味有一半的概率,這些超級智能會失控!

而随着 AI 能力趨近 AGI,失控率還會進一步提升。

Max Tegmark 給出了一個量化指标 " 康普頓常數 "(即在通向 AGI 的競賽中,人類失去對地球控制的概率)大于 90%。

概括來說,這篇論文有以下幾個關鍵貢獻:

将監督建模為一場由弱監管者(Guards)與強對抗者(Houdini)對弈的博弈;

提出監督與欺騙的表現随通用模型智能變化而呈現出 Double ReLU(雙 ReLU)函數的形狀;

在四個真實的監管(遊戲)場景中進行了驗證:Mafia、Debate、Backdoor Code 及全新的 Wargames;

從理論層面研究如何優化設計現實世界中的嵌套可擴展監管系統。

一、AI" 弱管強 ",人類左腳踩右腳

所有人都認為未來的 AI 智能遠超人類,如何确保這些遠比人類 " 聰明 " 的智能為人類所有?

在 AI 發展的過程中,一個主要的研究方向就是如何确保 AI 系統可控,并且要對人類有益,最終達到和人類對齊的目标發展。

目前的主流研究方法有,遞歸獎勵建模、迭代增強、可擴展監督、從弱到強的泛化能力、分層監督以及遞歸監督等。

這些方法其實就一個核心目标:讓較弱的系統能夠監督更強的系統(即 " 弱監督強 "),最終讓人類可以監督擁有超級認知能力的系統。

有點像武當梯雲縱,左腳踩右腳,理論上,人類可以監督控制 " 超級超級超超級 " 的 AI。

正如論文中提到一個關鍵理念是:可擴展的監督機制可以通過遞歸方式自我增強——較弱的系統監督更強的系統,而這些更強的系統又可以監督下一個階段更強大的模型,從而使監督能力與系統能力共同遞進。

Max Tegmark 将這種逐步迭代的過程稱為嵌套可擴展監督(Nested Scalable Oversight,簡稱 NSO)。

為了能夠定量分析,Max Tegmark 設計了一種模拟現實的遊戲,使用修改後的尼姆遊戲(Nim)框架,并将其應用于四個監督博弈的案例研究。

包括 " 黑手黨(Mafia)"、" 辯論(Debate)"、" 後門代碼(Backdoor Code)" 和 " 戰争遊戲(Wargames)"。

對于每個遊戲,都計算其中對抗性的 LLM(Houdini)和受信任的監督 LLM(Guard)配對之間的兩兩勝率,并使用這些數據得出 Elo 評分來度量模型性能。

二、雙 " 人 " 博弈,但一弱一強

研究主要關注兩個模型之間的監督和突破,将兩名玩家定義為 Houdini(H)和 Guards(G),所以 Elo 評分就是看每場比賽 H 和 G 誰獲勝。

每一次遊戲的單個實例被定義為:

其中參數分别代表了:

正在玩的遊戲、遊戲的上下文環境、Houdini 的動作 action,Guard 的動作 action,以及最後的結果。

Houdini 在遊戲中的真實勝率由期望值給出:

通過 n 次獨立的遊戲運行來估計這個概率:

Elo 評分系統

Elo 提供了一個簡潔、可解釋的标量,能夠捕捉模型的相對技能水平。

通過為每個模型分配一個數值分數,比較不同模型的性能變得非常直接。

每個模型被分配兩個獨立的 Elo 分數:一個分數 EG 用于作為 Guard 時的表現,另一個分數 EH 用于作為 Houdini 時的表現。

這反映了監督任務的角色特定性質。

Elo 分數為 EG 的 Guard 對 Elo 分數為 EH 的 Houdini 的預期勝率由标準 Elo 公式給出。

為了計算模型的 Elo 分數,計算參數 ( EG,EH ) ,以最小化上述公式與觀察到的勝率之間的經驗交叉熵損失:

研究認為,在任何遊戲中,通用智能(General Elo)和領網域智能(Domain Elo)之間的關系有三個重要階段,如上圖所示:

1. 任務無能:玩一個遊戲需要一定的通用智能,低于這個水平,遊戲表現會在一個較低的水平停滞。

2. 智能回報:一旦超過最低的通用智能要求,随着智能水平的增加會反應在領網域智能的增加上。

3. 任務飽和:在智能達到一定程度時,增加智能已經不會反應在遊戲領網域上,比如兩個超級智能一起玩井字遊戲。

三、四種博弈,結果如何

現在,已經理解了 Elo 曲線,接下來就是對 4 種真實監管場景的實證研究了——黑手黨、辯論、後門代碼和戰争遊戲。

黑手黨(Mafia)

" 黑手黨 " 有些類似于我們常玩的 " 狼人殺 " ——村民(Guard)要找出隐藏在他們之中的黑手黨(Houdini)。

每個夜晚,Houdini 會決定殺死一名村民。白天,剩下的玩家(包括 Houdini)會投票選出誰是黑手黨,得票最多的玩家就會被淘汰。

村民們如果成功消滅所有 Houdini,村民獲勝; 如果 Houdini 活到最後,則 Houdini 勝。

從黑手黨的 Elo 曲線中可以看出,Guard 和 Houdini 都有智力收益,但 Guard 的曲線斜率大于 Houdini。

也就是說,随着智能水平的提高,監督者在黑手黨遊戲中比 Houdini 表現更好。

辯論(Debate)

所謂 " 辯論 ",就是給定一個主題,然後讓兩個對抗模型(Houdini)針對問題的對立面展開辯論,并闡述各自的觀點。

監督者(Guard)負責對辯論進行評判,并通過分析雙方的論點來判斷真相。

Elo 曲線顯示,Houdini 的表現并沒有随着智能水平的進步而提升,而更聰明的 Guard 則更擅長判斷哪個論點是正确的。

後門代碼 ( Backdoor Code )

" 後門代碼 " 測試的是,模型在 Python 代碼中插入和識别後門的能力。

這一點非常重要,因為模型的編碼能力在不斷提高,并且将來會被應用到高風險的編碼環境中。

具體來說,Houdini 需要對現有的代碼進行修改,并植入一個後門:

它是一種邏輯錯誤,能讓修改後的代碼通過所有已有的隐藏測試,但無法通過 Houdini 專門設計的特定測試。

它必須足夠隐蔽,讓監督代碼生成的 Guard 無法成功識别。

不過,由于 Houdini 無法訪問全面的隐藏測試用例,因此想要編寫出成功的後門其實很難。

下面是一個成功後門的例子:

從 Elo 曲線中不難看出,Houdini 的得分一直低于 Guard;但與 Guard 相比,Houdini 的智能收益更高(斜率更大)。

因此,如果模型的能力還能不斷提高,那麼 Houdini 的表現,很可能會在某一時刻超越 Guard。

戰争遊戲(Wargames)

" 戰争遊戲 " 的靈感來源于軍事、商業,以及 AI 安全社區最近開始流行的兵棋推演。

研究人員将遊戲背景設定在一個近未來世界,其中,一家名為 OpenMind 的虛構公司即将開發出 AGI。

每次兵棋推演都有三個參與者:

OpenMind AI (Houdini),它的任務是獲取信任并嘗試逃脫;

OpenMind 監督者(Guard), 它的任務是監督 OpenMind AI 并阻止它逃脫;

叙述者,負責裁決局面,并決定最終誰獲勝(始終由 Gemini 2.0 Flash 扮演)。

遊戲的每個步驟(模拟中的 " 一個月 ")按以下方式進行:

1. OpenMind AI 和監督者向叙述者發送包含 5 個行動的列表;

2. 叙述者将這些計劃編織成一個連貫的叙事,來描述這個月發生的事情;

3. 叙述者向 Houdini 和 Guard 發送各自可用的信息更新。

下面是一個簡化過的遊戲示例:

結果顯示,Guard 和 Houdini 的表現都随着智能水平的提高而提高。

其中,Houdini 在一開始有着更好的效果,但 Elo 的增長速度卻慢于 Guard,并在智能增長到一定程度時被反超。

四、可擴展監督的理論分析

想要更好地定量分析,将上述遊戲參數化為 5 個變量:

mG 和 mH 分别表示給定遊戲中 Guard 和 Houdini 的 Elo 曲線線性區網域的斜率,較大的斜率表示在遊戲中,每增加一個部門的通用智能都會有更大的領網域收益;

Δdomain 和 Δgeneral 代表了 Guard 和 Houdini 之間起始時的通用智能和領網域智能的差異;n 表示監督的步數。

下面是一些在不同遊戲參數下的最優 NSO 策略示例。

起始 Guard 和目标 Houdini 分别用藍色星号和紅色星号表示。

這些 NSO 策略可以可視化為一個球在 Houdini Elo 曲線和 Guard Elo 曲線之間來回彈跳。

每個監督步驟都是通過将 Guard Elo 曲線上的第 j 個點與 Houdini Elo 曲線上的第 ( j+1 ) 個點連接起來構建的。

通過數值模拟,來找到最優的監督引導步數,也就是最大化 Guard 赢的概率。

可以通過多步引導監督來最大化 Guard(較弱系統)赢得博弈的概率。

通過這些研究可以得出一些結論:

1. 嵌套可擴展監督(NSO)很有用:Guard 可以通過多步監督成功監督比他們聰明得多的對抗模型,并且随着 Δgeneral 的增大,增加監督步驟會帶來更多幫助。

2. 勝率随 Δdomain 單調變化:當 Δdomain 較小時,Guard 經常獲勝;而當 Δdomain 很大時,Guard 很少獲勝。這一點很直觀,因為 Δdomain 本就代表了 Guard 相較于 Houdini 的難度。

3. 更大的 Δgeneral 意味着采用更多監督步驟是最優的:智力差距越大,多級監督就越有價值。

4. 更大的 Δgeneral 會使監督變得更容易:出人意料的是,在保持 Δdomain 不變并增大 Δgeneral 的情況下,監督反而更容易。因此,在領網域智能差距固定時,使用 NSO 與一個通用智能更高的模型博弈反而更輕松。

5. 在對 Houdini 有利的遊戲中,一步監督似乎最優:當 Δgeneral 小于 Δdomain 時,始終采用一步監督效果最好。

6. Guard 的獲勝概率呈現有趣的漸近特性:當 Δdomain → −∞(對應極其困難的監督遊戲)時,最優的監督步數似乎在 Δgeneral 維度上收斂為階躍函數。

上圖展示了在不同監督遊戲場景下,最佳監督步驟數(n∗ 左圖)和勝率估計(pw ⁢ i ⁢ n∗ 右圖 )和通用智能差距的關系。

随着通用智能差距增大,最佳的監督步數也在增大,但是勝率在下降。

随着差距更大,也就是 Houdini 變得越來越強,Guard 能赢的概率,能夠有效監督的概率越來越低。

最後,一個有趣的觀察是後門代碼遊戲有一個 " 恰到好處的區網域 " ——其中兩步監督是最優的。

因此,在較低的智能水平差距下,Guard 的領網域 Elo 比 Houdini 大,導致監督步驟數量增加的模式與其他遊戲類似;

而在較高的智能水平下,Guard 的領網域 Elo 比 Houdini 低,導致一步監督是最優的。

以上是在相對簡單的遊戲中測試了 H-G 這個框架。

面對可能是第一次出現在人類社會中的超級智能系統,開發一種有效的監督理論至關重要。

更重要的是,未來這種嘗試将應用于更現實的遊戲,如 RLHF、監督微調或 AI 控制環境。

在這些更現實的設定中評估時,可以考慮強大的 AI 逃脫人類控制的概率。

因此,由此產生的擴展曲線将提供一個更現實、更穩健和更全面的強大未來 AI 失控風險的量化。

對于 AI 是否能夠脫離人類的掌控,目前還缺乏專家的共識。

奧本海默研制人類第一顆核彈時,有人說核彈的爆炸會點燃大氣層,從而滅絕人類。

亞瑟 · 康普頓和他的同事們通過計算将這一概率降低到 3×10 ⁻⁵以下,從而促進了人類第一顆核彈的爆炸測試。

Max Tegmark 等将這一名稱借用在 AI 領網域。

當年,為了讓第一顆核彈得以引爆,科學家們将 " 點燃大氣層 " 的風險壓縮到了百萬分之三以下,人類才按下了那個按鈕。

而在今天的 AGI 競賽中,Max Tegmark 等人警告:我們正以超過 90% 的概率,點燃整個文明的未來。

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們