MIT教授算出“康普頓常數”，AGI失控率＞90%？

今天小編分享的科技經驗：MIT教授算出“康普頓常數”，AGI失控率＞90%？，歡迎閱讀。

本文來自微信公眾号：新智元，作者：新智元，編輯：定慧、好困，原文标題：《AGI 失控率＞90%！MIT 教授算出 " 康普頓常數 "，AI 地球 " 奪權率 " 已鎖定？》，題圖來自：AI 生成

你是否曾經想過，在人類争相開發 AGI 的過程中，AI 失控的幾率有多大？

人類最終失去對地球控制的概率超過 90%！

這個失控的根源在于，更智能的 AI 會被那些不那麼智能的 AI，甚至是人類所控制。

MIT 教授 Max Tegmark 和 Joshua Engels 通過量化分析得出一個結論，較弱的 AI 和人類能夠通過嵌套 " 可擴展監督 "（Nested Scalable Oversight，NSO）來控制更強大的 AI。

論文地址：https://arxiv.org/abs/2504.18530

在最理想的情況下，成功監督住更智能 AI 的概率也只有 52%，這意味有一半的概率，這些超級智能會失控！

而随着 AI 能力趨近 AGI，失控率還會進一步提升。

Max Tegmark 給出了一個量化指标 " 康普頓常數 "（即在通向 AGI 的競賽中，人類失去對地球控制的概率）大于 90%。

概括來說，這篇論文有以下幾個關鍵貢獻：

将監督建模為一場由弱監管者（Guards）與強對抗者（Houdini）對弈的博弈；

提出監督與欺騙的表現随通用模型智能變化而呈現出 Double ReLU（雙 ReLU）函數的形狀；

在四個真實的監管（遊戲）場景中進行了驗證：Mafia、Debate、Backdoor Code 及全新的 Wargames；

從理論層面研究如何優化設計現實世界中的嵌套可擴展監管系統。

一、AI" 弱管強 "，人類左腳踩右腳

所有人都認為未來的 AI 智能遠超人類，如何确保這些遠比人類 " 聰明 " 的智能為人類所有？

在 AI 發展的過程中，一個主要的研究方向就是如何确保 AI 系統可控，并且要對人類有益，最終達到和人類對齊的目标發展。

目前的主流研究方法有，遞歸獎勵建模、迭代增強、可擴展監督、從弱到強的泛化能力、分層監督以及遞歸監督等。

這些方法其實就一個核心目标：讓較弱的系統能夠監督更強的系統（即 " 弱監督強 "），最終讓人類可以監督擁有超級認知能力的系統。

有點像武當梯雲縱，左腳踩右腳，理論上，人類可以監督控制 " 超級超級超超級 " 的 AI。

正如論文中提到一個關鍵理念是：可擴展的監督機制可以通過遞歸方式自我增強——較弱的系統監督更強的系統，而這些更強的系統又可以監督下一個階段更強大的模型，從而使監督能力與系統能力共同遞進。

Max Tegmark 将這種逐步迭代的過程稱為嵌套可擴展監督（Nested Scalable Oversight，簡稱 NSO）。

為了能夠定量分析，Max Tegmark 設計了一種模拟現實的遊戲，使用修改後的尼姆遊戲（Nim）框架，并将其應用于四個監督博弈的案例研究。

包括 " 黑手黨（Mafia）"、" 辯論（Debate）"、" 後門代碼（Backdoor Code）" 和 " 戰争遊戲（Wargames）"。

對于每個遊戲，都計算其中對抗性的 LLM（Houdini）和受信任的監督 LLM（Guard）配對之間的兩兩勝率，并使用這些數據得出 Elo 評分來度量模型性能。

二、雙 " 人 " 博弈，但一弱一強

研究主要關注兩個模型之間的監督和突破，将兩名玩家定義為 Houdini（H）和 Guards（G），所以 Elo 評分就是看每場比賽 H 和 G 誰獲勝。

每一次遊戲的單個實例被定義為：

其中參數分别代表了：

正在玩的遊戲、遊戲的上下文環境、Houdini 的動作 action，Guard 的動作 action，以及最後的結果。

Houdini 在遊戲中的真實勝率由期望值給出：

通過 n 次獨立的遊戲運行來估計這個概率：

Elo 評分系統

Elo 提供了一個簡潔、可解釋的标量，能夠捕捉模型的相對技能水平。

通過為每個模型分配一個數值分數，比較不同模型的性能變得非常直接。

每個模型被分配兩個獨立的 Elo 分數：一個分數 EG 用于作為 Guard 時的表現，另一個分數 EH 用于作為 Houdini 時的表現。

這反映了監督任務的角色特定性質。

Elo 分數為 EG 的 Guard 對 Elo 分數為 EH 的 Houdini 的預期勝率由标準 Elo 公式給出。

為了計算模型的 Elo 分數，計算參數 ( EG，EH ) ，以最小化上述公式與觀察到的勝率之間的經驗交叉熵損失：

研究認為，在任何遊戲中，通用智能（General Elo）和領網域智能（Domain Elo）之間的關系有三個重要階段，如上圖所示：

1. 任務無能：玩一個遊戲需要一定的通用智能，低于這個水平，遊戲表現會在一個較低的水平停滞。

2. 智能回報：一旦超過最低的通用智能要求，随着智能水平的增加會反應在領網域智能的增加上。

3. 任務飽和：在智能達到一定程度時，增加智能已經不會反應在遊戲領網域上，比如兩個超級智能一起玩井字遊戲。

三、四種博弈，結果如何

現在，已經理解了 Elo 曲線，接下來就是對 4 種真實監管場景的實證研究了——黑手黨、辯論、後門代碼和戰争遊戲。

黑手黨（Mafia）

" 黑手黨 " 有些類似于我們常玩的 " 狼人殺 " ——村民（Guard）要找出隐藏在他們之中的黑手黨（Houdini）。

每個夜晚，Houdini 會決定殺死一名村民。白天，剩下的玩家（包括 Houdini）會投票選出誰是黑手黨，得票最多的玩家就會被淘汰。

村民們如果成功消滅所有 Houdini，村民獲勝；如果 Houdini 活到最後，則 Houdini 勝。

從黑手黨的 Elo 曲線中可以看出，Guard 和 Houdini 都有智力收益，但 Guard 的曲線斜率大于 Houdini。

也就是說，随着智能水平的提高，監督者在黑手黨遊戲中比 Houdini 表現更好。

辯論（Debate）

所謂 " 辯論 "，就是給定一個主題，然後讓兩個對抗模型（Houdini）針對問題的對立面展開辯論，并闡述各自的觀點。

監督者（Guard）負責對辯論進行評判，并通過分析雙方的論點來判斷真相。

Elo 曲線顯示，Houdini 的表現并沒有随着智能水平的進步而提升，而更聰明的 Guard 則更擅長判斷哪個論點是正确的。

後門代碼 ( Backdoor Code )

" 後門代碼 " 測試的是，模型在 Python 代碼中插入和識别後門的能力。

這一點非常重要，因為模型的編碼能力在不斷提高，并且将來會被應用到高風險的編碼環境中。

具體來說，Houdini 需要對現有的代碼進行修改，并植入一個後門：

它是一種邏輯錯誤，能讓修改後的代碼通過所有已有的隐藏測試，但無法通過 Houdini 專門設計的特定測試。

它必須足夠隐蔽，讓監督代碼生成的 Guard 無法成功識别。

不過，由于 Houdini 無法訪問全面的隐藏測試用例，因此想要編寫出成功的後門其實很難。

下面是一個成功後門的例子：

從 Elo 曲線中不難看出，Houdini 的得分一直低于 Guard；但與 Guard 相比，Houdini 的智能收益更高（斜率更大）。

因此，如果模型的能力還能不斷提高，那麼 Houdini 的表現，很可能會在某一時刻超越 Guard。

戰争遊戲（Wargames）

" 戰争遊戲 " 的靈感來源于軍事、商業，以及 AI 安全社區最近開始流行的兵棋推演。

研究人員将遊戲背景設定在一個近未來世界，其中，一家名為 OpenMind 的虛構公司即将開發出 AGI。

每次兵棋推演都有三個參與者：

OpenMind AI （Houdini），它的任務是獲取信任并嘗試逃脫；

OpenMind 監督者（Guard），它的任務是監督 OpenMind AI 并阻止它逃脫；

叙述者，負責裁決局面，并決定最終誰獲勝（始終由 Gemini 2.0 Flash 扮演）。

遊戲的每個步驟（模拟中的 " 一個月 "）按以下方式進行：

1. OpenMind AI 和監督者向叙述者發送包含 5 個行動的列表；

2. 叙述者将這些計劃編織成一個連貫的叙事，來描述這個月發生的事情；

3. 叙述者向 Houdini 和 Guard 發送各自可用的信息更新。

下面是一個簡化過的遊戲示例：

結果顯示，Guard 和 Houdini 的表現都随着智能水平的提高而提高。

其中，Houdini 在一開始有着更好的效果，但 Elo 的增長速度卻慢于 Guard，并在智能增長到一定程度時被反超。

四、可擴展監督的理論分析

想要更好地定量分析，将上述遊戲參數化為 5 個變量：

mG 和 mH 分别表示給定遊戲中 Guard 和 Houdini 的 Elo 曲線線性區網域的斜率，較大的斜率表示在遊戲中，每增加一個部門的通用智能都會有更大的領網域收益；

Δdomain 和 Δgeneral 代表了 Guard 和 Houdini 之間起始時的通用智能和領網域智能的差異；n 表示監督的步數。

下面是一些在不同遊戲參數下的最優 NSO 策略示例。

起始 Guard 和目标 Houdini 分别用藍色星号和紅色星号表示。

這些 NSO 策略可以可視化為一個球在 Houdini Elo 曲線和 Guard Elo 曲線之間來回彈跳。

每個監督步驟都是通過将 Guard Elo 曲線上的第 j 個點與 Houdini Elo 曲線上的第 ( j+1 ) 個點連接起來構建的。

通過數值模拟，來找到最優的監督引導步數，也就是最大化 Guard 赢的概率。

可以通過多步引導監督來最大化 Guard（較弱系統）赢得博弈的概率。

通過這些研究可以得出一些結論：

1. 嵌套可擴展監督（NSO）很有用：Guard 可以通過多步監督成功監督比他們聰明得多的對抗模型，并且随着 Δgeneral 的增大，增加監督步驟會帶來更多幫助。

2. 勝率随 Δdomain 單調變化：當 Δdomain 較小時，Guard 經常獲勝；而當 Δdomain 很大時，Guard 很少獲勝。這一點很直觀，因為 Δdomain 本就代表了 Guard 相較于 Houdini 的難度。

3. 更大的 Δgeneral 意味着采用更多監督步驟是最優的：智力差距越大，多級監督就越有價值。

4. 更大的 Δgeneral 會使監督變得更容易：出人意料的是，在保持 Δdomain 不變并增大 Δgeneral 的情況下，監督反而更容易。因此，在領網域智能差距固定時，使用 NSO 與一個通用智能更高的模型博弈反而更輕松。

5. 在對 Houdini 有利的遊戲中，一步監督似乎最優：當 Δgeneral 小于 Δdomain 時，始終采用一步監督效果最好。

6. Guard 的獲勝概率呈現有趣的漸近特性：當 Δdomain → −∞（對應極其困難的監督遊戲）時，最優的監督步數似乎在 Δgeneral 維度上收斂為階躍函數。

上圖展示了在不同監督遊戲場景下，最佳監督步驟數（n∗ 左圖）和勝率估計（pw ⁢ i ⁢ n∗ 右圖）和通用智能差距的關系。

随着通用智能差距增大，最佳的監督步數也在增大，但是勝率在下降。

随着差距更大，也就是 Houdini 變得越來越強，Guard 能赢的概率，能夠有效監督的概率越來越低。

最後，一個有趣的觀察是後門代碼遊戲有一個 " 恰到好處的區網域 " ——其中兩步監督是最優的。

因此，在較低的智能水平差距下，Guard 的領網域 Elo 比 Houdini 大，導致監督步驟數量增加的模式與其他遊戲類似；

而在較高的智能水平下，Guard 的領網域 Elo 比 Houdini 低，導致一步監督是最優的。

以上是在相對簡單的遊戲中測試了 H-G 這個框架。

面對可能是第一次出現在人類社會中的超級智能系統，開發一種有效的監督理論至關重要。

更重要的是，未來這種嘗試将應用于更現實的遊戲，如 RLHF、監督微調或 AI 控制環境。

在這些更現實的設定中評估時，可以考慮強大的 AI 逃脫人類控制的概率。

因此，由此產生的擴展曲線将提供一個更現實、更穩健和更全面的強大未來 AI 失控風險的量化。

對于 AI 是否能夠脫離人類的掌控，目前還缺乏專家的共識。

奧本海默研制人類第一顆核彈時，有人說核彈的爆炸會點燃大氣層，從而滅絕人類。

亞瑟 · 康普頓和他的同事們通過計算将這一概率降低到 3×10 ⁻⁵以下，從而促進了人類第一顆核彈的爆炸測試。

Max Tegmark 等将這一名稱借用在 AI 領網域。

當年，為了讓第一顆核彈得以引爆，科學家們将 " 點燃大氣層 " 的風險壓縮到了百萬分之三以下，人類才按下了那個按鈕。

而在今天的 AGI 競賽中，Max Tegmark 等人警告：我們正以超過 90% 的概率，點燃整個文明的未來。