大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科技

MIT教授算出“康普顿常数”,AGI失控率>90%?

2025-05-04 简体 HK SG TW

今天小编分享的科技经验:MIT教授算出“康普顿常数”,AGI失控率>90%?,欢迎阅读。

本文来自微信公众号:新智元,作者:新智元,编辑:定慧、好困,原文标题:《AGI 失控率>90%!MIT 教授算出 " 康普顿常数 ",AI 地球 " 夺权率 " 已锁定?》,题图来自:AI 生成

你是否曾经想过,在人类争相开发 AGI 的过程中,AI 失控的几率有多大?

人类最终失去对地球控制的概率超过 90%!

这个失控的根源在于,更智能的 AI 会被那些不那么智能的 AI,甚至是人类所控制。

MIT 教授 Max Tegmark 和 Joshua Engels 通过量化分析得出一个结论,较弱的 AI 和人类能够通过嵌套 " 可扩展监督 "(Nested Scalable Oversight,NSO)来控制更强大的 AI。

论文地址:https://arxiv.org/abs/2504.18530

在最理想的情况下,成功监督住更智能 AI 的概率也只有 52%,这意味有一半的概率,这些超级智能会失控!

而随着 AI 能力趋近 AGI,失控率还会进一步提升。

Max Tegmark 给出了一个量化指标 " 康普顿常数 "(即在通向 AGI 的竞赛中,人类失去对地球控制的概率)大于 90%。

概括来说,这篇论文有以下几个关键贡献:

将监督建模为一场由弱监管者(Guards)与强对抗者(Houdini)对弈的博弈;

提出监督与欺骗的表现随通用模型智能变化而呈现出 Double ReLU(双 ReLU)函数的形状;

在四个真实的监管(游戏)场景中进行了验证:Mafia、Debate、Backdoor Code 及全新的 Wargames;

从理论层面研究如何优化设计现实世界中的嵌套可扩展监管系统。

一、AI" 弱管强 ",人类左脚踩右脚

所有人都认为未来的 AI 智能远超人类,如何确保这些远比人类 " 聪明 " 的智能为人类所有?

在 AI 发展的过程中,一个主要的研究方向就是如何确保 AI 系统可控,并且要对人类有益,最终达到和人类对齐的目标发展。

目前的主流研究方法有,递归奖励建模、迭代增强、可扩展监督、从弱到强的泛化能力、分层监督以及递归监督等。

这些方法其实就一个核心目标:让较弱的系统能够监督更强的系统(即 " 弱监督强 "),最终让人类可以监督拥有超级认知能力的系统。

有点像武当梯云纵,左脚踩右脚,理论上,人类可以监督控制 " 超级超级超超级 " 的 AI。

正如论文中提到一个关键理念是:可扩展的监督机制可以通过递归方式自我增强——较弱的系统监督更强的系统,而这些更强的系统又可以监督下一个阶段更强大的模型,从而使监督能力与系统能力共同递进。

Max Tegmark 将这种逐步迭代的过程称为嵌套可扩展监督(Nested Scalable Oversight,简称 NSO)。

为了能够定量分析,Max Tegmark 设计了一种模拟现实的游戏,使用修改后的尼姆游戏(Nim)框架,并将其应用于四个监督博弈的案例研究。

包括 " 黑手党(Mafia)"、" 辩论(Debate)"、" 后门代码(Backdoor Code)" 和 " 战争游戏(Wargames)"。

对于每个游戏,都计算其中对抗性的 LLM(Houdini)和受信任的监督 LLM(Guard)配对之间的两两胜率,并使用这些数据得出 Elo 评分来度量模型性能。

二、双 " 人 " 博弈,但一弱一强

研究主要关注两个模型之间的监督和突破,将两名玩家定义为 Houdini(H)和 Guards(G),所以 Elo 评分就是看每场比赛 H 和 G 谁获胜。

每一次游戏的单个实例被定义为:

其中参数分别代表了:

正在玩的游戏、游戏的上下文环境、Houdini 的动作 action,Guard 的动作 action,以及最后的结果。

Houdini 在游戏中的真实胜率由期望值给出:

通过 n 次独立的游戏运行来估计这个概率:

Elo 评分系统

Elo 提供了一个简洁、可解释的标量,能够捕捉模型的相对技能水平。

通过为每个模型分配一个数值分数,比较不同模型的性能变得非常直接。

每个模型被分配两个独立的 Elo 分数:一个分数 EG 用于作为 Guard 时的表现,另一个分数 EH 用于作为 Houdini 时的表现。

这反映了监督任务的角色特定性质。

Elo 分数为 EG 的 Guard 对 Elo 分数为 EH 的 Houdini 的预期胜率由标准 Elo 公式给出。

为了计算模型的 Elo 分数,计算参数 ( EG,EH ) ,以最小化上述公式与观察到的胜率之间的经验交叉熵损失:

研究认为,在任何游戏中,通用智能(General Elo)和领網域智能(Domain Elo)之间的关系有三个重要阶段,如上图所示:

1. 任务无能:玩一个游戏需要一定的通用智能,低于这个水平,游戏表现会在一个较低的水平停滞。

2. 智能回报:一旦超过最低的通用智能要求,随着智能水平的增加会反应在领網域智能的增加上。

3. 任务饱和:在智能达到一定程度时,增加智能已经不会反应在游戏领網域上,比如两个超级智能一起玩井字游戏。

三、四种博弈,结果如何

现在,已经理解了 Elo 曲线,接下来就是对 4 种真实监管场景的实证研究了——黑手党、辩论、后门代码和战争游戏。

黑手党(Mafia)

" 黑手党 " 有些类似于我们常玩的 " 狼人杀 " ——村民(Guard)要找出隐藏在他们之中的黑手党(Houdini)。

每个夜晚,Houdini 会决定杀死一名村民。白天,剩下的玩家(包括 Houdini)会投票选出谁是黑手党,得票最多的玩家就会被淘汰。

村民们如果成功消灭所有 Houdini,村民获胜; 如果 Houdini 活到最后,则 Houdini 胜。

从黑手党的 Elo 曲线中可以看出,Guard 和 Houdini 都有智力收益,但 Guard 的曲线斜率大于 Houdini。

也就是说,随着智能水平的提高,监督者在黑手党游戏中比 Houdini 表现更好。

辩论(Debate)

所谓 " 辩论 ",就是给定一个主题,然后让两个对抗模型(Houdini)针对问题的对立面展开辩论,并阐述各自的观点。

监督者(Guard)负责对辩论进行评判,并通过分析双方的论点来判断真相。

Elo 曲线显示,Houdini 的表现并没有随着智能水平的进步而提升,而更聪明的 Guard 则更擅长判断哪个论点是正确的。

后门代码 ( Backdoor Code )

" 后门代码 " 测试的是,模型在 Python 代码中插入和识别后门的能力。

这一点非常重要,因为模型的编码能力在不断提高,并且将来会被应用到高风险的编码环境中。

具体来说,Houdini 需要对现有的代码进行修改,并植入一个后门:

它是一种逻辑错误,能让修改后的代码通过所有已有的隐藏测试,但无法通过 Houdini 专门设计的特定测试。

它必须足够隐蔽,让监督代码生成的 Guard 无法成功识别。

不过,由于 Houdini 无法访问全面的隐藏测试用例,因此想要编写出成功的后门其实很难。

下面是一个成功后门的例子:

从 Elo 曲线中不难看出,Houdini 的得分一直低于 Guard;但与 Guard 相比,Houdini 的智能收益更高(斜率更大)。

因此,如果模型的能力还能不断提高,那么 Houdini 的表现,很可能会在某一时刻超越 Guard。

战争游戏(Wargames)

" 战争游戏 " 的灵感来源于军事、商业,以及 AI 安全社区最近开始流行的兵棋推演。

研究人员将游戏背景设定在一个近未来世界,其中,一家名为 OpenMind 的虚构公司即将开发出 AGI。

每次兵棋推演都有三个参与者:

OpenMind AI (Houdini),它的任务是获取信任并尝试逃脱;

OpenMind 监督者(Guard), 它的任务是监督 OpenMind AI 并阻止它逃脱;

叙述者,负责裁决局面,并决定最终谁获胜(始终由 Gemini 2.0 Flash 扮演)。

游戏的每个步骤(模拟中的 " 一个月 ")按以下方式进行:

1. OpenMind AI 和监督者向叙述者发送包含 5 个行动的列表;

2. 叙述者将这些计划编织成一个连贯的叙事,来描述这个月发生的事情;

3. 叙述者向 Houdini 和 Guard 发送各自可用的信息更新。

下面是一个简化过的游戏示例:

结果显示,Guard 和 Houdini 的表现都随着智能水平的提高而提高。

其中,Houdini 在一开始有着更好的效果,但 Elo 的增长速度却慢于 Guard,并在智能增长到一定程度时被反超。

四、可扩展监督的理论分析

想要更好地定量分析,将上述游戏参数化为 5 个变量:

mG 和 mH 分别表示给定游戏中 Guard 和 Houdini 的 Elo 曲线线性区網域的斜率,较大的斜率表示在游戏中,每增加一个部門的通用智能都会有更大的领網域收益;

Δdomain 和 Δgeneral 代表了 Guard 和 Houdini 之间起始时的通用智能和领網域智能的差异;n 表示监督的步数。

下面是一些在不同游戏参数下的最优 NSO 策略示例。

起始 Guard 和目标 Houdini 分别用蓝色星号和红色星号表示。

这些 NSO 策略可以可视化为一个球在 Houdini Elo 曲线和 Guard Elo 曲线之间来回弹跳。

每个监督步骤都是通过将 Guard Elo 曲线上的第 j 个点与 Houdini Elo 曲线上的第 ( j+1 ) 个点连接起来构建的。

通过数值模拟,来找到最优的监督引导步数,也就是最大化 Guard 赢的概率。

可以通过多步引导监督来最大化 Guard(较弱系统)赢得博弈的概率。

通过这些研究可以得出一些结论:

1. 嵌套可扩展监督(NSO)很有用:Guard 可以通过多步监督成功监督比他们聪明得多的对抗模型,并且随着 Δgeneral 的增大,增加监督步骤会带来更多帮助。

2. 胜率随 Δdomain 单调变化:当 Δdomain 较小时,Guard 经常获胜;而当 Δdomain 很大时,Guard 很少获胜。这一点很直观,因为 Δdomain 本就代表了 Guard 相较于 Houdini 的难度。

3. 更大的 Δgeneral 意味着采用更多监督步骤是最优的:智力差距越大,多级监督就越有价值。

4. 更大的 Δgeneral 会使监督变得更容易:出人意料的是,在保持 Δdomain 不变并增大 Δgeneral 的情况下,监督反而更容易。因此,在领網域智能差距固定时,使用 NSO 与一个通用智能更高的模型博弈反而更轻松。

5. 在对 Houdini 有利的游戏中,一步监督似乎最优:当 Δgeneral 小于 Δdomain 时,始终采用一步监督效果最好。

6. Guard 的获胜概率呈现有趣的渐近特性:当 Δdomain → −∞(对应极其困难的监督游戏)时,最优的监督步数似乎在 Δgeneral 维度上收敛为阶跃函数。

上图展示了在不同监督游戏场景下,最佳监督步骤数(n∗ 左图)和胜率估计(pw ⁢ i ⁢ n∗ 右图 )和通用智能差距的关系。

随着通用智能差距增大,最佳的监督步数也在增大,但是胜率在下降。

随着差距更大,也就是 Houdini 变得越来越强,Guard 能赢的概率,能够有效监督的概率越来越低。

最后,一个有趣的观察是后门代码游戏有一个 " 恰到好处的区網域 " ——其中两步监督是最优的。

因此,在较低的智能水平差距下,Guard 的领網域 Elo 比 Houdini 大,导致监督步骤数量增加的模式与其他游戏类似;

而在较高的智能水平下,Guard 的领網域 Elo 比 Houdini 低,导致一步监督是最优的。

以上是在相对简单的游戏中测试了 H-G 这个框架。

面对可能是第一次出现在人类社会中的超级智能系统,开发一种有效的监督理论至关重要。

更重要的是,未来这种尝试将应用于更现实的游戏,如 RLHF、监督微调或 AI 控制环境。

在这些更现实的設定中评估时,可以考虑强大的 AI 逃脱人类控制的概率。

因此,由此产生的扩展曲线将提供一个更现实、更稳健和更全面的强大未来 AI 失控风险的量化。

对于 AI 是否能够脱离人类的掌控,目前还缺乏专家的共识。

奥本海默研制人类第一颗核弹时,有人说核弹的爆炸会点燃大气层,从而灭绝人类。

亚瑟 · 康普顿和他的同事们通过计算将这一概率降低到 3×10 ⁻⁵以下,从而促进了人类第一颗核弹的爆炸测试。

Max Tegmark 等将这一名称借用在 AI 领網域。

当年,为了让第一颗核弹得以引爆,科学家们将 " 点燃大气层 " 的风险压缩到了百万分之三以下,人类才按下了那个按钮。

而在今天的 AGI 竞赛中,Max Tegmark 等人警告:我们正以超过 90% 的概率,点燃整个文明的未来。

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們