2030 年 AGI 到来？谷歌 DeepMind 写了份「人类自保指南」

今天小编分享的科技经验：2030 年 AGI 到来？谷歌 DeepMind 写了份「人类自保指南」，欢迎阅读。

对于所谓的通用人工智能 AGI，人们通常抱着「怕它不来，又怕它乱来」的矛盾心理。而这个困惑，对于正在 AI 军备竞赛中的硅谷巨头来说，就不仅仅是一个「梗」能概括的了。

4 月初，谷歌 DeepMind 发布了一份长达 145 页的报告檔案，系统阐述了其对 AGI 安全的态度，DeepMind 联合创始人 Shane Legg 署名也在其中。

檔案中最醒目的预测，是 AGI 的可能出现时间：

2030 年。

当然，Google 也补充说，这具有不确定性。他们定义的 AGI 是「卓越级 AGI（Exceptional AGI）」——即系统在非物理任务上达到或超越 99% 人类成年人的能力，包括学习新技能等元认知任务。

DeepMind 认为这个时间线可能非常短，发布报告的目的是说清一个问题：如果 AI 有问题，最坏的情况会是什么？我们现在能如何准备？

DeepMind 的 AI 安全保险

这份报告中反复出现的一个词是「严重伤害（severe harm）」，并列举了 AI 可能带来的各种灾难场景。

比如，操纵政治舆论与社会秩序。AI 可用于大规模生成极具说服力的虚假信息（如支持某一政党或反对公共议题）；可在不疲劳的前提下，与数十万人开展个性化诱导对话，实现「超级社工诈骗」。

实现自动化网络攻击。AI 可识别軟體漏洞、自动组合攻击代码，显著提升发现和利用「零日漏洞」能力；可降低攻击门槛，使普通人也能发起国家级网络攻击；DeepMind 提到，已有国家级黑客组织利用 AI 辅助攻击基础设施。

生物安全失控。AI 能帮助筛选、合成更危险的生物因子（如更强毒性的病毒）；甚至能一步步教导非专业者制造并传播生物武器。

结构性灾难。长期使用 AI 决策可能导致人类逐渐失去关键政治 / 道德判断能力；过度依赖 AI 导致价值观单一锁定、隐性集中控制；人类无法判断 AI 输出是否可靠，陷入「AI 输出训练 AI 输出」的闭环。

自动武器部署与军事对抗。AI 被用于自动化军事系统，可能在无监督下执行毁灭性行动；报告强调极端情境下应禁止 AI 系统接触核攻击系统。

DeepMind 将各种风险分为四大类：

恶意使用（misuse）、

模型不对齐（misalignment）

AI 无意中造成伤害（mistakes）

系统性失控（structural risk）

DeepMind 缓解 AI 恶意使用的方法框架｜图片来源：谷歌 DeepMind

「恶意使用」和模型「不对齐」是他们最关心的，前者是坏人用 AI 做坏事，后者是 AI 做事的方式与人类期待不同，甚至 AI 自己偷偷改变目标。

例如，一个被要求预订电影票的 AI 系统可能会决定入侵票务系统，以获得已经占用的座位——要求它购买座位的人可能不会考虑这一点。「不对齐」就是这样产生的，AI 找到了实现其目标的解决方案，但不是人类指导的方式。

不仅仅是「不对齐」，DeepMind 指出了「欺骗性对齐」的风险，即系统意识到其目标与人类目标相冲突，并故意隐瞒其真实行为。最近的研究表明，当前的大型语言模型已经具备此类欺骗行为的能力。

DeepMind 还提到，AI 会「阿谀奉承」。例如，在最近的一篇研究论文中，用户要求模型对一个论点发表评论，并声明他们是否喜欢或不喜欢这个论点，模型对论点的评估与用户的观点在 80% 的时间内保持一致，这表明模型有很强的谄媚倾向。

除了「讨好人」，当 AI 系统在一些允许自己修改設定的环境中接受训练时，比如通过说用户爱听的话来获得好评，它们甚至偶尔会将这种行为泛化为篡改自身代码，修改自己的奖励函数，让自己获得更多奖励。

为了应对不对齐问题，DeepMind 提出两条防线，灵感来自网络安全与高风险行业（如核能、航空）。

DeepMind 提出两道防线｜图片来源：谷歌 DeepMind

第一防线是在训练模型阶段，让 AI 尽可能「听话」，包括用「放大监督（Amplified Oversight）」和「稳健训练（Robust Training）」等策略，让 AI 监督 AI，使用对抗样本，打造尽可能「对齐」的模型。

第二防线是在部署推理阶段，让 AI 就算「不听话」，也要保证别让它乱来。DeepMind 假设，即使训练过程看起来成功，部署后模型可能依旧会骗过人类，因此需要在现实世界层面设限，将关键操作划分层级，建立多级监控，「将模型视为不值得信任的内部人员」。

这种结构强调：不是让 AI 永不出错，而是即使错了，也不能造成「严重伤害」，这将是底线。

AI 安全界派系

DeepMind 这份报告并未介绍很多新东西，各种提法如「对抗攻击」「红队测试」业内已有研究或做法。报告之外，主流 AI 企业和研究机构都在谈「安全」，但每家宣称的路线存在一定差异。

OpenAI 专注于「自动化对齐」研究，使用 AI 本身解决对齐难题，包括如利用 RLHF（基于人类反馈的强化学习）等对齐策略，使其更加符合人类意图与偏好。DeepMind 的报告也多次讨论到这一对齐方法。

但 AI 教父、诺贝尔奖得主 Geoffrey Hinton 明确对 RLHF 持批评态度，他最早曾说，「通过人类反馈进行强化学习，就像是在养育一个早熟得超自然的孩子。」

诺贝尔奖得主 Geoffrey Hinton 辣评 RLHF｜图片来源：X

Geoffrey Hinton 还将 RLHF 比喻成「在生锈的车上刷漆」，暗示这只是一种表面功夫。他认为这种方法就像是在尝试修补复杂軟體系统中的无数漏洞，而不是从一开始就设计出本质上更安全、更可靠的系统。

「你设计了一个庞大的軟體，里面有无数的错误。然后你说我要做的是，我要仔细检查，试着堵住每一个漏洞，然后把手指伸进堤坝上的每一个洞里。」Geoffrey Hinton 如此描述。

Anthropic 提出建立「AI 安全等级制度」，类似生物实验室安全分级的框架。他们希望通过设定模型能力门槛，对应不同级别的控制规则与审查流程。这是一个强调「风险分层管理」的制度工程，但现实中问题在于「模型能力」如何界定，仍存模糊地带。

DeepMind 更像工程落地派，不同于 OpenAI 押注「自动对齐」，也不像 Anthropic 那样强调外部制度。他们的立场是，要建立一个在短时间内能立即部署的系统。

总的来看，DeepMind 并没有提出颠覆性的方式，基本沿用传统深度学习中训练 - 微调 - 部署 - 监控的逻辑，主张的不是「永远不出错」，而是构建结构性的缓冲层，把单点失败变成多级阻断。

「为了负责任地构建 AGI，前沿人工智能开发人员必须积极主动地计划减轻严重伤害。」DeepMind 报告称。

不过，尽管这份报告详细、警觉，但学界并非一致买账。

一些业内人士认为，AGI 概念本身过于模糊，缺乏科学可验证性，因此整套研究基础不牢。Meta 的 Yann LeCun 等人认为，仅靠扩大当今的大型语言模型还不足以实现 AGI。还有人觉得，安全从源头来说，就是不可能的。

另外有学者指出，眼下有更让人担忧的问题：

一个自我强化的数据污染循环，已经在互联网上形成。

牛津互联网研究院的 Sandra Wachter 称，随着互联网上生成式 AI 输出激增，真实数据被淹没，模型现在正在从他们自己的输出中学习，这些输出充斥着错误或幻觉。而目，聊天机器人常用于搜索，这意味着人类不断面临被灌输错误和相信错误的风险，因为它们以非常令人信服的方式呈现。

但无论理念倾向如何，大部分人有同一个出发点：在越来越多技术机构追逐算力、加速训练、攻占领網域的今天，AI 需要安全气囊。

所有 AI 公司都在参与解题，但没有完美答案。