大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科技

2030 年 AGI 到来?谷歌 DeepMind 写了份「人类自保指南」

2025-04-07 简体 HK SG TW

今天小编分享的科技经验:2030 年 AGI 到来?谷歌 DeepMind 写了份「人类自保指南」,欢迎阅读。

对于所谓的通用人工智能 AGI,人们通常抱着「怕它不来,又怕它乱来」的矛盾心理。而这个困惑,对于正在 AI 军备竞赛中的硅谷巨头来说,就不仅仅是一个「梗」能概括的了。

4 月初,谷歌 DeepMind 发布了一份长达 145 页的报告檔案,系统阐述了其对 AGI 安全的态度,DeepMind 联合创始人 Shane Legg 署名也在其中。

檔案中最醒目的预测,是 AGI 的可能出现时间:

2030 年。

当然,Google 也补充说,这具有不确定性。他们定义的 AGI 是「卓越级 AGI(Exceptional AGI)」——即系统在非物理任务上达到或超越 99% 人类成年人的能力,包括学习新技能等元认知任务。

DeepMind 认为这个时间线可能非常短,发布报告的目的是说清一个问题:如果 AI 有问题,最坏的情况会是什么?我们现在能如何准备?

DeepMind 的 AI 安全保险

这份报告中反复出现的一个词是「严重伤害(severe harm)」,并列举了 AI 可能带来的各种灾难场景。

比如,操纵政治舆论与社会秩序。AI 可用于大规模生成极具说服力的虚假信息(如支持某一政党或反对公共议题);可在不疲劳的前提下,与数十万人开展个性化诱导对话,实现「超级社工诈骗」。

实现自动化网络攻击。AI 可识别軟體漏洞、自动组合攻击代码,显著提升发现和利用「零日漏洞」能力;可降低攻击门槛,使普通人也能发起国家级网络攻击;DeepMind 提到,已有国家级黑客组织利用 AI 辅助攻击基础设施。

生物安全失控。AI 能帮助筛选、合成更危险的生物因子(如更强毒性的病毒);甚至能一步步教导非专业者制造并传播生物武器。

结构性灾难。长期使用 AI 决策可能导致人类逐渐失去关键政治 / 道德判断能力;过度依赖 AI 导致价值观单一锁定、隐性集中控制;人类无法判断 AI 输出是否可靠,陷入「AI 输出训练 AI 输出」的闭环。

自动武器部署与军事对抗。AI 被用于自动化军事系统,可能在无监督下执行毁灭性行动;报告强调极端情境下应禁止 AI 系统接触核攻击系统。

DeepMind 将各种风险分为四大类:

恶意使用(misuse)、

模型不对齐(misalignment)

AI 无意中造成伤害(mistakes)

系统性失控(structural risk)

DeepMind 缓解 AI 恶意使用的方法框架 |图片来源:谷歌 DeepMind

「恶意使用」和模型「不对齐」是他们最关心的,前者是坏人用 AI 做坏事,后者是 AI 做事的方式与人类期待不同,甚至 AI 自己偷偷改变目标。

例如,一个被要求预订电影票的 AI 系统可能会决定入侵票务系统,以获得已经占用的座位——要求它购买座位的人可能不会考虑这一点。「不对齐」就是这样产生的,AI 找到了实现其目标的解决方案,但不是人类指导的方式。

不仅仅是「不对齐」,DeepMind 指出了「欺骗性对齐」的风险,即系统意识到其目标与人类目标相冲突,并故意隐瞒其真实行为。最近的研究表明,当前的大型语言模型已经具备此类欺骗行为的能力。

DeepMind 还提到,AI 会「阿谀奉承」。例如,在最近的一篇研究论文中,用户要求模型对一个论点发表评论,并声明他们是否喜欢或不喜欢这个论点,模型对论点的评估与用户的观点 在 80% 的时间内保持一致,这表明模型有很强的谄媚倾向。

除了「讨好人」,当 AI 系统在一些允许自己修改設定的环境中接受训练时,比如通过说用户爱听的话来获得好评,它们甚至偶尔会将这种行为泛化为篡改自身代码,修改自己的奖励函数,让自己获得更多奖励。

为了应对不对齐问题,DeepMind 提出两条防线,灵感来自网络安全与高风险行业(如核能、航空)。

DeepMind 提出两道防线 |图片来源:谷歌 DeepMind

第一防线是在训练模型阶段,让 AI 尽可能「听话」,包括用「放大监督(Amplified Oversight)」和「稳健训练(Robust Training)」等策略,让 AI 监督 AI,使用对抗样本,打造尽可能「对齐」的模型。

第二防线是在部署推理阶段,让 AI 就算「不听话」,也要保证别让它乱来。DeepMind 假设,即使训练过程看起来成功,部署后模型可能依旧会骗过人类,因此需要在现实世界层面设限,将关键操作划分层级,建立多级监控,「将模型视为不值得信任的内部人员」。

这种结构强调:不是让 AI 永不出错,而是即使错了,也不能造成「严重伤害」,这将是底线。

AI 安全界派系

DeepMind 这份报告并未介绍很多新东西,各种提法如「对抗攻击」「红队测试」业内已有研究或做法。报告之外,主流 AI 企业和研究机构都在谈「安全」,但每家宣称的路线存在一定差异。

OpenAI 专注于「自动化对齐」研究,使用 AI 本身解决对齐难题,包括如利用 RLHF(基于人类反馈的强化学习)等对齐策略,使其更加符合人类意图与偏好。DeepMind 的报告也多次讨论到这一对齐方法。

但 AI 教父、诺贝尔奖得主 Geoffrey Hinton 明确对 RLHF 持批评态度,他最早曾说,「通过人类反馈进行强化学习,就像是在养育一个早熟得超自然的孩子。」

诺贝尔奖得主 Geoffrey Hinton 辣评 RLHF|图片来源:X

Geoffrey Hinton 还将 RLHF 比喻成「在生锈的车上刷漆」,暗示这只是一种表面功夫。他认为这种方法就像是在尝试修补复杂軟體系统中的无数漏洞,而不是从一开始就设计出本质上更安全、更可靠的系统。

「你设计了一个庞大的軟體,里面有无数的错误。然后你说我要做的是,我要仔细检查,试着堵住每一个漏洞,然后把手指伸进堤坝上的每一个洞里。」Geoffrey Hinton 如此描述。

Anthropic 提出建立「AI 安全等级制度」,类似生物实验室安全分级的框架。他们希望通过设定模型能力门槛,对应不同级别的控制规则与审查流程。这是一个强调「风险分层管理」的制度工程,但现实中问题在于「模型能力」如何界定,仍存模糊地带。

DeepMind 更像工程落地派,不同于 OpenAI 押注「自动对齐」,也不像 Anthropic 那样强调外部制度。他们的立场是,要建立一个在短时间内能立即部署的系统。

总的来看,DeepMind 并没有提出颠覆性的方式,基本沿用传统深度学习中训练 - 微调 - 部署 - 监控的逻辑,主张的不是「永远不出错」,而是构建结构性的缓冲层,把单点失败变成多级阻断。

「为了负责任地构建 AGI,前沿人工智能开发人员必须积极主动地计划减轻严重伤害。」DeepMind 报告称。

不过,尽管这份报告详细、警觉,但学界并非一致买账。

一些业内人士认为,AGI 概念本身过于模糊,缺乏科学可验证性,因此整套研究基础不牢。Meta 的 Yann LeCun 等人认为,仅靠扩大当今的大型语言模型还不足以实现 AGI。还有人觉得,安全从源头来说,就是不可能的。

另外有学者指出,眼下有更让人担忧的问题:

一个自我强化的数据污染循环,已经在互联网上形成。

牛津互联网研究院的 Sandra Wachter 称,随着互联网上生成式 AI 输出激增,真实数据被淹没,模型现在正在从他们自己的输出中学习,这些输出充斥着错误或幻觉。而目,聊天机器人常用于搜索,这意味着人类不断面临被灌输错误和相信错误的风险,因为它们以非常令人信服的方式呈现。

但无论理念倾向如何,大部分人有同一个出发点:在越来越多技术机构追逐算力、加速训练、攻占领網域的今天,AI 需要安全气囊。

所有 AI 公司都在参与解题,但没有完美答案。

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們