新V观海外：Anthropic警示AI破坏力 - 大酷樂

今天小编分享的汽车经验：新V观海外：Anthropic警示AI破坏力，欢迎阅读。

陈沛 / 文在 OpenAI 积极转型营利机构加速 AI 应用落地的同时，被视为 OpenAI 主要竞争对手的 Anthropic 新发布了一篇 AI 破坏力的报告，继续引领 AI 安全对齐研究的前沿风向。

Anthropic 提出未来 AI 四类安全风险

Anthropic 这篇名为《前沿模型破坏能力风险评估》报告提出，目前 AI 安全研究主要聚焦限制恶意用途，而随着未来 AI 能力将超过人类，也要提前研究 AI 主动破坏风险。

Anthropic 具体研究了四类风险：通过安全可靠的方式误导人类决策、在系统中插入难以发现的错误代码、接受安全测试时故意隐藏危险能力、破坏人类建立的 AI 安全风险监测系统。

Anthropic 也对这四种风险分别提出了评估场景、测试步骤、风险阈值、分析结果和发展展望，并对自家 Claude-3-Opus、Claude-3.5-Sonnet 模型做了评估。

评估结果是目前模型的破坏风险可控，但随着未来模型能力提升，提前研究更强力的应对措施完全是有必要的。

Anthropic 的安全理念正吸引更多 AI 人才

Anthropic 自 2021 年由 Dario Amodei、Daniela Amodei 等前 OpenAI 研究负责人创立。他们在 OpenAI 期间积累了丰富的深度学习、自然语言处理、AI 安全研究经验，但在 AI 安全和可解释性方面理念不同，因此离开 OpenAI 自立门户。

Anthropic 公司名字直接体现了以人为中心的理念，更强调构建可解释、安全可靠的 AI 系统，增强人们对 AI 的信任。

特别是去年 OpenAI 宣布由前首席科学家 Ilya Sutskever 和团队负责人 Jan Leike 牵头超级对齐研究后，立刻吸引大量关注。不过后来发生宫斗，OpenAI 超级对齐负责人 Jan Leike 宣布加入更重视安全的 Anthropic。近期选择加入 Anthropic 的还有 OpenAI 联合创始人 John Schulman 等。

这些高层加入让 Anthropic 实力大增，也表明 Anthropic 的安全理念开始获得回应，延续超级对齐研究。

对未来超级智能的安全风险尚未形成共识

虽然 Anthropic 对 AI 可解释性的探索可能对 AI 发展产生深远影响，但目前来看，如何看待 AI 风险还远没有形成共识。

例如图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 最近表示，对 AI 可能威胁人类生存的担忧完全是胡说八道。

此外，长期以来 AI 从业者中也有一种观点，认为 AI 公司过分强调技术危险性是为了凸显技术能力，以便在融资时获得更高估值。

这些观点与 Anthropic 的安全对齐研究其实不矛盾。因为安全对齐是假设未来超级智能出现，以此预测未来的未知风险，并站在今天的角度从底层开始分析和提前预防，因此很难直接下定论。

至少 Anthropic 的安全研究对我们能起到警示作用。在这次发布报告的结尾，Anthropic 指出，在 AI 工具默认会帮助人类的情况下，人类用户很难对 AI 提供的建议产生合理怀疑。而这一点在接下来 AI 智能体应用开发过程中，如果不严加管理和高度对齐，必将会引发新的安全风险隐患。

熱門排行

王治郅：杨瀚森主要的问题是速度他郟君昊 | 2025-05-05
贸易战烧进电影院：特朗普拟重税打击習又夏 | 2025-05-05
贷款追高炒黄金的人后悔了！有人一天寸飛蘭 | 2025-05-05
手机电池突破8000mAh？硅碳技术的回衛青柏 | 2025-05-05
贷款追高炒黄金的人后悔了！有人一天繁綺文 | 2025-05-05
任天堂对Genki提起Switch 2商标侵郜萌運 | 2025-05-05
哪吒汽车APP和官网恢复正常知情人袁曼雁 | 2025-05-05
极越汽车 CEO 夏一平名下青岛/义乌集玲琳 | 2025-05-05
全国经济第一大省明确，推动组建农商佼昌翰 | 2025-05-05
桑保利：亚马尔有配合意识&有点像梅甄正浩 | 2025-05-05
高露现身上海虹桥机场黑色外套点缀亮色爱心装饰俏皮亮眼惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：处理器更新为天玑9200+ 安卓最强芯袁曼雁 | 2023-05-05
“懒癌”发病率上升，定期体检别忽视幸聽楓 | 2023-05-02
宋慧乔获百想视后韩素希发图手动加爱心表情庆祝賁芳蕤 | 2023-05-02
曹操墓，里面都有啥？衛青柏 | 2023-05-02
十年了，他们终于要HE！惠惠君 | 2023-05-07
中央部署经济工作，释放5大信号郜萌運 | 2023-05-02
高德上线手机弯道会车预警功能習又夏 | 2023-05-02
陈自瑶抱病为爱女做蛋糕庆生，王浩信点赞没露面賁芳蕤 | 2023-05-02
等比例长大的童星，李兰迪算一个郟君昊 | 2023-05-02
《云襄传》终于抬上来啦，男O女A让人好上头！集玲琳 | 2023-05-02
高端国产车：军车血统，目前电动车越野的“天花板”？謝飛揚 | 2023-05-02
这些被抓来做实验的流浪狗，最终拯救了无数糖尿病人集玲琳 | 2023-05-02
与周立波夫妇闹纠纷成老赖，唐爽被司法拘留15日寸飛蘭 | 2023-05-05
21家A股游戏公司2022年收入651亿今年“游戏+AI”能否逆风翻盘？衛青柏 | 2023-05-04
普京签署总统令，批准对俄刑法典相关法条的修正案集玲琳 | 2023-05-02
信用风险释放趋缓，结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望袁曼雁 | 2023-05-02
中银证券给予南京银行增持评级袁曼雁 | 2023-05-03
解除资格！停止一切合作佼昌翰 | 2023-05-02
3699起联想小新mini主机上架 13代酷睿标压处理器習又夏 | 2023-05-05
前董事长被免，天山生物全面进入“中植系”时代？股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
疯成这样，怎么还能被全网吹捧？郜萌運 | 2023-05-02
狂吼11次“让一下”！交警咆哮开道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收购美国第一共和银行謝飛揚 | 2023-05-02
台剧赢麻了，又来一部8.9 衛青柏 | 2023-05-02
事关农村土地承包和农民权益，《农村土地承包合同管理办法》5月1日起施行郟君昊 | 2023-05-02
下降45分，上涨35分！34所自划线院校复试分数线涨幅汇总袁曼雁 | 2023-05-07
"三高"已盯上青少年，做好这件事是关键習又夏 | 2023-05-05
五一档没一个能打的集玲琳 | 2023-05-05
恐怖韩剧下神坛，这次胆小可入袁曼雁 | 2023-05-05
这剧是不是用ChatGPT写的呀？惠惠君 | 2023-05-02
200户连夜疏散，原因让人愤怒！“损失超一亿”，官方通报袁曼雁 | 2023-05-03
性骚扰惯犯，滚出娱乐圈謝飛揚 | 2023-05-05
48岁何炅自曝已老花眼，黄磊睡前认老，《向往的生活》证实将停办佼昌翰 | 2023-05-02
一个《长月烬明》倒了，《狐妖》《长相思》《与凤行》…在路上了惠惠君 | 2023-05-02
当年轻人开始不随份子钱袁曼雁 | 2023-05-02
张天爱假期晒“酷”存照卷发披肩穿黑色吊带裙大秀好身材嬴覓晴 | 2023-05-02
毕滢用8年时间成功逼宫？曾被传已婚生子的她，不容小觑幸聽楓 | 2023-05-03
宋慧乔获视后首次晒照，拿奖杯笑容温柔郜萌運 | 2023-05-02