今天小编分享的汽车经验:新V观海外:Anthropic警示AI破坏力,欢迎阅读。
陈沛 / 文在 OpenAI 积极转型营利机构加速 AI 应用落地的同时,被视为 OpenAI 主要竞争对手的 Anthropic 新发布了一篇 AI 破坏力的报告,继续引领 AI 安全对齐研究的前沿风向。
Anthropic 提出未来 AI 四类安全风险
Anthropic 这篇名为《前沿模型破坏能力风险评估》报告提出,目前 AI 安全研究主要聚焦限制恶意用途,而随着未来 AI 能力将超过人类,也要提前研究 AI 主动破坏风险。
Anthropic 具体研究了四类风险:通过安全可靠的方式误导人类决策、在系统中插入难以发现的错误代码、接受安全测试时故意隐藏危险能力、破坏人类建立的 AI 安全风险监测系统。
Anthropic 也对这四种风险分别提出了评估场景、测试步骤、风险阈值、分析结果和发展展望,并对自家 Claude-3-Opus、Claude-3.5-Sonnet 模型做了评估。
评估结果是目前模型的破坏风险可控,但随着未来模型能力提升,提前研究更强力的应对措施完全是有必要的。
Anthropic 的安全理念正吸引更多 AI 人才
Anthropic 自 2021 年由 Dario Amodei、Daniela Amodei 等前 OpenAI 研究负责人创立。他们在 OpenAI 期间积累了丰富的深度学习、自然语言处理、AI 安全研究经验,但在 AI 安全和可解释性方面理念不同,因此离开 OpenAI 自立门户。
Anthropic 公司名字直接体现了以人为中心的理念,更强调构建可解释、安全可靠的 AI 系统,增强人们对 AI 的信任。
特别是去年 OpenAI 宣布由前首席科学家 Ilya Sutskever 和团队负责人 Jan Leike 牵头超级对齐研究后,立刻吸引大量关注。不过后来发生宫斗,OpenAI 超级对齐负责人 Jan Leike 宣布加入更重视安全的 Anthropic。近期选择加入 Anthropic 的还有 OpenAI 联合创始人 John Schulman 等。
这些高层加入让 Anthropic 实力大增,也表明 Anthropic 的安全理念开始获得回应,延续超级对齐研究。
对未来超级智能的安全风险尚未形成共识
虽然 Anthropic 对 AI 可解释性的探索可能对 AI 发展产生深远影响,但目前来看,如何看待 AI 风险还远没有形成共识。
例如图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 最近表示,对 AI 可能威胁人类生存的担忧完全是胡说八道。
此外,长期以来 AI 从业者中也有一种观点,认为 AI 公司过分强调技术危险性是为了凸显技术能力,以便在融资时获得更高估值。
这些观点与 Anthropic 的安全对齐研究其实不矛盾。因为安全对齐是假设未来超级智能出现,以此预测未来的未知风险,并站在今天的角度从底层开始分析和提前预防,因此很难直接下定论。
至少 Anthropic 的安全研究对我们能起到警示作用。在这次发布报告的结尾,Anthropic 指出,在 AI 工具默认会帮助人类的情况下,人类用户很难对 AI 提供的建议产生合理怀疑。而这一点在接下来 AI 智能体应用开发过程中,如果不严加管理和高度对齐,必将会引发新的安全风险隐患。