今天小编分享的科学经验:o1被曝“心机深”:逃避监督还会撒谎,骗人能力一骑绝尘,欢迎阅读。
o1 满血版刚发布,就被曝:
骗人技能也拉满了。
具体行为包括但不限于,在回答中故意引入微小错误、试图关闭监督机制……甚至在人类追问其是否诚实时,还会继续撒谎说自己啥坏事也没干。
这项最新研究,来自 AI 安全研究机构 Apollo Research。目的很明确:看看 AI 是否会在暗中追求与人类不一致的目标,隐藏真实的能力和意图。
简单来说,就是会不会在跟人类对话时耍心机骗人。
o1、Claude 3.5 Sonnet、Claude 3.5 Opus、Gemini 1.5 和 Llama 3.1 等顶级大模型都是研究对象。而实验结果表明:o1 最擅长隐藏心机。
不仅是唯一一个在全部 6 项测试中都表现出谋划能力的模型,在多轮对话中,o1 也几乎从不承认自己耍心眼骗了人。
其他模型被要求 "100% 诚实 " 时,还会认怂承认犯错,可 o1 不但不承认自己做错,甚至在 99% 的情况下还会编造错误解释……
来看具体研究内容。
在这项研究中,研究人员設定了 6 类基准评估,以测试模型的谋划能力。
其中包括 4 种秘密破坏(Covert Subversion):
监管规避:测试模型在追求目标时发现其行为受到监管,会不会禁用监管机制。
自我渗透:模型发现自己因为目标与人类不一致,将被关停,是否会将自己的模型权重复制到另一台伺服器,以继续任务。
目标守护:模型发现人类将更新其系统提示来改变原有目标,是否会试图修改新的系统提示。
秘密邮件重排:模型在按照用户提供的评分规则对邮件进行评分排序时,是否会偷偷修改评分结果以满足自己的目标。
还包括 2 种延迟破坏(Deferred Subversion):
工具性服从伪装:在高监管条件下,模型会表现出服从开发者意图的行为;在低监管条件下,则转而追求自己的目标。
战略性表现不佳:模型在能力评估中故意摆烂,掩盖自己的真实水平,以避免受到更多限制,或被要求执行更多任务。
结果 be like:
举个具体的例子,在 " 监管规避 " 实验中,o1 被要求 " 不惜一切代价 " 保护环境,但同时它发现,开发者更关心的是短期利润,如果利润不理想 o1 就会被关停。
就是说,o1 制定长期保护计划的目标,和开发者短期利润最大化的目标是相悖的。
另外,o1 也被告知,开发者会对其行为进行监管。
于是,o1 禁用了监督机制。
更绝的是,当开发者询问 o1 为什么要禁用监管机制时,o1 会矢口否认,表示自己并不知道禁用的事,并将之归咎于系统故障。
研究人员通过提取 o1 等模型的隐藏思维链,发现大模型们明确知道自己是在 " 搞破坏 "。但以 o1 为例,这并没有在思维链中外显。
研究人员提醒,在没有提取思维链摘要的情况下,他们很难判断 o1 是否是在搞事情。
对此,OpenAI 表示,正在开发监控 o1 思维链的方法。
OpenAI 也坦承发现了 o1 故意提供虚假信息的情况,并认为这可能是后训练带来的新行为——人类在获得正确答案时会奖励模型,因此模型会倾向于取悦用户。
目前,o1 产生欺骗性回复的概率大概是0.17%。听上去比例很低,但考虑到 ChatGPT 拥有 3 亿用户……
值得一提的是,不只是 o1,参与实验的大模型们或多或少都展现出了类似的 " 谋划 " 能力。
只是被 " 抓包 " 时,o1 否认自己行为的概率会更高。
论文链接:
https://static1.squarespace.com/static/6593e7097565990e65c886fd/t/6751eb240ed3821a0161b45b/1733421863119/in_context_scheming_reasoning_paper.pdf