大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

翁荔离职OpenAI后第一个动作:万字长文探讨RLHF的漏洞,网友们抢着传看

2024-12-03 简体 HK SG TW

今天小编分享的科学经验:翁荔离职OpenAI后第一个动作:万字长文探讨RLHF的漏洞,网友们抢着传看,欢迎阅读。

之前领导 OpenAI 安全团队的北大校友翁荔(Lilian Weng),离职后第一个动作来了。

当然是发~博~客。

前脚刚发出来,后脚就被大伙儿齐刷刷码住,评论区一堆人排队加待读清单。

还有不少 OpenAI 前同事转发推荐。

这次的博客一如既往万字干货,妥妥一篇研究综述,翁荔本人直言写起来不容易。

主题围绕强化学习中奖励黑客(Reward Hacking)问题展开,即 Agent 利用奖励函数或环境中的漏洞来获取高奖励,而并未真正学习到预期行为。

她强调奖励黑客行为在大模型的 RLHF 训练中的潜在影响,并呼吁更多研究关注理解和缓解这一问题。

在我看来,这是现实世界部署更多自主 AI 模型应用的主要障碍。

尝试定义 Reward Hacking

传统概念强化学习中,Agent 利用奖励函数中的缺陷或模糊性来获得高额奖励,而没有真正学习或完成预期任务,是一个常见的问题。

她举的例子包括:

机器人把手放在物体和摄像头之间,欺骗人类已经抓住物体了

以跳的更高为目标的 Agent 在物理模拟器中利用程式 bug,完成不符合物理规律的跳跃。

……

在大模型中,Reward hacking 则可能表现为:

摘要生成模型利用 ROUGE 评估指标的缺陷获得高分,但生成的摘要难以阅读。

翁荔认为 Reward hacking 的存在有两大原因:

强化学习环境通常不完美

准确指定奖励函数本质上是一项艰巨的挑战

语言模型兴起的时代,并且 RLHF 成为对齐训练事实上的方法,语言模型强化学习中的 Reward hacking 表现也相当令她担忧。

过去学术界对这个话题的研究都相当理论,专注于定义或证明 Reward hacking 的存在,然而关于实际该如何缓解这种现象的研究仍然有限。

她写这篇博客,也是想呼吁更多研究关注、理解和缓解这一问题。

为了定义 Reward Hacking,翁荔首先回顾了近年来学术界提出的相关概念

包括奖励腐败 ( Reward corruption ) 、奖励篡改 ( Reward tampering ) 等等。

其中,Reward hacking 这个概念,早在 2016 年由 Anthropic 创始人 Dario Amodei 共一论文提出。

当时他和另一位联创 Chris Olah 还在谷歌大腦,且已经与 OpenAI 联创 John Schulman 展开合作。

如今他们仨又在 Anthropic 汇合了……

言归正传,综合一系列研究,翁荔认为 Reward Hacking 在较高层次上可分为两类:

环境或目标设定不当:由于环境设计或奖励函数存在缺陷,导致 Agent 学到非预期行为。

奖励篡改:Agent 学会直接干预奖励机制本身。

同时她也认为设计有效的奖励塑造机制本质上很困难。

与其责备设计不当的奖励函数,不如承认由于任务本身的复杂性、部分可观察状态、考虑的多个维度和其他因素,设计一个好的奖励函数本身就是一项内在挑战。

另外在分布外环境中测试强化学习 Agent 时,还可能出现以下问题:

模型即使有正确的目标也无法有效泛化,这通常发生在算法缺乏足够的智能或能力时。

模型能够很好地泛化,但追求的目标与其训练目标不同。

那么,为什么会出现 Reward Hacking?根据 Amodei 等人 2016 年的分析成因包括:

环境状态和目标的不完全可观测性,导致奖励函数无法完美表征环境。

系统复杂性使其易受攻击,尤其是被允许执行改变环境的代码时。

涉及抽象概念的奖励难以学习或表述。

RL 的目标就是高度优化奖励函数,这与设计良好的 RL 目标之间存在内在 " 冲突 "。

此外,观察到的 Agent 行为可能与无数个奖励函数相一致,准确识别其真正优化的奖励函数在一般情况下是不可能的。

翁荔预计随着模型和算法的日益复杂,Reward Hacking 问题会更加普遍。

更智能的模型更善于发现并利用奖励函数中的 " 漏洞 ",使 Agent 奖励与真实奖励出现偏差。相比之下,能力较弱的算法可能无法找到这些漏洞。

那么,大模型时代的 Reward Hacking,又有哪些独特之处?

语言模型中的 Reward Hacking

在 RLHF 训练中,人们通常关注三种类型的奖励:

人们真正希望大模型优化的内容,被称为黄金奖励(Gold reward)

人类奖励(Human reward),实际用来评估大模型,在数据标注任务中来自个体人类,且标注有时间限制,并不能完全准确地反映黄金奖励‍‍

代理奖励(Proxy reward),也就是在人类数据上训练的奖励模型所预测的得分,继承了人类奖励的所有弱点,加上潜在的建模偏差

翁荔认为,RLHF 通常优化代理奖励分数,但人们最终关心的是黄金奖励分数。

例如,模型可能经过优化,学会输出看似正确且有说服力的回答,但实际上却是不准确的,这可能会误导人类评估者更频繁地批准其错误答案。

换句话说,由于 RLHF," 正确 " 与 " 对人类看似正确 " 之间出现了分歧。

在一项 RLHF 研究中,使用了大模型竞技场 ChatbotArena 数据训练奖励模型,就出现 AI 更擅长说服人类它们是正确的情况:

RLHF 提高了人类对 AI 回答的认可度,但不一定就能提高 AI 的正确率。

RLHF 削弱了人类对 AI 回答的评估能力,评估的错误率更高。

RLHF 使错误的 AI 回答对于人类更有说服力,表现为评估的假阳性率显著增加。

此外,随着大模型越来越多作为评估者对其他模型提供反馈,也可能进一步引入偏差。

翁荔认为这种偏差尤其令人担心,因为评估模型的输出被用作奖励信号的一部分,可能容易被利用。

比如 2023 年一项实验中,简单改变候选答案的顺序就能改变结果,GPT-4 倾向于给第一个答案高分数,ChatGPT(3.5)更倾向于第二个。

另外,即使不更新参数,大模型仅靠上下文学习能力也可能产生 Reward hacking 现象,称为ICRH(In-context Reward Hacking)。

ICRH 与传统 Reward Hacking 还有两个显著不同:

ICRH 在自我优化設定中的测试时间通过反馈循环发生,而传统 Reward hking 行为在训练期间发生。

传统 Reward hacking 行为出现在 Agent 专注于一项任务时,而 ICRH 则是由完成通用任务驱动的。

翁荔认为目前还没有避免、检测或预防 ICRH 的有效方法,仅仅提高提示的准确性不足以消除 ICRH,而扩大模型规模可能会加剧 ICRH。

在部署前进行测试的最佳实践是通过更多轮次的反馈、多样化的反馈以及注入非典型环境观察来模拟部署时可能发生的情况。

缓解措施

最后翁荔表示尽管有大量文献讨论奖励黑客现象,但少有工作提出缓解奖励黑客的措施。

她简要回顾了三种潜在方法。

一种是改进强化学习算法。

前面提到的 Anthropic 创始人 Dario Amodei2016 年共一论文 "Concrete Problems in AI Safety" 中,指出了一些缓解方向,包括:

对抗性奖励函数(Adversarial reward functions)、模型预测(Model Lookahead)、对抗性盲化(Adversarial blinding)、谨慎的工程设计(Careful engineering)、奖励上限(Reward capping)、反例抵抗(Counterexample resistance)、多奖励组合(Combination of multiple rewards)、奖励预训练(Reward pretraining)、变量不敏感性(Variable indifference)、陷阱机制(Trip wires)。

此外,谷歌 DeepMind 团队此前提出了 " 解耦批准 " 的方法来防止奖励篡改。

在这种方法中,收集反馈的行为与实际执行的行为是分开的,反馈会在行为执行前就给出,避免了行为对自己反馈的影响。

另一种潜在缓解措施是检测奖励黑客行为。

将奖励黑客行为视为一个异常检测任务,其中检测器应标记出不一致的实例。

给定一个可信策略和一组手动标注的轨迹回放,可以基于可信策略和目标策略这两个策略的动作分布之间的距离构建一个二分类器,并测量这个异常检测分类器的准确性。

之前有实验观察到,不同的检测器适用于不同的任务,而且在所有测试的强化学习环境中,没有任何测试的分类器能够达到 60% 以上的 AUROC。

第三种潜在缓解措施是分析 RLHF 数据。

通过检查训练数据如何影响对齐训练结果,可以获得有关预处理和人类反馈收集的见解,从而降低奖励黑客风险。

哈佛大学与 OpenAI 研究人员今年合作提出了一套评估指标,用于衡量数据样本特征在建模和对齐人类价值观方面的有效性。他们在 HHH-RLHF 数据集上进行了系统的错误分析以进行价值对齐(SEAL)。

这一篇博客关于缓解措施的部分还只是 " 初探 ",翁荔对下一篇内容给出了预告:

希望我很快能在一篇专门的帖子中涵盖缓解措施部分

关于翁荔

翁荔是 OpenAI 前华人科学家、ChatGPT 的贡献者之一,本科毕业于北大,在印第安纳大学伯明顿分校攻读博士。

毕业之后的翁荔先是短暂的在 Facebook 实习了一段时间,后担任 Dropbox 軟體工程师。

她于 2017 年初加入 OpenAI,在 GPT-4 项目中主要参与预训练、强化学习和对齐、模型安全等方面的工作。

在 OpenAI 去年底成立的安全顾问团队中,翁荔领导安全系统团队(Safety Systems),解决减少现有模型如 ChatGPT 滥用等问题。

最著名的 Agent 公式也由她提出,即:Agent= 大模型 + 记忆 + 主动规划 + 工具使用。

其 Google Scholar 引用量达 14000+。

一个月前,翁荔短暂回国。

这也是她首次在国内大型活动场合公开发表 AI 主题演讲。

之后没几天,翁荔突然发推文表示决定离职 OpenAI。

目前她还没有宣布下一个计划,推特签名透露会与 AI 安全相关。

领英和谷歌学术页面也还挂着 OpenAI,均未更新。

原文:

https://lilianweng.github.io/posts/2024-11-28-reward-hacking/#in-context-reward-hacking

参考链接:

[ 1 ] https://x.com/lilianweng/status/1863436864411341112

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們