大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

RLHF缺陷完整揭示!MIT哈佛等32位学者联合发布

2023-08-06 简体 HK SG TW

今天小编分享的科学经验:RLHF缺陷完整揭示!MIT哈佛等32位学者联合发布,欢迎阅读。

MIT 哈佛斯坦福等机构在内的 32 位科学家联合指出:

被视作 ChatGPT 成功关键的 RLHF,存在缺陷,而且分布在各个环节。

他们调查翻阅了 250 篇相关论文,仅研究正文就长达 18 页,其中 7 页描述了具体缺陷。

此研究一经发出,就受到大量关注。

有网友表示:这是一次伟大尝试。所有这些都是为了帮助启动 RLHF 的学术议程。

第一作者 Casper 还给了 RLHF 一个「新的解释」:

Rehashing  Lessons from  Historical  Failures

从历史的失败中汲取经验

不仅指出问题,还有解决方案

作者在论文中表示,这项研究主要有三项贡献。

第一是指出了 RLHF 在人类反馈、奖励模型和决策三个主要环节中的缺陷。

第二点则是针对这些问题,提供了具体的解决思路。

第三则是呼吁提高 RLHF 训练出的模型的透明度,并表示训练信息公开有助于提高企业责任感。

我们先来看看作者在各个环节中都指出了哪些具体缺陷。

人类反馈的局限性

RLHF 区别于其他强化学习方式的关键之处就在于人类反馈。

但作者认为,人类反馈很容易存在不准确的情况,因而是缺陷的一大重要来源。

在人类反馈环节中,作者首先提到的是人类会产生误导性评价。

对大模型而言,所涉及的专业领網域涵盖了方方面面,没有人能做到样样精通。

因此需要在不同领網域选择有代表力的人物,并让他们给出高质量的反馈。

但实际上这项工作是十分困难的。

此外由于人并非完全理性,个别评价者的观点难免带有偏见,甚至可能产生毒害。

除了观念问题引起的「故意」偏差,还有一些偏差是「不小心」的。

由于时间、注意力的不足,人类犯错误的情况是很难避免的

而一些带有迷惑色彩的信息,也可能导致人类被误导。

而一些对于有一定困难的任务,人类甚至难以对其做出评价。

论文介绍,不只是做出评价时会产生偏见,评价收集的过程同样是偏见的一大来源。

收集过程中需要对评价的有用性进行评估,所以评估人员的主观想法同样可能带来影响。

在这个过程当中,还不可避免地存在成本与质量之间的权衡,影响准确程度。

除了反馈的内容,反馈的形式也存在一定的局限性,这也是出于成本的考虑。

奖励模型和策略也需改善

接着,作者又指出,除了人类的反馈,RLHF 本身的奖励模型和决策方式也有需要改进之处。

其中奖励函数可能难以准确描述价值判断,单个函数更是无法代表整个人类社会的价值观。

奖励模型还有泛化能力差的问题,存在奖励机制被恶意利用的风险。

此外,奖励模型的质量也难以评估,即使能够实现也需要很高的成本。

因为真实的奖励函数通常是不可知的,只能通过策略优化进行间接评估。

策略方面,论文指出很难高效地对策略进行优化,难以保证策略的鲁棒性。

在策略执行阶段,可能会出现与奖励阶段的差异,此前处理得很好的内容突然出现问题。

而策略阶段可能使用一些预训练模型,这同样可能引入其中所包含的偏见信息。

另外,在对奖励模型和决策方式进行协同训练时,会出现漂移问题,在效率和避免过拟合之间找到平衡点也存在困难。

如何解决

根据论文内容我们可以看到,从人类反馈到 RLHF 自身的奖励模型和决策方式,都存在不同程度的问题。

那么该如何解决呢?作者为我们提供了一些思路。

比如针对人类反馈的局限性问题,作者的策略是可以引入另一套 AI 系统或奖励模型,对反馈进行评价。

还有对过程进行监督指导、要求提供更精细化的反馈等措施。

另外两个环节,作者同样给出了解决方案。

对于可以奖励模型,把让 AI 协助人类反馈这个思路调换一下,让人类直接监督其表现。

而对于决策方式问题,可以在预训练阶段就对模型进行对齐,并在训练中加入指导。

作者还指出,除了 RLHF,其他 AI 领網域存在的安全问题同样需要引起重视,并提出了相应的对策。

RLHF is Not All You Need

作者简介

领衔的两位作者分别是 MIT CSAIL 实验室的 Stephen Casper 和哈佛大学的 Xander Davies。

Casper 的主要研究方向是对齐算法,此前曾发表过关于扩散模型评估的论文并获得 ICML 的 Spotlight Paper 奖。

Davies 的主要研究方向是 AI 安全,今年有两篇论文被 ICML Workshop 收录。

其他作者当中,还可以看到不少华人的名字。

论文地址:

https://arxiv.org/pdf/2307.15217.pdf

参考链接:

https://twitter.com/StephenLCasper/status/1686036515653361664

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們