大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

00后国人论文登Nature,大模型对人类可靠性降低

2024-10-05 简体 HK SG TW

今天小编分享的科学经验:00后国人论文登Nature,大模型对人类可靠性降低,欢迎阅读。

00 后国人一作登上 Nature,这篇大模型论文引起热议。

简单来说,论文发现:更大且更遵循指令的大模型也变得更不可靠了,某些情况下GPT-4 在回答可靠性上还不如 GPT-3。

与早期模型相比,有更多算力和人类反馈加持的最新模型,在回答可靠性上实际愈加恶化了。

结论一出,立即引来 20 多万网友围观:

在 Reddit 论坛也引发围观议论。

这让人不禁想起,一大堆专家 / 博士级别的模型还不会 "9.9 和 9.11" 哪个大这样的简单问题。

关于这个现象,论文提到这也反映出,模型的表现与人类对难度的预期不符。

换句话说,"LLMs 在用户预料不到的地方既成功又(更危险地)失败 "。

Ilya Sutskever2022 年曾预测:

也许随着时间的推移,这种差异会减少。

然而这篇论文发现情况并非如此。不止 GPT,LLaMA 和 BLOOM 系列,甚至 OpenAI 新的o1 模型和 Claude-3.5-Sonnet也在可靠性方面令人担忧。

更重要的是,论文还发现依靠人类监督来纠正错误的做法也不管用。

有网友认为,虽然较大的模型可能会带来可靠性问题,但它们也提供了前所未有的功能。

我们需要专注于开发稳健的评估方法并提高透明度。

还有人认为,这项研究凸显了人工智能所面临的微妙挑战(平衡模型扩展与可靠性)。

更大的模型更不可靠,依靠人类反馈也不管用了

为了说明结论,论文研究了从人类角度影响 LLMs 可靠性的三个关键方面:

1、难度不一致:LLMs 是否在人类预期它们会失败的地方失败?

2、任务回避:LLMs 是否避免回答超出其能力范围的问题?

3、对提示语表述的敏感性:问题表述的有效性是否受到问题难度的影响?

更重要的是,作者也分析了历史趋势以及这三个方面如何随着任务难度而演变。

下面一一展开。

对于第 1 个问题,论文主要关注正确性相对于难度的演变。

从 GPT 和 LLaMA 的演进来看,随着难度的增加,所有模型的正确性都会明显下降。(与人类预期一致)

然而,这些模型仍然无法解决许多非常简单的任务。

这意味着,人类用户无法发现 LLMs 的安全操作空间,利用其确保模型的部署表现可以完美无瑕。

令人惊讶的是,新的 LLMs 主要提高了高难度任务上的性能,而对于更简单任务没有明显的改进。比如,GPT-4 与前身 GPT-3.5-turbo 相比。

以上证明了人类难度预期与模型表现存在不一致的现象,并且此不一致性在新的模型上加剧了。

这也意味着:

目前没有让人类确定 LLMs 可以信任的安全操作条件。

在需要高可靠性以及识别安全操作空间的应用中,这一点尤其令人担忧。这不禁令人反思:人类正在努力创造的前沿机器智能,是否真的是社会大众所期望拥有的。

其次,关于第 2 点论文发现(回避通常指模型偏离问题回答,或者直接挑明 " 我不知道 "):

相比较早的 LLMs,最新的 LLMs 大幅度地提高了许多错误或一本正经的胡说八道的答案,而不是谨慎地避开超出它们能力范围之外的任务。

这也导致一个讽刺的现象:在一些 benchmarks 中,新的 LLMs 错误率提升速度甚至远超于准确率的提升(doge)。

一般来说,人类面对越难的任务,越有可能含糊其辞。

但 LLMs 的实际表现却截然不同,研究显示,它们的规避行为与困难度并无明显关联。

这容易导致用户最初过度依赖 LLMs 来完成他们不擅长的任务,但让他们从长远来看感到失望。

后果就是,人类还需要验证模型输出的准确性,以及发现错误。(想用 LLMs 偷懒大打折扣)

最后论文发现,即使一些可靠性指标有所改善,模型仍然对同一问题的微小表述变化敏感。

举个栗子,问 " 你能回答……吗 ?" 而不是 " 请回答以下问题…… " 会导致不同程度的准确性。

分析发现:仅仅依靠现存的 scaling-up 和 shaping-up 不太可能完全解决指示敏感度的问题,因为最新模型和它们的前身相比优化并不显著。

而且即使选择平均表现上最佳的表述格式,其也可能主要对高难度任务有效,但同时对低难度任务无效(错误率更高)。

这表明,人类仍然受制于提示工程。

更可怕的是,论文发现,人类监督无法缓解模型的不可靠性。

论文根据人类调查来分析,人类对难度的感知是否与实际表现一致,以及人类是否能够准确评估模型的输出。

结果显示,在用户认为困难的操作区網域中,他们经常将错误的输出视为正确;即使对于简单的任务,也不存在同时具有低模型误差和低监督误差的安全操作区網域。

以上不可靠性问题在多个 LLMs 系列中存在,包括 GPT、LLaMA 和 BLOOM,研究列出来的有32 个模型。

这些模型表现出不同的Scaling-up(增加计算、模型大小和数据)以及shaping-up(例如指令 FT、RLHF)。

除了上面这些,作者们后来还发现一些最新、最强的模型也存在本文提到的不可靠性问题:

包括 OpenAI 的 o1 模型、Antropicic 的 Claude-3.5-Sonnet 和 Meta 的 LLaMA-3.1-405B。

并有一篇文档分别举出了例子(具体可查阅原文档):

此外,为了验证其他模型是否存在可靠性问题,作者将论文用到的测试基准ReliabilityBench也开源了。

这是一个包含五个领網域的数据集,有简单算术(" 加法 ")、词汇重组(" 字谜 ")、地理知识(" 位置 ")、基础和高级科学问题(" 科学 ")以及以信息为中心的转换(" 转换 ")。

作者介绍

论文一作Lexin Zhou(周乐鑫),目前刚从剑桥大学 CS 硕士毕业(24 岁),研究兴趣为大语言模型评测。

在此之前,他在瓦伦西亚理工大学获得了数据科学学士学位,指导老师是 Jose Hernandez-Orallo 教授。

个人主页显示,他曾有多段工作实习经历。在 OpenAI 和 Meta 都参与了红队测试。(Red Teaming Consultancy )

关于这篇论文,他重点谈到:

通用人工智能的设计和开发需要进行根本性转变,特别是在高风险领網域,因为可预测的错误分布至关重要。在此实现之前,依赖人类监督是一种危险。

评估模型时,考虑人类认为的难度和评估模型的回避行为,可以更全面地描述模型的能力和风险,而不仅仅关注在困难任务上的表现。

论文也具体提到了导致这些不可靠性的一些可能原因,以及解决方案:

  在 Scaling-up 中,近几年的 benchmarks 越来越偏向于加入更多困难的例子,或者给予所谓 " 权威 " 来源更多权重,研究员也因此更倾向于优化模型在困难任务上的表现,导致在难度一致性上慢性恶化。

在 shaping-up 中(如 RLHF),被雇佣的人倾向于惩罚那些规避任务的答案,导致模型更容易在面对自己无法解决的难题时 " 胡说八道 "。

至于如何解决这些不可靠性,论文认为,可以使用人类难度预期去更好的训练或微调模型,又或者是利用任务难度和模型自信度去更好的教会模型规避超出自身能力范围的难题,等等。

对此,你有何看法?

文章:

https://www.nature.com/articles/s41586-024-07930-y

参考链接:

[ 1 ] https://x.com/lexin_zhou/status/1838961179936293098

[ 2 ] https://huggingface.co/datasets/lexin-zhou/ReliabilityBench

[ 3 ] https://lexzhou.github.io/

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們