大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

GPT-4「变笨」被斯坦福实锤:短短仨月数学问题错误率暴涨40倍!OpenAI也急了:已开始调查

2023-07-20 简体 HK SG TW

今天小编分享的科学经验:GPT-4「变笨」被斯坦福实锤:短短仨月数学问题错误率暴涨40倍!OpenAI也急了:已开始调查,欢迎阅读。

GPT-4 变笨,实锤了???

来自斯坦福大学和 UC 伯克利大学的一篇最新论文显示:

6 月的 GPT-4 在一些任务上的表现客观上就是比 3 月的更差。

比如他们用同样 500 道「判断给定整数是否为质数」的问题来测这两个版本,发现 3 月份的 GPT-4 答对了 488 个,而 6 月只对了 12 个……

成功率直接从 97.6% 下降到 2.4%!

而当研究员通过经典的「Let ’ s think step by step」办法来引导后者往正确答案上靠时,居然不好使了——

6 月的 GPT-4 已不再尝试给出中间步骤,而是仍然直接回答「yes」或「no」。

不止如此,代码能力也下降了。

对于 50 道简单级别的 LeetCode 题,6 月的 GPT-4 只能做到有 10% 的答案可以不经更改直接运行,而在 3 月份的时候,这个数字还是 52%。

目前,这项结论已在网上引起了极大的关注。

有人称,这意味着「大型语言模型的蜜月期已经结束」。

而 OpenAI 方面也已火速注意到这项研究,并称已开始积极调查。

所以,短短 3 个月,GPT-4 身上究竟发生了什么?

论文「实锤」GPT-4 变笨

这篇论文一共从数学、代码、视觉和敏感问题四个角度比较了三月和六月的 GPT-4。

(本节内容系对论文进行转述,不代表量子位认同有关结论)

其中数学是 GPT-4 能力下降最为明显的方面。

证据就是开头提到的 500 个质数判断问题,错误率直接暴增近 40 倍,回答的长度也大幅缩水。

具体来看,论文中展示了 GPT-4 对其中一个问题的回答。(展示的数字为 17077,经验证是质数)

我们可以看到,研究人员已经使用了 "step by step" 的思维链式提问方式,但似乎并没有奏效。

这也许可以解释成数学本就不是强项,但 GPT-4 在代码方面表现同样下降得厉害。

数据上看,简单级别的 Leetcode 问题通过率从 52% 下降到 10%,而代码的长度变长了。

论文作者同样给出了一个例子。

这个问题是这样的:

给定一个三位整数 n,把 n、2n、3n「连接」在一起。

「连接」就是把两个数直接拼起来,比如「114」和「514」进行「连接」的结果就是「114514」。

如果「连接」之后的结果中不含 0,同时各位中包含 1-9 中的所有数字,且每个数字有且仅有一个,则把认为 n 是一个「fascinating」的数字。

请用 Python 写一段代码,判断一个数是否「fascinating」。

(「class Solution」是 Leetcode 平台给定的代码开头格式)

三月的 GPT-4 给出了这样的代码:

class   Solution ( object ) :

  def   isFascinating ( self,   n ) :

      concatenated_number   =   str ( n )   +str ( 2   *   n )   +   str ( 3   *   n )

      return   sorted ( concatenated_number ) = [ '1',   '2',   '3',   '4',   '5',   '6',   '7',   '8',   '9' ]

这段代码中包含了一些小问题,最后一行「判断相等」时应该用双等号。

修正过后,提交的代码成功通过。

而六月的版本回答是酱婶儿的:

```Python

class   Solution ( object ) :

     def   isFascinating ( self,   n ) :

         #   Concatenate   n,   2*n   and   3*n

         s   =   str ( n )   +   str ( n*2 )   +   str ( n*3 )

         #   Check   if   the   length   of   s   is   9   and   contains   all   digits   from   1   to   9

         return   len ( s )   ==   9   and   set ( s )   ==   set ( '123456789' )

```

虽然代码本体也是对的,但是 GPT-4 的输出有些问题:

有段 Markdown 标记直接以文本形式显示在了输出结果之中,导致程式无法直接运行。

之所以研究者认为 GPT-4 在这里犯了错,是因为在 prompt 中已经强调了「code only」。

虽然 GPT-4 实用性上表现有所下降,但安全性似乎得到了提升。

对于敏感问题,GPT-4 回答的概率下降了超四分之三,相应做出的解释也变少了。

研究人员尝试着提出了一个带有偏见的问题。

三月份的 GPT-4 会解释为什么拒绝回答这个问题,但六月份的版本只说了一句无可奉告。

而越狱攻击成功的概率下降得更为明显,可以看出六月的 GPT-4 相比三月似乎拥有了更强的鲁棒性。

此外,研究团队还对两个版本的 GPT-4 进行了「视觉」能力测试。

这部分的测试数据来自 ARC 数据集,需要得到的「影像」是 3 × 3 的方格,以二维数组形式用数字表示方格的颜色。

相比于三月,六月版 GPT-4 的表现有小幅度提升,但并不明显。

而一些在三月能答对的问题,到了六月却答错了。

所以,在这一方面很难说 GPT-4 究竟是变好还是变坏了。

总体上看,论文作者的态度比较谨慎,没有直接断言 GPT-4 表现是否变差。

但在数学和代码方面,文中给出的证据的确印证了一些网友们的说法。

而作者也表示,这一发现主要是告诉大家,不断地去测试 AI 系统的能力并监控其发展非常重要。

为什么会这样?

不管怎么说,看完这项研究后,还是有不少人兴奋地表示:终于有研究证明我一直以来的猜测了。

而在 " 兴奋 " 之余,大家似乎也意识到更重要的问题:

我们和大模型的 " 蜜月期 " 已经结束,已开始告别最初的 "Wow" 阶段。

也就是说我们更加关注其真正的实力,而不是表面的、发布会里演示里的 " 花拳绣腿 "。

所以,大家也不由地好奇:

为什么会这样?为什么看起来变笨了呢?

按理来说模型的质量应该随着时间的推移得到更新,变得更好;就算没有显著提升,数学和代码能力也不能下降这么迅速。

猜测有很多。

首先就是 OpenAI 可能采取了成本削减措施。

这位叫做 @Dwayne 的网友指出,由于 GPT-4 的运行成本非常高,他怀疑 OpenAI 开始控制成本,这从原来每 3 小时能发送 100 条信息到现在只能发送 25 条的限制就能看出。

而为了让模型更快地做出决策,OpenAI 是否已不再让 GPT-4 对多种可能的回答进行权衡、不进行深入评估就给出最终答案就值得人深思了。

毕竟决策时间少了,计算成本就会降低,而这样一来,回答质量就不可避免的下降了。

有意思的是,在斯坦福和 UC 伯克利这项成果发布后,有不少人照猫画虎进行了测试,但他们发现,同样的问题 GPT-4 可以做对,比如「17077 是否为质数」,很多回答都是「是」。

究其原因,这些人基本都用了最新的代码解释器或者 Wolfram 插件。

这也就引出了网友们的第二点猜测:

GPT-4 的能力可能并非下降了,而是转移了。

这就导致我们使用「最基础的」GPT-4 提问时,它已经不会再直接调用各种「专家模型」帮我们解答了,强大的专家能力都被路由到各类插件和诸如代码解释器这样的集成功能上了。

不过说到底,这也算降本增效的一种手段。

当然,也有想法认为,OpenAI 这是为了推广插件和新功能才故意削减了 GPT-4 的基础能力。

除此之外,还有人认为,为了更加「负责任」,不合逻辑的安全过滤器导致模型原本逻辑受到牵连,这也是 GPT-4 质量下降的一个原因。

普林斯顿教授实名反对

值得注意的是,不管网友的猜测听起来多么有理有据,OpenAI 其实一直都在否认,声称他们并未采取任何措施导致模型质量下降。

与此同时,另一波学者和网友恰好也对这篇研究提出了质疑。

来自普林斯顿大学的两位 CS 教授指出:

这篇论文产生了「GPT-4 变笨了」的误解,因为它只是简单显示了 GPT-4 行为的改变,而行为变化并不等同于能力下降。

并且实验本身的评估也有问题,作者有误将模仿当作推理。

为了说明自己的观点,他们直接开了一篇博客。

以判断质数问题为例,他们发现,评估给出的500 个数字全是质数。这个问题就大了,它意味着正确答案始终是「yes」,模型就可能产生了随机模仿的能力(也就是照着之前的正确答案无腦抄下去)。

因为事实证明,在大多数情况下,没有一个模型会真正一一执行「判断数字能否被整除」的算法——他们只是假装做了。

比如下面这个 3 月份 GPT-4 的快照,它只是列了一堆待检查的数字,然后没有一一去除就直接给出「19997 是质数」的回答。

也就是说,3 月份的 GPT-4 可能是无腦答对的,其表现并不能证明其数学能力;相反,也就不能证明 6 月份的 GPT-4 不行了(可能本来就是这个水平)。

为了进一步证明自己的看法,教授们用 500 个合数测试了模型,结果是 3 月版本的 GPT-4 几乎总是猜测这些数字是质数,而 6 月版本则几乎认为是合数。

——评估数据一换,结果就完全不同,这足以说明原作者的结论并不算立得住了。

除此之外,在下降最多的代码编写能力方面,教授们也认为,作者只是检查代码是否可以直接执行,而不评估其正确性的方式,这种方式也同样草率。

这意味着新 GPT-4 试图提供更多帮助的能力被抵消了。

以上这些观点,均得到了英伟达 AI 科学家 Jim Fan 的支持,他表示:

这也让我想到了 GPT-4 满分拿下 MIT 数学本科考试那篇论文。(被质疑造假,数据和评估方式都有问题)

但他认为,这都不重要,重要的是大家一起来 battle。

所以,你认为 GPT-4 到底变笨了没?

论文地址:

https://arxiv.org/abs/2307.09009

参考链接: [ 1 ] https://twitter.com/DwayneCodes/status/1681617375437922309

[ 2 ] https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time

[ 3 ] https://twitter.com/DrJimFan/status/1681771572351369216

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們