大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

o1/Claude集体翻车!陶哲轩等60+顶尖数学家合力提出新数学基准,大模型正确率通通不足2%

2024-11-12 简体 HK SG TW

今天小编分享的科学经验:o1/Claude集体翻车!陶哲轩等60+顶尖数学家合力提出新数学基准,大模型正确率通通不足2%,欢迎阅读。

让大模型集体吃瘪,数学题正确率通通不到 2%!

获大神卡帕西力荐,大模型新数学基准来势汹汹——

一出手,曾在国际数学奥赛中拿下 83% 解题率的o1 模型就败下阵来,并且 Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro 等全都未攻破 2% 这一防线。

所以,新挑战者到底啥来头??

一打听,这个新数学基准名为FrontierMath,由Epoch AI这家非营利研究机构号召陶哲轩在内的 60 多位顶尖数学家提出。

这群人这次铁了心要给 AI 上难度,直接原创了数百道极具挑战性的数学问题——

从数论中计算密集型问题到代数几何和范畴论中的抽象问题,涵盖了现代数学的大多数主要分支。

这些题有多难呢?按数学大佬陶哲轩对这项研究的评价说:

大模型们,至少需要再战个几年吧。

同时,卡帕西也表示非常喜欢这一新基准,甚至乐于见到大模型们 " 吃瘪 ":

之所以引入这个基准,是因为大模型越来越多地碾压现有的数学基准

FrontierMath:评估 AI 高级数学推理能力的新基准

今年以来,大语言模型(LLM)开始在各种数学 benchmark 上疯狂刷分,而且正确率动辄 90% 以上。

宣传看多了,人也麻了,于是纷纷反思——

一定是现在的基准测试 " 被污染了 "(比如让 AI 在训练阶段提前学习基准测试中的问题)。

对此,非营利研究机构 Epoch AI 看不下去了,于是直接联合 60 多位顶尖数学家(共获得了 14 枚 IMO 金牌)推出 FrontierMath。

这一新基准拥有数百道大模型们之前没见过的数学题,而且难度颇高。

通常需要专业数学家花费数小时甚至数天的努力

一番实践检验下,果不其然,一众顶尖大模型纷纷折戟(包括 Claude 3.5 Sonnet、GPT-4o 和 Gemini 1.5 Pro 等),解题率均不足 2%。

而且即使有延长的思考时间(10,000 个 token)、Python 访问权限以及运行实验的能力,相关成功率仍然低于 2%。

下面,我们具体介绍下 FrontierMath。这第一关主要解决数学题的原创性。

这群数学家们被要求按照3 个关键原则设计题目:

所有问题都是新的且未发表的,以防止数据污染;

解决方案是自动可验证的,从而实现高效的评估;

问题是 " 防猜测 " 的,在没有正确推理的情况下解决的可能性很低;

除了出新题,为了防止数据污染,机构还采取了其他措施。

比如为了最大限度地降低问题和解决方案在网上传播的风险,机构鼓励所有提交都通过安全、加密的渠道进行。

具体来说,机构采用加密通信平台与投稿人协调,并要求对在线存储的任何书面材料进行加密(如加密文档)。

同时,机构依赖于核心数学家团队专家评审这一原创验证性方法,以识别自动化系统可能错过的潜在相似性(专家比机器更熟悉这些研究细节)。

当然也不完全依靠人力,为了进一步保证原创性,机构还通过抄袭检测工具 Quetext 和 Copyscape 对问题进行测试。

最终,数学家们提出了数百道原创题目,涵盖了现代数学的大多数主要分支,从数论中计算密集型问题到代数几何和范畴论中的抽象问题。

其中数论和组合学最多,合计约占所有 MSC2020(数学学科分类系统 2020 版本)的 34%。

接下来,为了评估大模型在 FrontierMath 问题上的表现,研究开发了一个框架。

简单说,这一框架具体执行任务的过程如下:

分析问题:模型首先分析给定的数学问题;

提出策略:模型提出可能的解决方案策略;

实施并执行代码:将这些策略转化为可执行的 Python 代码并自动执行;

接收反馈:从代码执行的结果中接收反馈,包括输出和错误消息;

改进方法:根据实验结果,模型会验证中间结果,测试猜想,并可能改进其推理过程以修正潜在的错误;

该框架支持两种提交方式:一种是模型可以直接给出问题的最终答案;另一种是,在提交最终答案之前,模型可以先通过代码执行进行实验,以验证其解决方案的有效性。

不过需要提醒,在提交最终答案时,模型必须遵循一些标准化格式。

比如,在答案中需包含#This is the final answer这一标记注释,且将结果保存在 Python 的 pickle 模块中,同时需确保提交的代码必须是自包含的,不依赖于先前的计算。

总之,这一评估过程将持续进行,直到模型提交了正确格式化的最终答案,或者达到了预设的标记限制(研究設定为 10,000 个 token)。

如果模型在达到标记限制之前没有提交最终答案,它将收到一个最终提示,要求立即提交最终答案;

如果在收到该提示后模型仍然无法提供正确格式化的最终答案,则该尝试被标记为不正确。

陶哲轩看了都说难

为了进一步验证 FrontierMath 的难度,该机构还特意采访了 4 位数学大佬。

包括菲尔兹奖得主陶哲轩 ( 2006 ) 、蒂莫西 · 高尔斯 ( 1998 ) 、理查德 · 博赫兹 ( 1998 ) ,以及国际数学奥林匹克竞赛 ( IMO ) 教练陈谊廷 ( Evan Chen ) 在内,他们一致认为这些题非常具有挑战性。

下一步 Epoch AI 也计划从四个方面持续推进:

定期评估这些领先的大模型,并观察高级数学推理能力随时间推移和规模扩大而提高的情况;

保持难度的同时,向 FrontierMath 添加更多问题;

在未来几个月内发布更多代表性问题,供大家研究讨论;

扩大专家审查、增加错误数量和改进同行评审流程来加强质量控制;

这也合了卡帕西的心意,他认为这样的新基准应该更多,尤其是为那些看似 " 容易 " 的事情创建评估。

之所以引入这个基准,是因为大模型越来越多地碾压现有的数学基准。有趣的问题是,尽管从许多方面(/evals)来看,大模型正逐步跻身顶级专家行列(如数学和编码等),但你不会雇用他们而不是让他们从事最琐碎的工作。

如果你把问题描述整齐地放在盘子里,他们就能解决复杂的封闭式问题,但他们很难连贯地把长长的、自主的、解决问题的序列串联起来,而人却会觉得非常容易。

这是莫拉维克悖论的变相,他在 30 多年前就观察到,对人类来说容易 / 困难的事情,与对计算机来说容易 / 困难的事情,在非直觉上可能大相径庭。

例如,人类对计算机下国际象棋印象深刻,但国际象棋对计算机来说却很容易,因为它是一个封闭的、确定性的系统,具有离散的行动空间、完全的可观测性等等。

反之亦然,人类可以系好鞋带或叠好衬衫,而且根本不需要考虑太多,但这是一项极其复杂的传感运动任务,对硬體和軟體的技术水平都是挑战。

这就像不久前 OpenAI 发布的魔術方塊一样,大多数人都把注意力集中在解魔術方塊本身(这是微不足道的),而不是用机器人的手转动魔術方塊的一个面这一实际难度极高的任务。

因此,我非常喜欢这个 FrontierMath 基准,我们应该制作更多的基准。但我也认为,如何为所有 " 容易 " 但其实很难的东西创建评估是一个有趣的挑战。

很长的语境視窗、连贯性、自主性、常识、有效的多模态输入 / 输出…… 我们如何建立良好的 " 初级工作 " 评估?就像你对团队中任何初级实习生的期望。

网友也表示,能在这种基准测试中取得高分的大模型将大有裨益。

陶哲轩梦想的就是这样的东西,可以连接到 LEAN(微软研究院推出的一款定理证明器),让数学家成为编辑、顾问,偶尔处理一些真正困难的部分,而其余部分则自动化且可证明正确。

很难说一个在这次基准测试中能够达到 80% 的 LLM 对数学家来说没有用处。

对此,你怎么看?

论文:

https://arxiv.org/html/2411.04872v1

参考链接:

[ 1 ] https://x.com/EpochAIResearch/status/1854993676524831046

[ 2 ] https://x.com/karpathy/status/1855659091877937385?s=46

[ 3 ] https://news.ycombinator.com/item?id=42094546

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們