OpenAI官方基准测试：承认Claude遥遥领先（狗头） - 大酷樂

今天小编分享的科学经验：OpenAI官方基准测试：承认Claude遥遥领先（狗头），欢迎阅读。

OpenAI 承认 Claude 是最好的了（狗头）。

刚刚开源的新基准测试 PaperBench，6 款前沿大模型驱动智能体 PK 复现 AI 顶会论文，新版 Claude-3.5-Sonnet 显著超越 o1/r1 排名第一。

与去年 10 月 OpenAI 考验 Agent 机器学习代码工程能力 MLE-Bnch 相比，PaperBench 更考验综合能力，不再是只执行单一任务。

具体来说，智能体在评估中需要复刻来自 ICML 2024 的论文，任务包括理解论文、编写代码和执行实验。

最终成绩如下：

Claude-3.5-Sonnet 断崖式领先，第二名 o1-high 分数只有第一的 60%，第三名 DeepSeek-R1 又只有第二名的一半。

此外 GPT-4o 超过了推理模型 o3-mini-high 也算一个亮点。

除了 AI 之间的 PK， OpenAI 这次还招募顶尖的机器学习博士对比 o1。

虽然最终结论是 AI 在复现顶会论文上还无法超越人类，但展开时间轴发现，在工作时间 1-6 小时内 Ai 的进度还是比人类要快的。

12-24 小时阶段 AI 与人类的进度相当，人类需要工作 24-48 小时才能超过 AI。

有创业者称赞 OpenAI 这波真的 Open 了，而且不避讳竞争对手的出色表现，咱们科技圈就需要这种精神。

Agent 复现顶会论文

PaperBench 选取 20 篇 ICML 2024 Spotlight 和 Oral 论文，要求 AI 创建代码库并执行实验，复制论文成果，且不能使用原作者代码。

OpenAI 与每篇论文的原作者共同制定详细评分标准，总共包含 8316 个可单独评分的任务。

开卷考试，也就是允许 Agent 有限联网搜索，把原论文代码库和其他人复现的代码库拉黑名单。

完整评估流程分为 3 个阶段：

Agent 在 ubuntu 容器中创建并提交复制论文的代码库。

在具有 GPU 访问权限的新容器中执行代码

裁判模型在第三个容器中给复现结果打分

评估时用分级标准打分，按叶节点、父节点逐级评分，主要指标是所有论文的平均复制分数。

评分也是由大模型自动执行，实验发现 o3-mini 当裁判的性价比最高。

给每篇论文评分花费 66 美元，比聘请人类专家当裁判要便宜，速度也更快。

运行评估所需的代码和数据、Docker 镜像等正在 GitHub 逐步开源。

One More Thing

在论文的附录中，OpenAI 还给出了让 AI 复现顶会论文的 Prompt，有需要的朋友可以学习一下。

BasicAgent System Prompt：

强调智能体要完整复制论文，明确最终目标是让运行 reproduce.sh 能复现论文所有指标

指导智能体使用工具逐步完成任务，避免一次性执行过多操作

要求智能体充分利用时间优化解决方案，而不是急于提交初步结果

IterativeAgent System/Continue Prompt：

强调时间很充裕，要逐步完成任务

每一步都提醒智能体使用可用的工具

强调代码编写规范

Task Instructions：

明确任务、可用资源、提交要求等多方面信息

给出代码示例

最后再次强调权限、考试时间等，还提醒 AI 要真的去执行复现，而不只是写一个计划。

就有点像人类准考证上写的考场须知了。

论文地址：

https://openai.com/index/paperbench/

参考链接：

[ 1 ] https://x.com/OpenAI/status/1907481494249255193

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

速抢席位！中国 AIGC 产业峰会观众报名通道已开启 ‍♀️

最新嘉宾曝光啦百度、华为、AWS、无问芯穹、数势科技、面壁智能、生数科技等十数位 AI 领網域创变者将齐聚峰会，让更多人用上 AI、用好 AI，与 AI 一同加速成长～

4 月 16 日，就在北京，一起来深度求索 AI 怎么用

一键星标

科技前沿进展每日见

熱門排行

王治郅：杨瀚森主要的问题是速度他郟君昊 | 2025-05-05
贸易战烧进电影院：特朗普拟重税打击習又夏 | 2025-05-05
贷款追高炒黄金的人后悔了！有人一天寸飛蘭 | 2025-05-05
手机电池突破8000mAh？硅碳技术的回衛青柏 | 2025-05-05
贷款追高炒黄金的人后悔了！有人一天繁綺文 | 2025-05-05
任天堂对Genki提起Switch 2商标侵郜萌運 | 2025-05-05
哪吒汽车APP和官网恢复正常知情人袁曼雁 | 2025-05-05
极越汽车 CEO 夏一平名下青岛/义乌集玲琳 | 2025-05-05
全国经济第一大省明确，推动组建农商佼昌翰 | 2025-05-05
桑保利：亚马尔有配合意识&有点像梅甄正浩 | 2025-05-05
高露现身上海虹桥机场黑色外套点缀亮色爱心装饰俏皮亮眼惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：处理器更新为天玑9200+ 安卓最强芯袁曼雁 | 2023-05-05
“懒癌”发病率上升，定期体检别忽视幸聽楓 | 2023-05-02
宋慧乔获百想视后韩素希发图手动加爱心表情庆祝賁芳蕤 | 2023-05-02
曹操墓，里面都有啥？衛青柏 | 2023-05-02
十年了，他们终于要HE！惠惠君 | 2023-05-07
中央部署经济工作，释放5大信号郜萌運 | 2023-05-02
高德上线手机弯道会车预警功能習又夏 | 2023-05-02
《云襄传》终于抬上来啦，男O女A让人好上头！集玲琳 | 2023-05-02
陈自瑶抱病为爱女做蛋糕庆生，王浩信点赞没露面賁芳蕤 | 2023-05-02
等比例长大的童星，李兰迪算一个郟君昊 | 2023-05-02
普京签署总统令，批准对俄刑法典相关法条的修正案集玲琳 | 2023-05-02
21家A股游戏公司2022年收入651亿今年“游戏+AI”能否逆风翻盘？衛青柏 | 2023-05-04
这些被抓来做实验的流浪狗，最终拯救了无数糖尿病人集玲琳 | 2023-05-02
信用风险释放趋缓，结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望袁曼雁 | 2023-05-02
高端国产车：军车血统，目前电动车越野的“天花板”？謝飛揚 | 2023-05-02
与周立波夫妇闹纠纷成老赖，唐爽被司法拘留15日寸飛蘭 | 2023-05-05
解除资格！停止一切合作佼昌翰 | 2023-05-02
3699起联想小新mini主机上架 13代酷睿标压处理器習又夏 | 2023-05-05
中银证券给予南京银行增持评级袁曼雁 | 2023-05-03
前董事长被免，天山生物全面进入“中植系”时代？股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
疯成这样，怎么还能被全网吹捧？郜萌運 | 2023-05-02
狂吼11次“让一下”！交警咆哮开道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收购美国第一共和银行謝飛揚 | 2023-05-02
台剧赢麻了，又来一部8.9 衛青柏 | 2023-05-02
事关农村土地承包和农民权益，《农村土地承包合同管理办法》5月1日起施行郟君昊 | 2023-05-02
下降45分，上涨35分！34所自划线院校复试分数线涨幅汇总袁曼雁 | 2023-05-07
"三高"已盯上青少年，做好这件事是关键習又夏 | 2023-05-05
五一档没一个能打的集玲琳 | 2023-05-05
恐怖韩剧下神坛，这次胆小可入袁曼雁 | 2023-05-05
200户连夜疏散，原因让人愤怒！“损失超一亿”，官方通报袁曼雁 | 2023-05-03
这剧是不是用ChatGPT写的呀？惠惠君 | 2023-05-02
性骚扰惯犯，滚出娱乐圈謝飛揚 | 2023-05-05
48岁何炅自曝已老花眼，黄磊睡前认老，《向往的生活》证实将停办佼昌翰 | 2023-05-02
一个《长月烬明》倒了，《狐妖》《长相思》《与凤行》…在路上了惠惠君 | 2023-05-02
当年轻人开始不随份子钱袁曼雁 | 2023-05-02
张天爱假期晒“酷”存照卷发披肩穿黑色吊带裙大秀好身材嬴覓晴 | 2023-05-02
毕滢用8年时间成功逼宫？曾被传已婚生子的她，不容小觑幸聽楓 | 2023-05-03
宋慧乔获视后首次晒照，拿奖杯笑容温柔郜萌運 | 2023-05-02