超级推理模型正面对垒：谷歌版o1发布次日，OpenAI o1下一代o3登场

今天小编分享的互联网经验：超级推理模型正面对垒：谷歌版o1发布次日，OpenAI o1下一代o3登场，欢迎阅读。

本文作者：李丹

来源：硬 AI

圣诞节前，人工智能巨头上演了一场精彩的推理模型攻防战。谷歌和 OpenAI 正面对垒，谷歌刚发布自家的先进推理模型挑战 OpenAI 的 o1，第二天，OpenAI 就推出了更新版的最强推理模型 o3。

美东时间 12 月 20 日周五，在为期 12 个工作日的线上新品发布活动最后一日，OpenAI 宣布了 " 压轴大作 "：o1 的下一代模型 o3，而且一开始就要推出两个版本，一个正式的 o3，还有一个相对较小的精简版 o3-mini。

OpenAI 的 CEO Sam Altman 在直播中提到，OpenAI 本次 12 日的活动第一天官宣了上线正式版 o1、所谓满血 o1。活动最后一天又有 o3 亮相，首尾都由介绍推理模型呼应，也算是一种精心设计。

逻辑上说，o1 的下一代应该命名为 o2，至于为什么新模型叫 o3，之前媒体称，OpenAI 是为了避免和名为 O2 的英国电信服务商冲突。Altman 也确认了这点，说出于对 O2 的尊敬，并没有起同样的名字。

直播中，Altman 称 o3 是 " 一个非常、非常聪明的模型 "。OpenAi 的评估结果也显示，无论在軟體工程、编写代码，还是竞赛数学、掌握人类博士级别的自然科学知识能力方面，o3 都明显高出 o1 一筹。同时测试显示，o3 在 OpenAI 实现通用人工智能（AGI）这一奋斗目标上取得了突破，最高的测试成绩达到了类人水平。

o3 軟體工程测试准确率比 o1 高近 47% 竞赛数学高 15% 人类博士专家级生化物高近 13%

今年 9 月，OpenAI 发布 o1 的预览版 o1 preview 时称，o1 是第一个具备真正通用推理能力的大模型，它的核心能力推理在测试化学、物理和生物学专业知识的基准 GPQA-diamond 上得到了充分体现。据 OpenAI 评估，o1 在该测试中全面超过了人类博士专家，准确率达到 78.3%，而人类专家的得分为 69.7%。

本周五的直播中，OpenAI 展示了 o3 的测评表现：

根据 OpenAI8 月推出的 SWE-bench Verified 代码生成评估基准，在軟體工程的能力测评中，o3 的准确度得分 71.7，即准确率 71.7%，远超得分 48.9 的 o1 和得分 41.3 的 o1 preview。也就是说，o3 的准确率比 o1 正式版高将近 47%，比 o1 预览版高将近 74%。

在竞争性编程网站 Codeforces 的竞争性代码测评中，o3 取得 2727 的 Elo 评分，o1 评分 1891，o1 preview 评分 1258。这个测评结果显示，竞争性代码方面，o3 的评分比 o1 正式版高 44%，是 o1 预览版的两倍多。

经过 2024 年 AIME 数学竞赛的题目测试，o3 的准确度得分为 96.7、即准确率 96.7%，o1 和 o1 preview 分别得分 83.8 和 56.7。从竞赛数学的角度看，o3 的准确率比 o1 正式版高 15%，比 o1 预览版高近 71%。

以人类博士专家的测试考验，在测试化学、物理和生物学专业知识的基准 GPQA-diamond 上，o3 的准确度得分为 87.7，即准确率 87.7%，o1 和 o1 preview 分别得分 78.0 和 78.3。o3 的准确率比 o1 高将近 13%，比 o1 预览版高 12%。

迈向类人智能取得突破 AGI 相关测试最佳成绩达到人类水平

除了以上和 o1 对比的编码、数学、自然科学测评结果，OpenAI 周五还展示了，o3 的推理能力已经更加接近实现 AGI。

OpenAI 对 o1 和 o3 都进行了名为 ARC-AGI 的测试。ARC-AGI 是一项旨在评估 AI 系统是否能有效在其训练数据之外获得新技能的测试，运用半私有评估集验证的测评结果。

下图可见，以 100% 为最高分的 ARC-AGI 评估结果显示，o1 的得分在 25% 到 32%，而 o3 的最低成绩为 75.7%，最高成绩为 87.5%。从这个结果看，o3 的最佳成绩超过了标志着达到人类水平的门槛 85%。

创始 ARC-AGI 标准的前谷歌高级工程师、AI 研究员 Fran ç ois Chollet 表示，OpenAI 这些推理模型在 AGI 测试中取得进步是 " 稳健的 "。

Chollet 周五在社交媒体 X 发帖，公布了同 OpenAI 合作进行的 ARC-AGI 结果，称 " 我们相信这代表了让 AI 适应新任务的重大突破。"

Chollet 解释说，在低计算模式下、即计算中每个任务 20 美元的半私人评估中，o3 的得分为 75.7%，在高计算模式下、即每个任务数千美元的评估中，o3 的得分为 87.5%。它不仅仅是蛮力，它是新领網域的功能，需要科学领網域认真关注。

OpenAI 计划明年初发布 o3 可能一段时间内都不会面向大众上线

虽然 o3 的测评看上去表现惊艳，但 OpenAI 应该不会很快面向大众上线这款新的超级推理模型。

从本周五开始，OpenAI 允许安全研究人员可以注册访问 o3 和 o3-mini 的预览。OpenAI 的一名发言人本周五称，OpenAI 计划明年初正式发布这些新的 o3 模型。

周五的直播中，Altman 暗示，o3 系列可能在一段时间内都不会向普通大众推广使用。因为他说，在 OpenAI 正式发布新的推理模型之前，他更希望有一个联邦政府的测试框架，指导监控和减轻此类模型的风险。Altman 说，

在 OpenAI 发布 o3 之前，" 应该有某种联邦测试框架，说明我们最感兴趣的是监控和缓解危害，类似于这里有一组测试，在你发布它之前，你必须能够证明，这种模型在这些方面是安全的，就像你对一种新药或一架新飞机或其他什么的证明一样。"

本周四，谷歌宣布推出全新的测试模型——Gemini 2.0 Flash Thinking。它使用了类似 o1 模型的慢思维思考方式，可以深度可视化展示整个思维链过程，尤其是在执行数学、编程等复杂问题方面。

相比 o1，Gemini 2.0 Flash Thinking 的最大差别是，让用户能看到一步一步推理的过程，更清晰、更透明地了解模型如何得出结论。它刚亮相就登上了 Chatbot Arena 大模型评估的榜首。不过，谷歌的这一新模型还处于实验性阶段，只是一个早期版本。