OpenAI第12天：新品o3发布会的8大看点，第5个让全球都坐不住了

今天小编分享的教育经验：OpenAI第12天：新品o3发布会的8大看点，第5个让全球都坐不住了，欢迎阅读。

The following article is from AI 深度研究员 Author AI 工作坊

作者 | AI 工作坊

来源 | AI 深度研究员 管理智慧

咨询合作 | 13699120588

文章仅代表作者本人观点

就在刚刚，OpenAI 第 12 天发布会上的一则重磅消息让全球科技圈沸腾：新一代 AI 模型 o3 及其 o3-mini 正式亮相。这不是一场普通的产品发布会，而是一次足以改变 AI 进程的重大事件。

让全球为之瞩目的是，o3 展现出了超越前代的惊人能力。在编程领網域，它展示出了媲美顶级程式员的实力；在科学推理方面，它创造了多项新纪录；更令人期待的是，它的精简版 o3-mini 将在 1 月底向公众开放，这意味着这项革命性技术很快就将走入普通人的生活。

究竟 o3 有哪些突破性的创新？它又将如何改变我们的未来？让我们一起来看看这场发布会上的八大看点，特别是第五点，它可能会重新影响我们对人工智能的所有认知。

看点 1. 打破人类极限的 AI 天才

很多人都在问：o3 到底有多强？让我用最直观的方式告诉你——它简直强得离谱！这个全新的 AI 模型在各个领網域都展现出了惊人的实力（如下图），其中最引人注目的是它在编程领網域的表现。

（多个关键领網域测试，特别是在编程和数学推理能力）

在编程界，有一个叫 CodeForces 的平台，这就像是程式员的奥林匹克竞赛。o3 在这个平台上的预期评分超过 2700 分！对普通人来说，这个数字可能没什么感觉，但请听我说完：一个普通程式员，可能努力一辈子都达不到 2000 分。而 2700 分，这已经是世界顶尖水平了！

不仅是编程，o3 在 GPQA 测试中拿到了 87.7% 的钻石级成绩。这个成绩比谷歌的 Gemini Flash 2 高出了整整 25.7 个百分点！要知道，在 AI 领網域，1% 的提升都是非常困难的，而 o3 一下子领先这么多，简直就是降维打击！这种差距就像是高考状元和普通考生之间的差距，简直是降维打击。

而在軟體工程领網域，o3 创下了 71.7% 的新纪录。对于一个 AI 来说，这意味着它已经能够理解、设计和实现复杂的軟體系统。这就像一个机器人不仅会做菜，还能设计和经营一整个米其林餐厅！

看点 2. AI 超越传统思维能力

o3 最与众不同的地方在于它的 " 思考方式 "。传统的 AI 就像是一个超级资料库，而 o3 更像是一个能够独立思考的大腦。它采用了一种叫做 " 深度学习驱动的程式搜索系统 " 的技术，这种技术让它能够像人类一样进行创造性思考。

说到这里，我不得不分享一个有趣的类比：传统 AI 就像是一个死记硬背的学生，考试时只会照搬课本上的答案。而 o3 则像是一个真正理解知识的学霸，能够融会贯通，举一反三。它使用了类似于 AlphaZero 的蒙特卡罗树搜索方法，这使得它能够像人类一样进行创造性思考。

比如说，当面对一个从未见过的问题时：

传统 AI 会像翻字典一样，在数据库里寻找类似的答案

而 o3 会像人类一样，先分析问题的本质，然后一步步推理出解决方案

这种思维方式的突破，让 o3 能够解决更多复杂和创新性的问题。它不仅能回答 " 是什么 "，还能解释 " 为什么 "，甚至能提出 " 如何更好 "。这种能力的突破，让它能够应对各种前所未见的挑战。

看点3. 令人咋舌的高昂计算成本

不过，这种强大的能力也带来了巨大的计算成本。说到 o3 的成本，很多人都被吓到了：解决一个复杂问题可能需要花费数千美元，消耗数千万个计算标记。但我要告诉你一个不一样的视角。

让我们做个简单的计算：

一个高级程式员的年薪可能在 50 万以上

解决一个复杂问题可能需要几周甚至几个月

而 o3 可能几个小时就能搞定

从这个角度来看，o3 的成本其实是非常划算的！而且，OpenAI 已经表示，未来代币价格有望下降。这就像当年的计算机，从最初的天价到现在人手一台，o3 的使用成本也会变得越来越亲民。

看点 4. 不得不承认的 " 短板 "

o3 也有它的局限性，而且这些局限性非常有趣，甚至有点 " 可爱 "。它最大的局限在于缺乏与现实世界的直接互动能力。

首先，它有点像一个 " 理论家 "。虽然能给出完美的解决方案，但就是没法亲自动手做。这让我想起了那些在实验室里指点江山的科学家，能设计出完美的实验方案，但可能连试管都拿不稳。o3 就是这样，它能告诉你怎么做，但不能真正 " 动手 " 去做。

更有意思的是，它还离不开 " 人类老师 "。它需要依赖专家标注的思维链数据来学习，就像一个永远长不大的学生，总需要老师在旁边指导。这一点和围棋 AI AlphaZero 形成了鲜明对比，AlphaZero 可以通过自我对弈完全自主学习，而 o3 还做不到这一点。

看点5. 距离 " 通用人工智能 " 有多远？

（AGI 测试：人类是 85%VS o3 是 87.5%，人类完败）

很多人以为 o3 如此强大，是不是就意味着我们实现了传说中的 " 通用人工智能 "（AGI）？我要说：别急，事情没那么简单。

让我告诉你一个有趣的现象：在即将发布的 ARC-AGI-2 测试中，o3 即使开足马力，预计得分也就 30 分不到。简单说，我们在学校考试时，通常会有不同难度的试卷。有基础题，也有能够考察学生真正理解能力的综合题。ARC-AGI-2 测试就像是为人工智能准备的一个特殊 " 考试 "。

这个 " 考试 " 非常有意思。它不是考 AI 背诵了多少知识，而是测试 AI 是否真的具备 " 理解力 " 和 " 思考力 "。打个比方：

普通考试可能会问："1+1=？"

而 ARC-AGI-2 会问类似这样的问题：" 如果你有一个苹果，朋友又给你一个苹果，你该怎么计算总数？为什么要这样计算？如果是梨子呢？"

这种测试特别厉害的地方在于，它考察的是 AI 是否真的 " 懂 "，而不是简单的 " 记住 "。就像区分一个背题的学生和真正理解知识的学生一样。

有趣的是，在这个测试中，o3 这个超级厉害的 AI，预计只能得到 30 分左右，而普通人类随随便便就能得 95 分以上。这说明什么呢？这说明虽然 o3 在某些方面很厉害（比如编程），但在真正理解和思考问题的能力上，还远远比不上人类。这就像一个学霸，数学考 100 分，英语也考 100 分，但让他处理一些生活中的实际问题时，反而不如一个普通人来得得心应手。

这个现象告诉我们什么？

AI 的 " 智能 " 和人类的 " 智能 " 是不同的

o3 虽然在某些领網域超越了人类，但在通用性方面还远远不够

真正的 AGI 应该具备更全面的能力，而不是只在特定领網域表现出色

所以，这个 ARC-AGI-2 测试就像是一面镜子，它清楚地告诉我们：AI 现在到底发展到了什么水平，还有哪些不足需要改进。这对于整个 AI 领網域的发展都非常重要。

看点6. AI 进化史上的里程碑时刻！

回顾 AI 的发展历程，从 GPT-3 到 o3 的每一步进展都清晰可见：

GPT-3：ARC-AGI 测试得分为 0

GPT-4：接近 0 分

GPT-4o：达到 5 分

o3：实现重大突破

这短短几年的进化史，展现了 AI 技术突飞猛进的发展速度。最早的 GPT-3 就像是一个懵懂的学前儿童，在 ARC-AGI 这个专门考验 AI 真实理解力的测试中，完全无法应对，拿了个令人尴尬的零分。这个阶段的 AI 虽然已经能和人类对话，但在真正需要深度思考的问题面前却显得束手无策。

当 GPT-4 登场时，AI 界迎来了第一缕曙光。它在测试中虽然只取得了接近于零的成绩，但这微弱的进步却让研究人员看到了希望。这就像一个孩子终于迈出了蹒跚的第一步，虽然还很不稳当，却预示着更大的突破即将到来。GPT-4o 的出现则标志着 AI 开始真正具备了初步的推理能力。5 分的成绩看似微不足道，但却代表着质的飞跃。

而今天，o3 的横空出世彻底改写了 AI 的历史进程。这种进步就像人类从会走路到会跑步，再到会开车，最后直接会飞一样！而且，这个进步主要体现在两个核心能力上：

知识储备更强大了：就像给大腦装了个超级硬碟

知识运用更灵活了：不仅会背，还会用，还能创新！

看点 7. o3 的开源计划

现在告诉你一个超级激动人心的消息：OpenAI 计划在 2025 年推动 o3 的开源复现！这是什么概念？

这就像把一个超级天才的大腦复制给全世界的科学家研究。通过开源，更多的研究者和开发者将能够参与到 o3 的改进中来，这可能会催生出更多令人惊喜的创新应用。

同时，研究团队正在开发全新的 ARC-AGI-2 基准测试，这将为整个 AI 行业制定新的标准。这种标准的提升，将推动 AI 技术向更高水平发展。

看点 8. 想参与改变历史吗

最后要说的是，OpenAI 现在开放了红队测试申请！这意味着什么？这意味着你有机会：

成为首批体验 o3 的人

参与塑造 AI 的未来

为 AI 安全性作出贡献