OpenAI 下半场开打：拼模型的时代结束了，拼任务的时代来了

今天小编分享的教育经验：OpenAI 下半场开打：拼模型的时代结束了，拼任务的时代来了，欢迎阅读。

The following article is from AI 深度研究员 Author AI 深度研究员

作者 | AI 工作坊

来源 | AI 深度研究员 管理智慧 AI+

咨询合作 | 13699120588

文章仅代表作者本人观点

（视频：美国时间 4 月 16 日，OpenAI o3 和 o4 mini 发布后，采访首席产品官 Kevin Weil）

OpenAI 的下半场，真的开打了。

这不是模型参数的更新，不是发布会的新模型，而是一场底层范式的变化：

AI 不再只是 " 会说话的模型 "，而开始成为 " 能动手的 Agent"。

就在几天前，一篇博客在 AI 圈子刷屏——

不是演讲，不是论文，而是一位工程师写下的内部复盘：《The Second Half》。

OpenAI 研究员姚顺雨在文中抛出一个核心判断：

"AI 的下半场，将从解决问题，转向定义问题。"

这句话一出，AI 自媒体连夜展开解读；新浪科技、极客公园、凤凰网等也相继发文引用了相关内容；

很多人点进去，也许你也看过，但……

你可能也有这种感觉：

" 我大概知道他说的是从模型到 Agent 的转变…… "

" 但到底什么叫‘定义问题更重要’？"

" 这和我用 AI 有什么关系？"

放心，你不是一个人。几乎所有人都只记住了一句金句，却没真正搞懂它意味着什么。

本文，就是来讲清楚这场" 从模型到 Agent"的决赛圈转折。

不是比谁模型强，而是比谁能把任务布置清楚，让 AI 真正动手去做事。

（图：OpenAI 研究员姚顺雨在博客《The Second Half》中提出 "AI 的下半场 " 概念，强调未来竞争将转向 " 谁能定义任务 "。）

第一部分：AI 不再比谁聪明，而是比谁布置得清楚

1. 它动手干活了，不再只是回答

美国当地时间 4 月 16 日，OpenAI 发布了新一代模型 o3 和 o4 mini。一夜之间，外网都在刷一个案例：

模型接收到一张照片，上面是倒置的手写文字："4th February – finish roadmap"。

而 o3 的操作是这样的：

第一步，裁切影像，精准保留文字区網域；

第二步，发现文字是倒着的，果断旋转影像；

第三步，放大模糊部分，增强识别清晰度；

第四步，读取出内容："4th February – finish roadmap"。

这一系列操作，像极了一个训练有素的数字工程师——

先观察、再处理、最后判断。

而真正颠覆性的地方在于：

它不是在 " 识别 "，它是在主动 " 动手 " 解决问题。

2. 一个 " 识别 "，一个 " 动手 "

就在随后，字节也发布了自家的豆包 1.5「深度思考模型」，主打多模态能力。

我们团队把 o3 的影像裁剪出来（感兴趣同学可以自己测试），喂给豆包，想看看到底差距在哪。

结果呢？

豆包也能识别出字是倒置的，甚至准确识别了大部分字母。

但它没有裁图、没有旋转、也没有补全意图。

它只是 " 看了一眼 "，然后告诉你：" 差不多就这样。"

这场对比里，真正的分水岭，

不是在 " 看 " 与 " 不看 "，而是在 " 做 " 与 " 不做 "。

3. 真正的分水岭：执行闭环

豆包，是一个模型： 你问一句，它答一句；你给张图，它尽量识别。

而 o3，是一个 Agent。

OpenAI 一共给 o3 提供了如下图的 9 套工具↓，真的是一个 " 工具人 "

它面对模糊任务，会主动拆解问题、规划执行顺序、调用工具，闭环完成任务。

它不再只是 " 回答 "，而是全流程 " 解决 "。

你不是在和一个聊天工具对话，

你是第一次——

在和一个 " 能动手干活 " 的数字助理打交道。

4. 你没变强，是因为还在提问

很多人这两年总说：AI 好像没进步了。

文本生成还是老样子；

回答问题没啥新意；

多模态模型也就是看看图，说说话。

但你有没有想过，也许——

不是模型没变强，而是你还在用第一代的方式在 " 用 AI"。

Kevin Weil（OpenAI 首席产品官）说了一句很炸的话：

" 这些，是你此生将使用过的最差的 AI 模型。"

因为从现在起，它们只会变得更强——

不是变得更能说话纯粹的 " 大语言模型 "，而是变得更能做事。

5. 不是模型弱，是你没布置任务

豆包不笨，o3 也没有什么神秘魔法。

它们真正的差距，不在参数、架构、显卡，而在如何理解问题、处理问题：

是等你提问，还是主动推进？

是输出答案，还是执行流程？

是语言模型，还是执行代理？

AI 的下半场，不再比谁的模型更强，而是比谁定义的问题更准。

你还在让模型 " 帮你想想 "？

第二部分：AI 不再是模型，而是 " 能干活 " 的执行系统

1. 上半场的赢家，正在被系统淘汰

几十年来，我们对 AI 的想象几乎是固定的：

搞算法的，研究怎么 " 训得更准 "；

写论文的，比谁在某个基准数据集上提了 1.3%；

发布会刷屏的，都是 " 这次参数提升到了几千亿 "。

那时候，最值钱的，是搞出新模型、发明新技巧。

谁能训练得准、提得快，谁就能改写规则。

我们称之为："AI 的上半场 "。

在这个赛道上，赢家都是搞方法的：

从早年的 AlexNet、Transformer，到 GPT、SAM、Gemini ……几乎每一个里程碑，都是算法范式的突破。

但现在，这个游戏已经走到尽头。

OpenAI 的研究员姚顺雨在这篇现象级博客中说："AI 的下半场，将从解决问题，转向定义问题。"

2. 模型配方已被工业化

姚顺雨指出，如今能解决大多数 AI 任务的，

不再是一种某人刚发明的 " 新方法 "，而是一套被反复验证过的 " 通用配方 "：

" 语言预训练 + 推理能力 + 工具调用 = 智能 Agent"

这意味着什么？

o3/o4 不是靠某个 " 魔法结构 " 赢的。

它靠的是一整套 " 系统工程 "：

提前理解语言世界，学会在语言空间中推理，掌握工具链的使用。

是一个 " 训练有素的数字工程师 "，它知道怎么观察、拆解、执行。

一句话说清楚：

" 它不是更聪明，而是更能动手。"

3. 为什么 o3/o4 能做到？

我们用最直白的方式来解释这个分水岭。

豆包： 你问它问题，它回答；你给它影像，它识别；

o3： 你给它一个模糊的问题，它判断你要干什么 → 裁剪影像 → 调用翻转 → 放大处理 → 再来一次识别 → 输出文字 → 确认你是否还想继续。

这不再是 " 回答问题 "，而是完成任务。

我们可以从 OpenAI 给 o3/o4 设定的「系统提示词」（system prompt）中看出它的定位：" 你是一个全能执行助理，具备代码、浏览、影像理解与操作能力，你的目标是通过最可靠、最安全的方式帮助用户完成任务。"

注意，重点不是 " 语言模型 "，而是 " 执行助理 "。

它会反复确认答案准确性；

会调用代码工具做数据分析；

会主动提醒用户信息不完整、建议分步处理……

它的 " 聪明 "，不在语言，而在行动。

4. 差距不是推理力，是 " 闭环 "

你可以说豆包也能识别影像，也能回答问题。

但差距就在这里：

o3 知道该做什么；

它知道什么时候该叫工具；

它知道结果模糊时要不要再试一次；

它知道什么时候应该暂停、请求人类反馈。

这一切，不是智力，而是执行力。

真正拉开差距的，不是参数，而是闭环。

这是一种 " 任务驱动型智能 "，而不是 " 对话式智能 "。

AI 的范式已经从 " 输入 → 输出 " 变成了 " 问题 → 拆解 → 推理 → 工具链调用 → 验证 → 完成任务 "。

你可能会问：

最近很火的 MCP 協定（Model Context Protocol），由 Anthropic 于 2024 年 11 月推出

不是也在解决 " 模型怎么执行任务 " 的问题吗？

那 OpenAI 为什么没有跟？

也许答案，就藏在 o3 的架构里：

它没选择走 " 调用外部協定 " 的路子，

而是直接把 " 判断、执行、验证 "，一整套流程，做进了模型内部。

不是不感冒，

而是他们可能——已经找到了更好的解决办法。

他们不是在等标准，而是在提前实现闭环。

所以，当你还在比谁的模型答得更准，OpenAI 已经在比谁能执行得更稳。

5. RL 被谁取代了？是语言 + 工具 + 推理

强化学习曾经是 " 终极梦想 "。

DeepMind 用它下围棋、玩游戏、训练机械手，每一项看起来都像是通往 " 通用智能 " 的捷径。

但现在你很少在发布会上听到 "RL" 这个词了。

为什么？

因为 RL 最大的问题是：泛化能力太差。

它在 Dota 上能打爆你，换个游戏就完全废掉；

能抓苹果，却打不开冰箱门——这就是 RL 的通病：死记硬背，不懂变通。

直到 OpenAI 发现：语言模型本身，就是最强的 " 跨任务先验 "。

" 语言，是我们人类对世界的压缩表达；也是 AI 泛化能力的关键入口。"

你可以让语言模型 " 幻想 " 任务步骤、构建世界模型、规划路径——

这比传统 RL 强太多了，而且还便宜、稳定、可控。

所以，现在的智能体不是 "RL-trained"，而是 "language-prompted + tool-enhanced"。

6. 小结：AI 已不止是模型

我们常说 " 模型智能 "，但今天这个词已经不够用了。

你看到的 o3，不再是一个模型，而是一整套 " 能干活的系统 "：

有语言理解作为大腦；

有推理链条作为判断；

有调用工具的手；

有用户互動作为眼睛和耳朵；

有系统提示词定义的行为准则。

它不是在陪你聊天，而是在准备接手你的工作。

这，就是 AI 下半场的技术定义：从 " 对话模型 " 到 " 执行作業系統 "。

" 模型的时代结束了，定义问题的人，才是新世界的工程师。"

第三部分：谁定义任务，谁就是 AI 下半场的赢家

1. 拼的是 " 定义任务 " 能力

当 o3/o4 带着 Agent 能力出现，全行业其实都听到了一个信号：

" 模型战争结束了，真正的竞赛刚刚开始。"

你再堆更大的模型，只能带来 5% 的改进；

但你如果能换一种 " 定义任务 + 联动工具 " 的方式，可能就是 50% 的能力跃迁。

OpenAI 很早就意识到了这一点。姚顺雨在一篇博客里，把这个转变总结成一句话：

" 上半场比的是方法，下半场拼的是评估。"

这里的 " 评估 "，不是论文上的 "test set accuracy"，

而是你怎么构建一个能让智能体有用的任务框架。

换句话说，谁定义问题的方式更贴近现实，谁就能引导 AI 做出更有用的事。

2. 别只提问，让 AI 执行流程

在 AI 的上半场，你只需要学会怎么 " 问一个好问题 "。

但在下半场，更重要的，是你能不能布置出 " 一个能被完成的任务 "。

你需要掌握的，不是 prompt 拼接技巧，而是任务设计思维。

Prompt 是一句话，任务是一个流程。

真正有生产力的 AI，是 " 能被执行 " 的那一套流程。

你可以继续说：" 帮我写一个邮件回复。"

这叫做 调用智能模型。

也可以开始说：" 我每天 9 点会收到一堆工作邮件，你先按优先级提取，再用我平时的结构总结，最后整理出我的今日待办。"

这就不是在 " 提问 "，而是在定义工作流程。

AI 在这里不再是 " 一个对话視窗 "，而是一个你训练出来的数字助理。真正厉害的人，不是问得好，而是布置得清楚。

3. 围绕 AI 重构组织，才可能赢

OpenAI 的首席产品官 Kevin Weil 在最新访谈中，反复强调一个词："Operator（AI Agent）。"

他说：" 总的来说，这是 ChatGPT 从为你回答问题到在现实世界中为你做事的转变之年 "

在他看来，AI 的任务，不再是写一段文案、生成一张图，而是：

浏览网页、提取结构化信息；

自动填写表格、下单、购买；

理解人类的高层意图，并动态执行；

根据执行反馈，自我调整行为路径。

这不再是 " 工具更新 "，这是工作方式重构 。

那些依然只靠 prompt 用 AI 的公司，最后只能做 "AI 插件 "；

而那些真正学会用 Agent 重构流程的公司，才有可能成为 "AI 驱动企业 "。

AI 已经能完成任务，接下来该轮到组织来重新设计任务。

4. 不是赶上 o3，而是先让它动手

很多人焦虑：中国是不是又落后了？

模型差距是不是越来越大了？OpenAI 的 o3/o4 看起来遥不可及……

但如果你换个角度想：

模型代码是开源的；

方法配方是公开的；

最核心的 Agent 架构，也在逐步被复刻……

真正能决定差距的，是谁先用起来，谁先敢放权给用户。

你可以看到：

通义千问已经在内测工具链；

豆包 1.5 虽然动作慢，但也在强化 " 多轮指令 " 能力；

智谱、Minimax、Moonshot、Kimi 等国内模型，几乎都在快速 Agent 化。

问题不是没模型，而是没人敢 " 真的放手 "。

你还没见过一个产品，能替你点滑鼠、写报告、处理邮件。

所以机会还在。

这就是机会所在。

" 你不需要造出 o4 或者 o5，只需要比别人早三个月，让它动手干事，你就赢了。"

5. 下半场，任务定义者才是主角

上半场的英雄，是搞方法的人；

下半场的英雄，是敢重新定义任务的人。

你不需要是算法专家，也不需要写代码。

但你得能布置一个任务：

比如让 AI 自动规划一天的待办；

比如让它每天汇总你的数据、提建议；

比如给学生定制个性化学习计划；

你布置得越清楚，AI 干得就越像个人。

下半场，拼的不是聪明，而是组织力。

AI 能不能成为生产力，不取决于它的聪明，取决于你有没有给它一个清晰任务和执行边界。

Bonus｜普通人也能做的 3 件事：

上面讲了 " 怎么布置任务 "。

那普通人不懂技术、没用过 Agent 怎么办？

你可以从下面这三件事开始，立刻试一试：

建议一：把任务说清楚，而不是只提问题

" 帮我写一个小红书标题 "

" 我在写一篇关于 AI 下半场的图文，主角是 OpenAI 和字节，我希望它吸引科技感用户，能在微博和朋友圈被转发，写 5 个不超过 16 字的文案标题。"

提示词参考：「你现在是我的编辑，请用 3 步优化这个任务的目标和结构」

建议二：要求它拆步骤，不要只给结果

" 帮我分析一下竞争对手 "

" 请你第一步帮我列出对手官网上的所有产品功能，第二步总结与我公司的异同，第三步输出一段汇报材料给老板看。"

提示词参考：「你现在是我的分析助理，请按【流程化任务】方式执行。」

建议三：大胆让它 " 动手 "，别怕麻烦它

" 请你写一段脚本 "

" 帮我写完脚本后，再生成一张封面图，再起一个更吸引人的标题，再把这套东西改成适合发在抖音上的语气。"

提示词参考：「我授权你动手干活，不要等我每一步都下指令。」

" 你不是要变成一个 "AI 工程师 "，

你只是要学会：像对一个实习生下任务一样，对 AI 开口。"

"AI 会不会不重要，关键是你有没有告诉它：你要它干什么。"

结尾 · AI 的下半场，已经开始

你不需要比 AI 更聪明，只需要比别人更早学会让它替你干活。

从 o3 开始，AI 的世界分裂了：

一部分人还在 " 问它会不会 "，另一部分人已经 " 让它去做了 "。

模型的能力差不多，差的是你能不能敢交任务、放权执行。

" 不是 AI 不够强，而是你还没进入 " 问题定义者 " 的角色。"

下半场已经开打，

胜负，取决于你能不能换一种 " 提问方式 "。

现在，尝试就让 AI 开始真实的干点活儿吧。

原文链接：

https://ysymyth.github.io/The-Second-Half/

https://github.com/elder-plinius/CL4R1T4S/blob/main/OPENAI/ChatGPT/ChatGPT-04-16-2025

https://www.youtube.com/watch?v=AlfA-0NyTNA&t=1166s&ab_channel=CNBC-TV18

来源：官方媒体 / 网络新闻