今天小编分享的教育经验:OpenAI 下半场开打:拼模型的时代结束了,拼任务的时代来了,欢迎阅读。
The following article is from AI 深度研究员 Author AI 深度研究员
作者 | AI 工作坊
来源 | AI 深度研究员 管理智慧 AI+
咨询合作 | 13699120588
文章仅代表作者本人观点
(视频:美国时间 4 月 16 日,OpenAI o3 和 o4 mini 发布后,采访首席产品官 Kevin Weil)
OpenAI 的下半场,真的开打了。
这不是模型参数的更新,不是发布会的新模型,而是一场底层范式的变化:
AI 不再只是 " 会说话的模型 ",而开始成为 " 能动手的 Agent"。
就在几天前,一篇博客在 AI 圈子刷屏——
不是演讲,不是论文,而是一位工程师写下的内部复盘:《The Second Half》。
OpenAI 研究员姚顺雨在文中抛出一个核心判断:
"AI 的下半场,将从解决问题,转向定义问题。"
这句话一出,AI 自媒体连夜展开解读;新浪科技、极客公园、凤凰网等也相继发文引用了相关内容;
很多人点进去,也许你也看过,但……
你可能也有这种感觉:
" 我大概知道他说的是从模型到 Agent 的转变…… "
" 但到底什么叫‘定义问题更重要’?"
" 这和我用 AI 有什么关系?"
放心,你不是一个人。几乎所有人都只记住了一句金句,却没真正搞懂它意味着什么。
本文,就是来讲清楚这场" 从模型到 Agent"的决赛圈转折。
不是比谁模型强,而是比谁能把任务布置清楚,让 AI 真正动手去做事。
(图:OpenAI 研究员姚顺雨在博客《The Second Half》中提出 "AI 的下半场 " 概念,强调未来竞争将转向 " 谁能定义任务 "。)
第一部分:AI 不再比谁聪明,而是比谁布置得清楚
1. 它动手干活了,不再只是回答
美国当地时间 4 月 16 日,OpenAI 发布了新一代模型 o3 和 o4 mini。一夜之间,外网都在刷一个案例:
模型接收到一张照片,上面是倒置的手写文字:"4th February – finish roadmap"。
而 o3 的操作是这样的:
第一步,裁切影像,精准保留文字区網域;
第二步,发现文字是倒着的,果断旋转影像;
第三步,放大模糊部分,增强识别清晰度;
第四步,读取出内容:"4th February – finish roadmap"。
这一系列操作,像极了一个训练有素的数字工程师——
先观察、再处理、最后判断。
而真正颠覆性的地方在于:
它不是在 " 识别 ",它是在主动 " 动手 " 解决问题。
2. 一个 " 识别 ",一个 " 动手 "
就在随后,字节也发布了自家的豆包 1.5「深度思考模型」,主打多模态能力。
我们团队把 o3 的影像裁剪出来(感兴趣同学可以自己测试),喂给豆包,想看看到底差距在哪。
结果呢?
豆包也能识别出字是倒置的,甚至准确识别了大部分字母。
但它没有裁图、没有旋转、也没有补全意图。
它只是 " 看了一眼 ",然后告诉你:" 差不多就这样。"
这场对比里,真正的分水岭,
不是在 " 看 " 与 " 不看 ",而是在 " 做 " 与 " 不做 "。
3. 真正的分水岭:执行闭环
豆包,是一个模型: 你问一句,它答一句;你给张图,它尽量识别。
而 o3,是一个 Agent。
OpenAI 一共给 o3 提供了如下图的 9 套工具↓,真的是一个 " 工具人 "
它面对模糊任务,会主动拆解问题、规划执行顺序、调用工具,闭环完成任务。
它不再只是 " 回答 ",而是全流程 " 解决 "。
你不是在和一个聊天工具对话,
你是第一次——
在和一个 " 能动手干活 " 的数字助理打交道。
4. 你没变强,是因为还在提问
很多人这两年总说:AI 好像没进步了。
文本生成还是老样子;
回答问题没啥新意;
多模态模型也就是看看图,说说话。
但你有没有想过,也许——
不是模型没变强,而是你还在用第一代的方式在 " 用 AI"。
Kevin Weil(OpenAI 首席产品官)说了一句很炸的话:
" 这些,是你此生将使用过的最差的 AI 模型。"
因为从现在起,它们只会变得更强——
不是变得更能说话纯粹的 " 大语言模型 ",而是变得更能做事。
5. 不是模型弱,是你没布置任务
豆包不笨,o3 也没有什么神秘魔法。
它们真正的差距,不在参数、架构、显卡,而在如何理解问题、处理问题:
是等你提问,还是主动推进?
是输出答案,还是执行流程?
是语言模型,还是执行代理?
AI 的下半场,不再比谁的模型更强,而是比谁定义的问题更准。
你还在让模型 " 帮你想想 "?
第二部分 :AI 不再是模型,而是 " 能干活 " 的执行系统
1. 上半场的赢家,正在被系统淘汰
几十年来,我们对 AI 的想象几乎是固定的:
搞算法的,研究怎么 " 训得更准 ";
写论文的,比谁在某个基准数据集上提了 1.3%;
发布会刷屏的,都是 " 这次参数提升到了几千亿 "。
那时候,最值钱的,是搞出新模型、发明新技巧。
谁能训练得准、提得快,谁就能改写规则。
我们称之为:"AI 的上半场 "。
在这个赛道上,赢家都是搞方法的:
从早年的 AlexNet、Transformer,到 GPT、SAM、Gemini ……几乎每一个里程碑,都是算法范式的突破。
但现在,这个游戏已经走到尽头。
OpenAI 的研究员姚顺雨在这篇现象级博客中说:"AI 的下半场,将从解决问题,转向定义问题。"
2. 模型配方已被工业化
姚顺雨指出,如今能解决大多数 AI 任务的,
不再是一种某人刚发明的 " 新方法 ",而是一套被反复验证过的 " 通用配方 ":
" 语言预训练 + 推理能力 + 工具调用 = 智能 Agent"
这意味着什么?
o3/o4 不是靠某个 " 魔法结构 " 赢的。
它靠的是一整套 " 系统工程 ":
提前理解语言世界,学会在语言空间中推理,掌握工具链的使用。
是一个 " 训练有素的数字工程师 ",它知道怎么观察、拆解、执行。
一句话说清楚:
" 它不是更聪明,而是更能动手。"
3. 为什么 o3/o4 能做到?
我们用最直白的方式来解释这个分水岭。
豆包: 你问它问题,它回答;你给它影像,它识别;
o3: 你给它一个模糊的问题,它判断你要干什么 → 裁剪影像 → 调用翻转 → 放大处理 → 再来一次识别 → 输出文字 → 确认你是否还想继续。
这不再是 " 回答问题 ",而是完成任务。
我们可以从 OpenAI 给 o3/o4 设定的「系统提示词」(system prompt)中看出它的定位:" 你是一个全能执行助理,具备代码、浏览、影像理解与操作能力,你的目标是通过最可靠、最安全的方式帮助用户完成任务。"
注意,重点不是 " 语言模型 ",而是 " 执行助理 "。
它会反复确认答案准确性;
会调用代码工具做数据分析;
会主动提醒用户信息不完整、建议分步处理……
它的 " 聪明 ",不在语言,而在行动。
4. 差距不是推理力,是 " 闭环 "
你可以说豆包也能识别影像,也能回答问题。
但差距就在这里:
o3 知道该做什么;
它知道什么时候该叫工具;
它知道结果模糊时要不要再试一次;
它知道什么时候应该暂停、请求人类反馈。
这一切,不是智力,而是执行力。
真正拉开差距的,不是参数,而是闭环。
这是一种 " 任务驱动型智能 ",而不是 " 对话式智能 "。
AI 的范式已经从 " 输入 → 输出 " 变成了 " 问题 → 拆解 → 推理 → 工具链调用 → 验证 → 完成任务 "。
你可能会问:
最近很火的 MCP 協定(Model Context Protocol),由 Anthropic 于 2024 年 11 月推出
不是也在解决 " 模型怎么执行任务 " 的问题吗?
那 OpenAI 为什么没有跟?
也许答案,就藏在 o3 的架构里:
它没选择走 " 调用外部協定 " 的路子,
而是直接把 " 判断、执行、验证 ",一整套流程,做进了模型内部。
不是不感冒,
而是他们可能——已经找到了更好的解决办法。
他们不是在等标准,而是在提前实现闭环。
所以,当你还在比谁的模型答得更准,OpenAI 已经在比谁能执行得更稳。
5. RL 被谁取代了?是语言 + 工具 + 推理
强化学习曾经是 " 终极梦想 "。
DeepMind 用它下围棋、玩游戏、训练机械手,每一项看起来都像是通往 " 通用智能 " 的捷径。
但现在你很少在发布会上听到 "RL" 这个词了。
为什么?
因为 RL 最大的问题是:泛化能力太差。
它在 Dota 上能打爆你,换个游戏就完全废掉;
能抓苹果,却打不开冰箱门——这就是 RL 的通病:死记硬背,不懂变通。
直到 OpenAI 发现:语言模型本身,就是最强的 " 跨任务先验 "。
" 语言,是我们人类对世界的压缩表达;也是 AI 泛化能力的关键入口。"
你可以让语言模型 " 幻想 " 任务步骤、构建世界模型、规划路径——
这比传统 RL 强太多了,而且还便宜、稳定、可控。
所以,现在的智能体不是 "RL-trained",而是 "language-prompted + tool-enhanced"。
6. 小结:AI 已不止是模型
我们常说 " 模型智能 ",但今天这个词已经不够用了。
你看到的 o3,不再是一个模型,而是一整套 " 能干活的系统 ":
有语言理解作为大腦;
有推理链条作为判断;
有调用工具的手;
有用户互動作为眼睛和耳朵;
有系统提示词定义的行为准则。
它不是在陪你聊天,而是在准备接手你的工作。
这,就是 AI 下半场的技术定义:从 " 对话模型 " 到 " 执行作業系統 "。
" 模型的时代结束了,定义问题的人,才是新世界的工程师。"
第三部分 :谁定义任务,谁就是 AI 下半场的赢家
1. 拼的是 " 定义任务 " 能力
当 o3/o4 带着 Agent 能力出现,全行业其实都听到了一个信号:
" 模型战争结束了,真正的竞赛刚刚开始。"
你再堆更大的模型,只能带来 5% 的改进;
但你如果能换一种 " 定义任务 + 联动工具 " 的方式,可能就是 50% 的能力跃迁。
OpenAI 很早就意识到了这一点。姚顺雨在一篇博客里,把这个转变总结成一句话:
" 上半场比的是方法,下半场拼的是评估。"
这里的 " 评估 ",不是论文上的 "test set accuracy",
而是你怎么构建一个能让智能体有用的任务框架。
换句话说,谁定义问题的方式更贴近现实,谁就能引导 AI 做出更有用的事。
2. 别只提问,让 AI 执行流程
在 AI 的上半场,你只需要学会怎么 " 问一个好问题 "。
但在下半场,更重要的,是你能不能布置出 " 一个能被完成的任务 "。
你需要掌握的,不是 prompt 拼接技巧,而是任务设计思维。
Prompt 是一句话,任务是一个流程。
真正有生产力的 AI,是 " 能被执行 " 的那一套流程。
你可以继续说:" 帮我写一个邮件回复。"
这叫做 调用智能模型。
也可以开始说:" 我每天 9 点会收到一堆工作邮件,你先按优先级提取,再用我平时的结构总结,最后整理出我的今日待办。"
这就不是在 " 提问 ",而是在定义工作流程。
AI 在这里不再是 " 一个对话視窗 ",而是一个你训练出来的数字助理。真正厉害的人,不是问得好,而是布置得清楚。
3. 围绕 AI 重构组织,才可能赢
OpenAI 的首席产品官 Kevin Weil 在最新访谈中,反复强调一个词:"Operator(AI Agent)。"
他说:" 总的来说,这是 ChatGPT 从为你回答问题到在现实世界中为你做事的转变之年 "
在他看来,AI 的任务,不再是写一段文案、生成一张图,而是:
浏览网页、提取结构化信息;
自动填写表格、下单、购买;
理解人类的高层意图,并动态执行;
根据执行反馈,自我调整行为路径。
这不再是 " 工具更新 ",这是工作方式重构 。
那些依然只靠 prompt 用 AI 的公司,最后只能做 "AI 插件 ";
而那些真正学会用 Agent 重构流程的公司,才有可能成为 "AI 驱动企业 "。
AI 已经能完成任务,接下来该轮到组织来重新设计任务。
4. 不是赶上 o3,而是先让它动手
很多人焦虑:中国是不是又落后了?
模型差距是不是越来越大了?OpenAI 的 o3/o4 看起来遥不可及……
但如果你换个角度想:
模型代码是开源的;
方法配方是公开的;
最核心的 Agent 架构,也在逐步被复刻……
真正能决定差距的,是谁先用起来,谁先敢放权给用户。
你可以看到:
通义千问已经在内测工具链;
豆包 1.5 虽然动作慢,但也在强化 " 多轮指令 " 能力;
智谱、Minimax、Moonshot、Kimi 等国内模型,几乎都在快速 Agent 化。
问题不是没模型,而是没人敢 " 真的放手 "。
你还没见过一个产品,能替你点滑鼠、写报告、处理邮件。
所以机会还在。
这就是机会所在。
" 你不需要造出 o4 或者 o5,只需要比别人早三个月,让它动手干事,你就赢了。"
5. 下半场,任务定义者才是主角
上半场的英雄,是搞方法的人;
下半场的英雄,是敢重新定义任务的人。
你不需要是算法专家,也不需要写代码。
但你得能布置一个任务:
比如让 AI 自动规划一天的待办;
比如让它每天汇总你的数据、提建议;
比如给学生定制个性化学习计划;
你布置得越清楚,AI 干得就越像个人。
下半场,拼的不是聪明,而是组织力。
AI 能不能成为生产力,不取决于它的聪明,取决于你有没有给它一个清晰任务和执行边界。
Bonus|普通人也能做的 3 件事:
上面讲了 " 怎么布置任务 "。
那普通人不懂技术、没用过 Agent 怎么办?
你可以从下面这三件事开始,立刻试一试:
建议一:把任务说清楚,而不是只提问题
" 帮我写一个小红书标题 "
" 我在写一篇关于 AI 下半场的图文,主角是 OpenAI 和字节,我希望它吸引科技感用户,能在微博和朋友圈被转发,写 5 个不超过 16 字的文案标题。"
提示词参考:「你现在是我的编辑,请用 3 步优化这个任务的目标和结构」
建议二:要求它拆步骤,不要只给结果
" 帮我分析一下竞争对手 "
" 请你第一步帮我列出对手官网上的所有产品功能,第二步总结与我公司的异同,第三步输出一段汇报材料给老板看。"
提示词参考:「你现在是我的分析助理,请按【流程化任务】方式执行。」
建议三:大胆让它 " 动手 ",别怕麻烦它
" 请你写一段脚本 "
" 帮我写完脚本后,再生成一张封面图,再起一个更吸引人的标题,再把这套东西改成适合发在抖音上的语气。"
提示词参考:「我授权你动手干活,不要等我每一步都下指令。」
" 你不是要变成一个 "AI 工程师 ",
你只是要学会:像对一个实习生下任务一样,对 AI 开口。"
"AI 会不会不重要,关键是你有没有告诉它:你要它干什么。"
结尾 · AI 的下半场,已经开始
你不需要比 AI 更聪明, 只需要比别人更早学会让它替你干活。
从 o3 开始,AI 的世界分裂了:
一部分人还在 " 问它会不会 ", 另一部分人已经 " 让它去做了 "。
模型的能力差不多,差的是你能不能敢交任务、放权执行。
" 不是 AI 不够强,而是你还没进入 " 问题定义者 " 的角色。"
下半场已经开打,
胜负,取决于你能不能换一种 " 提问方式 "。
现在,尝试就让 AI 开始真实的干点活儿吧。
原文链接:
https://ysymyth.github.io/The-Second-Half/
https://github.com/elder-plinius/CL4R1T4S/blob/main/OPENAI/ChatGPT/ChatGPT-04-16-2025
https://www.youtube.com/watch?v=AlfA-0NyTNA&t=1166s&ab_channel=CNBC-TV18
来源:官方媒体 / 网络新闻