OpenAI 下半場開打：拼模型的時代結束了，拼任務的時代來了

今天小編分享的教育經驗：OpenAI 下半場開打：拼模型的時代結束了，拼任務的時代來了，歡迎閱讀。

The following article is from AI 深度研究員 Author AI 深度研究員

作者 | AI 工作坊

來源 | AI 深度研究員 管理智慧 AI+

咨詢合作 | 13699120588

文章僅代表作者本人觀點

（視頻：美國時間 4 月 16 日，OpenAI o3 和 o4 mini 發布後，采訪首席產品官 Kevin Weil）

OpenAI 的下半場，真的開打了。

這不是模型參數的更新，不是發布會的新模型，而是一場底層範式的變化：

AI 不再只是 " 會說話的模型 "，而開始成為 " 能動手的 Agent"。

就在幾天前，一篇博客在 AI 圈子刷屏——

不是演講，不是論文，而是一位工程師寫下的内部復盤：《The Second Half》。

OpenAI 研究員姚順雨在文中抛出一個核心判斷：

"AI 的下半場，将從解決問題，轉向定義問題。"

這句話一出，AI 自媒體連夜展開解讀；新浪科技、極客公園、鳳凰網等也相繼發文引用了相關内容；

很多人點進去，也許你也看過，但……

你可能也有這種感覺：

" 我大概知道他說的是從模型到 Agent 的轉變…… "

" 但到底什麼叫‘定義問題更重要’？"

" 這和我用 AI 有什麼關系？"

放心，你不是一個人。幾乎所有人都只記住了一句金句，卻沒真正搞懂它意味着什麼。

本文，就是來講清楚這場" 從模型到 Agent"的決賽圈轉折。

不是比誰模型強，而是比誰能把任務布置清楚，讓 AI 真正動手去做事。

（圖：OpenAI 研究員姚順雨在博客《The Second Half》中提出 "AI 的下半場 " 概念，強調未來競争将轉向 " 誰能定義任務 "。）

第一部分：AI 不再比誰聰明，而是比誰布置得清楚

1. 它動手幹活了，不再只是回答

美國當地時間 4 月 16 日，OpenAI 發布了新一代模型 o3 和 o4 mini。一夜之間，外網都在刷一個案例：

模型接收到一張照片，上面是倒置的手寫文字："4th February – finish roadmap"。

而 o3 的操作是這樣的：

第一步，裁切影像，精準保留文字區網域；

第二步，發現文字是倒着的，果斷旋轉影像；

第三步，放大模糊部分，增強識别清晰度；

第四步，讀取出内容："4th February – finish roadmap"。

這一系列操作，像極了一個訓練有素的數字工程師——

先觀察、再處理、最後判斷。

而真正颠覆性的地方在于：

它不是在 " 識别 "，它是在主動 " 動手 " 解決問題。

2. 一個 " 識别 "，一個 " 動手 "

就在随後，字節也發布了自家的豆包 1.5「深度思考模型」，主打多模态能力。

我們團隊把 o3 的影像裁剪出來（感興趣同學可以自己測試），喂給豆包，想看看到底差距在哪。

結果呢？

豆包也能識别出字是倒置的，甚至準确識别了大部分字母。

但它沒有裁圖、沒有旋轉、也沒有補全意圖。

它只是 " 看了一眼 "，然後告訴你：" 差不多就這樣。"

這場對比裡，真正的分水嶺，

不是在 " 看 " 與 " 不看 "，而是在 " 做 " 與 " 不做 "。

3. 真正的分水嶺：執行閉環

豆包，是一個模型： 你問一句，它答一句；你給張圖，它盡量識别。

而 o3，是一個 Agent。

OpenAI 一共給 o3 提供了如下圖的 9 套工具↓，真的是一個 " 工具人 "

它面對模糊任務，會主動拆解問題、規劃執行順序、調用工具，閉環完成任務。

它不再只是 " 回答 "，而是全流程 " 解決 "。

你不是在和一個聊天工具對話，

你是第一次——

在和一個 " 能動手幹活 " 的數字助理打交道。

4. 你沒變強，是因為還在提問

很多人這兩年總說：AI 好像沒進步了。

文本生成還是老樣子；

回答問題沒啥新意；

多模态模型也就是看看圖，說說話。

但你有沒有想過，也許——

不是模型沒變強，而是你還在用第一代的方式在 " 用 AI"。

Kevin Weil（OpenAI 首席產品官）說了一句很炸的話：

" 這些，是你此生将使用過的最差的 AI 模型。"

因為從現在起，它們只會變得更強——

不是變得更能說話純粹的 " 大語言模型 "，而是變得更能做事。

5. 不是模型弱，是你沒布置任務

豆包不笨，o3 也沒有什麼神秘魔法。

它們真正的差距，不在參數、架構、顯卡，而在如何理解問題、處理問題：

是等你提問，還是主動推進？

是輸出答案，還是執行流程？

是語言模型，還是執行代理？

AI 的下半場，不再比誰的模型更強，而是比誰定義的問題更準。

你還在讓模型 " 幫你想想 "？

第二部分：AI 不再是模型，而是 " 能幹活 " 的執行系統

1. 上半場的赢家，正在被系統淘汰

幾十年來，我們對 AI 的想象幾乎是固定的：

搞算法的，研究怎麼 " 訓得更準 "；

寫論文的，比誰在某個基準數據集上提了 1.3%；

發布會刷屏的，都是 " 這次參數提升到了幾千億 "。

那時候，最值錢的，是搞出新模型、發明新技巧。

誰能訓練得準、提得快，誰就能改寫規則。

我們稱之為："AI 的上半場 "。

在這個賽道上，赢家都是搞方法的：

從早年的 AlexNet、Transformer，到 GPT、SAM、Gemini ……幾乎每一個裡程碑，都是算法範式的突破。

但現在，這個遊戲已經走到盡頭。

OpenAI 的研究員姚順雨在這篇現象級博客中說："AI 的下半場，将從解決問題，轉向定義問題。"

2. 模型配方已被工業化

姚順雨指出，如今能解決大多數 AI 任務的，

不再是一種某人剛發明的 " 新方法 "，而是一套被反復驗證過的 " 通用配方 "：

" 語言預訓練 + 推理能力 + 工具調用 = 智能 Agent"

這意味着什麼？

o3/o4 不是靠某個 " 魔法結構 " 赢的。

它靠的是一整套 " 系統工程 "：

提前理解語言世界，學會在語言空間中推理，掌握工具鏈的使用。

是一個 " 訓練有素的數字工程師 "，它知道怎麼觀察、拆解、執行。

一句話說清楚：

" 它不是更聰明，而是更能動手。"

3. 為什麼 o3/o4 能做到？

我們用最直白的方式來解釋這個分水嶺。

豆包： 你問它問題，它回答；你給它影像，它識别；

o3： 你給它一個模糊的問題，它判斷你要幹什麼 → 裁剪影像 → 調用翻轉 → 放大處理 → 再來一次識别 → 輸出文字 → 确認你是否還想繼續。

這不再是 " 回答問題 "，而是完成任務。

我們可以從 OpenAI 給 o3/o4 設定的「系統提示詞」（system prompt）中看出它的定位：" 你是一個全能執行助理，具備代碼、浏覽、影像理解與操作能力，你的目标是通過最可靠、最安全的方式幫助用戶完成任務。"

注意，重點不是 " 語言模型 "，而是 " 執行助理 "。

它會反復确認答案準确性；

會調用代碼工具做數據分析；

會主動提醒用戶信息不完整、建議分步處理……

它的 " 聰明 "，不在語言，而在行動。

4. 差距不是推理力，是 " 閉環 "

你可以說豆包也能識别影像，也能回答問題。

但差距就在這裡：

o3 知道該做什麼；

它知道什麼時候該叫工具；

它知道結果模糊時要不要再試一次；

它知道什麼時候應該暫停、請求人類反饋。

這一切，不是智力，而是執行力。

真正拉開差距的，不是參數，而是閉環。

這是一種 " 任務驅動型智能 "，而不是 " 對話式智能 "。

AI 的範式已經從 " 輸入 → 輸出 " 變成了 " 問題 → 拆解 → 推理 → 工具鏈調用 → 驗證 → 完成任務 "。

你可能會問：

最近很火的 MCP 協定（Model Context Protocol），由 Anthropic 于 2024 年 11 月推出

不是也在解決 " 模型怎麼執行任務 " 的問題嗎？

那 OpenAI 為什麼沒有跟？

也許答案，就藏在 o3 的架構裡：

它沒選擇走 " 調用外部協定 " 的路子，

而是直接把 " 判斷、執行、驗證 "，一整套流程，做進了模型内部。

不是不感冒，

而是他們可能——已經找到了更好的解決辦法。

他們不是在等标準，而是在提前實現閉環。

所以，當你還在比誰的模型答得更準，OpenAI 已經在比誰能執行得更穩。

5. RL 被誰取代了？是語言 + 工具 + 推理

強化學習曾經是 " 終極夢想 "。

DeepMind 用它下圍棋、玩遊戲、訓練機械手，每一項看起來都像是通往 " 通用智能 " 的捷徑。

但現在你很少在發布會上聽到 "RL" 這個詞了。

為什麼？

因為 RL 最大的問題是：泛化能力太差。

它在 Dota 上能打爆你，換個遊戲就完全廢掉；

能抓蘋果，卻打不開冰箱門——這就是 RL 的通病：死記硬背，不懂變通。

直到 OpenAI 發現：語言模型本身，就是最強的 " 跨任務先驗 "。

" 語言，是我們人類對世界的壓縮表達；也是 AI 泛化能力的關鍵入口。"

你可以讓語言模型 " 幻想 " 任務步驟、構建世界模型、規劃路徑——

這比傳統 RL 強太多了，而且還便宜、穩定、可控。

所以，現在的智能體不是 "RL-trained"，而是 "language-prompted + tool-enhanced"。

6. 小結：AI 已不止是模型

我們常說 " 模型智能 "，但今天這個詞已經不夠用了。

你看到的 o3，不再是一個模型，而是一整套 " 能幹活的系統 "：

有語言理解作為大腦；

有推理鏈條作為判斷；

有調用工具的手；

有用戶互動作為眼睛和耳朵；

有系統提示詞定義的行為準則。

它不是在陪你聊天，而是在準備接手你的工作。

這，就是 AI 下半場的技術定義：從 " 對話模型 " 到 " 執行作業系統 "。

" 模型的時代結束了，定義問題的人，才是新世界的工程師。"

第三部分：誰定義任務，誰就是 AI 下半場的赢家

1. 拼的是 " 定義任務 " 能力

當 o3/o4 帶着 Agent 能力出現，全行業其實都聽到了一個信号：

" 模型戰争結束了，真正的競賽剛剛開始。"

你再堆更大的模型，只能帶來 5% 的改進；

但你如果能換一種 " 定義任務 + 聯動工具 " 的方式，可能就是 50% 的能力躍遷。

OpenAI 很早就意識到了這一點。姚順雨在一篇博客裡，把這個轉變總結成一句話：

" 上半場比的是方法，下半場拼的是評估。"

這裡的 " 評估 "，不是論文上的 "test set accuracy"，

而是你怎麼構建一個能讓智能體有用的任務框架。

換句話說，誰定義問題的方式更貼近現實，誰就能引導 AI 做出更有用的事。

2. 别只提問，讓 AI 執行流程

在 AI 的上半場，你只需要學會怎麼 " 問一個好問題 "。

但在下半場，更重要的，是你能不能布置出 " 一個能被完成的任務 "。

你需要掌握的，不是 prompt 拼接技巧，而是任務設計思維。

Prompt 是一句話，任務是一個流程。

真正有生產力的 AI，是 " 能被執行 " 的那一套流程。

你可以繼續說：" 幫我寫一個郵件回復。"

這叫做 調用智能模型。

也可以開始說：" 我每天 9 點會收到一堆工作郵件，你先按優先級提取，再用我平時的結構總結，最後整理出我的今日待辦。"

這就不是在 " 提問 "，而是在定義工作流程。

AI 在這裡不再是 " 一個對話視窗 "，而是一個你訓練出來的數字助理。真正厲害的人，不是問得好，而是布置得清楚。

3. 圍繞 AI 重構組織，才可能赢

OpenAI 的首席產品官 Kevin Weil 在最新訪談中，反復強調一個詞："Operator（AI Agent）。"

他說：" 總的來說，這是 ChatGPT 從為你回答問題到在現實世界中為你做事的轉變之年 "

在他看來，AI 的任務，不再是寫一段文案、生成一張圖，而是：

浏覽網頁、提取結構化信息；

自動填寫表格、下單、購買；

理解人類的高層意圖，并動态執行；

根據執行反饋，自我調整行為路徑。

這不再是 " 工具更新 "，這是工作方式重構 。

那些依然只靠 prompt 用 AI 的公司，最後只能做 "AI 插件 "；

而那些真正學會用 Agent 重構流程的公司，才有可能成為 "AI 驅動企業 "。

AI 已經能完成任務，接下來該輪到組織來重新設計任務。

4. 不是趕上 o3，而是先讓它動手

很多人焦慮：中國是不是又落後了？

模型差距是不是越來越大了？OpenAI 的 o3/o4 看起來遙不可及……

但如果你換個角度想：

模型代碼是開源的；

方法配方是公開的；

最核心的 Agent 架構，也在逐步被復刻……

真正能決定差距的，是誰先用起來，誰先敢放權給用戶。

你可以看到：

通義千問已經在内測工具鏈；

豆包 1.5 雖然動作慢，但也在強化 " 多輪指令 " 能力；

智譜、Minimax、Moonshot、Kimi 等國内模型，幾乎都在快速 Agent 化。

問題不是沒模型，而是沒人敢 " 真的放手 "。

你還沒見過一個產品，能替你點滑鼠、寫報告、處理郵件。

所以機會還在。

這就是機會所在。

" 你不需要造出 o4 或者 o5，只需要比别人早三個月，讓它動手幹事，你就赢了。"

5. 下半場，任務定義者才是主角

上半場的英雄，是搞方法的人；

下半場的英雄，是敢重新定義任務的人。

你不需要是算法專家，也不需要寫代碼。

但你得能布置一個任務：

比如讓 AI 自動規劃一天的待辦；

比如讓它每天匯總你的數據、提建議；

比如給學生定制個性化學習計劃；

你布置得越清楚，AI 幹得就越像個人。

下半場，拼的不是聰明，而是組織力。

AI 能不能成為生產力，不取決于它的聰明，取決于你有沒有給它一個清晰任務和執行邊界。

Bonus｜普通人也能做的 3 件事：

上面講了 " 怎麼布置任務 "。

那普通人不懂技術、沒用過 Agent 怎麼辦？

你可以從下面這三件事開始，立刻試一試：

建議一：把任務說清楚，而不是只提問題

" 幫我寫一個小紅書标題 "

" 我在寫一篇關于 AI 下半場的圖文，主角是 OpenAI 和字節，我希望它吸引科技感用戶，能在微博和朋友圈被轉發，寫 5 個不超過 16 字的文案标題。"

提示詞參考：「你現在是我的編輯，請用 3 步優化這個任務的目标和結構」

建議二：要求它拆步驟，不要只給結果

" 幫我分析一下競争對手 "

" 請你第一步幫我列出對手官網上的所有產品功能，第二步總結與我公司的異同，第三步輸出一段匯報材料給老板看。"

提示詞參考：「你現在是我的分析助理，請按【流程化任務】方式執行。」

建議三：大膽讓它 " 動手 "，别怕麻煩它

" 請你寫一段腳本 "

" 幫我寫完腳本後，再生成一張封面圖，再起一個更吸引人的标題，再把這套東西改成适合發在抖音上的語氣。"

提示詞參考：「我授權你動手幹活，不要等我每一步都下指令。」

" 你不是要變成一個 "AI 工程師 "，

你只是要學會：像對一個實習生下任務一樣，對 AI 開口。"

"AI 會不會不重要，關鍵是你有沒有告訴它：你要它幹什麼。"

結尾 · AI 的下半場，已經開始

你不需要比 AI 更聰明，只需要比别人更早學會讓它替你幹活。

從 o3 開始，AI 的世界分裂了：

一部分人還在 " 問它會不會 "，另一部分人已經 " 讓它去做了 "。

模型的能力差不多，差的是你能不能敢交任務、放權執行。

" 不是 AI 不夠強，而是你還沒進入 " 問題定義者 " 的角色。"

下半場已經開打，

勝負，取決于你能不能換一種 " 提問方式 "。

現在，嘗試就讓 AI 開始真實的幹點活兒吧。

原文鏈接：

https://ysymyth.github.io/The-Second-Half/

https://github.com/elder-plinius/CL4R1T4S/blob/main/OPENAI/ChatGPT/ChatGPT-04-16-2025

https://www.youtube.com/watch?v=AlfA-0NyTNA&t=1166s&ab_channel=CNBC-TV18

來源：官方媒體 / 網絡新聞