今天小編分享的教育經驗:OpenAI 下半場開打:拼模型的時代結束了,拼任務的時代來了,歡迎閱讀。
The following article is from AI 深度研究員 Author AI 深度研究員
作者 | AI 工作坊
來源 | AI 深度研究員 管理智慧 AI+
咨詢合作 | 13699120588
文章僅代表作者本人觀點
(視頻:美國時間 4 月 16 日,OpenAI o3 和 o4 mini 發布後,采訪首席產品官 Kevin Weil)
OpenAI 的下半場,真的開打了。
這不是模型參數的更新,不是發布會的新模型,而是一場底層範式的變化:
AI 不再只是 " 會說話的模型 ",而開始成為 " 能動手的 Agent"。
就在幾天前,一篇博客在 AI 圈子刷屏——
不是演講,不是論文,而是一位工程師寫下的内部復盤:《The Second Half》。
OpenAI 研究員姚順雨在文中抛出一個核心判斷:
"AI 的下半場,将從解決問題,轉向定義問題。"
這句話一出,AI 自媒體連夜展開解讀;新浪科技、極客公園、鳳凰網等也相繼發文引用了相關内容;
很多人點進去,也許你也看過,但……
你可能也有這種感覺:
" 我大概知道他說的是從模型到 Agent 的轉變…… "
" 但到底什麼叫‘定義問題更重要’?"
" 這和我用 AI 有什麼關系?"
放心,你不是一個人。幾乎所有人都只記住了一句金句,卻沒真正搞懂它意味着什麼。
本文,就是來講清楚這場" 從模型到 Agent"的決賽圈轉折。
不是比誰模型強,而是比誰能把任務布置清楚,讓 AI 真正動手去做事。
(圖:OpenAI 研究員姚順雨在博客《The Second Half》中提出 "AI 的下半場 " 概念,強調未來競争将轉向 " 誰能定義任務 "。)
第一部分:AI 不再比誰聰明,而是比誰布置得清楚
1. 它動手幹活了,不再只是回答
美國當地時間 4 月 16 日,OpenAI 發布了新一代模型 o3 和 o4 mini。一夜之間,外網都在刷一個案例:
模型接收到一張照片,上面是倒置的手寫文字:"4th February – finish roadmap"。
而 o3 的操作是這樣的:
第一步,裁切影像,精準保留文字區網域;
第二步,發現文字是倒着的,果斷旋轉影像;
第三步,放大模糊部分,增強識别清晰度;
第四步,讀取出内容:"4th February – finish roadmap"。
這一系列操作,像極了一個訓練有素的數字工程師——
先觀察、再處理、最後判斷。
而真正颠覆性的地方在于:
它不是在 " 識别 ",它是在主動 " 動手 " 解決問題。
2. 一個 " 識别 ",一個 " 動手 "
就在随後,字節也發布了自家的豆包 1.5「深度思考模型」,主打多模态能力。
我們團隊把 o3 的影像裁剪出來(感興趣同學可以自己測試),喂給豆包,想看看到底差距在哪。
結果呢?
豆包也能識别出字是倒置的,甚至準确識别了大部分字母。
但它沒有裁圖、沒有旋轉、也沒有補全意圖。
它只是 " 看了一眼 ",然後告訴你:" 差不多就這樣。"
這場對比裡,真正的分水嶺,
不是在 " 看 " 與 " 不看 ",而是在 " 做 " 與 " 不做 "。
3. 真正的分水嶺:執行閉環
豆包,是一個模型: 你問一句,它答一句;你給張圖,它盡量識别。
而 o3,是一個 Agent。
OpenAI 一共給 o3 提供了如下圖的 9 套工具↓,真的是一個 " 工具人 "
它面對模糊任務,會主動拆解問題、規劃執行順序、調用工具,閉環完成任務。
它不再只是 " 回答 ",而是全流程 " 解決 "。
你不是在和一個聊天工具對話,
你是第一次——
在和一個 " 能動手幹活 " 的數字助理打交道。
4. 你沒變強,是因為還在提問
很多人這兩年總說:AI 好像沒進步了。
文本生成還是老樣子;
回答問題沒啥新意;
多模态模型也就是看看圖,說說話。
但你有沒有想過,也許——
不是模型沒變強,而是你還在用第一代的方式在 " 用 AI"。
Kevin Weil(OpenAI 首席產品官)說了一句很炸的話:
" 這些,是你此生将使用過的最差的 AI 模型。"
因為從現在起,它們只會變得更強——
不是變得更能說話純粹的 " 大語言模型 ",而是變得更能做事。
5. 不是模型弱,是你沒布置任務
豆包不笨,o3 也沒有什麼神秘魔法。
它們真正的差距,不在參數、架構、顯卡,而在如何理解問題、處理問題:
是等你提問,還是主動推進?
是輸出答案,還是執行流程?
是語言模型,還是執行代理?
AI 的下半場,不再比誰的模型更強,而是比誰定義的問題更準。
你還在讓模型 " 幫你想想 "?
第二部分 :AI 不再是模型,而是 " 能幹活 " 的執行系統
1. 上半場的赢家,正在被系統淘汰
幾十年來,我們對 AI 的想象幾乎是固定的:
搞算法的,研究怎麼 " 訓得更準 ";
寫論文的,比誰在某個基準數據集上提了 1.3%;
發布會刷屏的,都是 " 這次參數提升到了幾千億 "。
那時候,最值錢的,是搞出新模型、發明新技巧。
誰能訓練得準、提得快,誰就能改寫規則。
我們稱之為:"AI 的上半場 "。
在這個賽道上,赢家都是搞方法的:
從早年的 AlexNet、Transformer,到 GPT、SAM、Gemini ……幾乎每一個裡程碑,都是算法範式的突破。
但現在,這個遊戲已經走到盡頭。
OpenAI 的研究員姚順雨在這篇現象級博客中說:"AI 的下半場,将從解決問題,轉向定義問題。"
2. 模型配方已被工業化
姚順雨指出,如今能解決大多數 AI 任務的,
不再是一種某人剛發明的 " 新方法 ",而是一套被反復驗證過的 " 通用配方 ":
" 語言預訓練 + 推理能力 + 工具調用 = 智能 Agent"
這意味着什麼?
o3/o4 不是靠某個 " 魔法結構 " 赢的。
它靠的是一整套 " 系統工程 ":
提前理解語言世界,學會在語言空間中推理,掌握工具鏈的使用。
是一個 " 訓練有素的數字工程師 ",它知道怎麼觀察、拆解、執行。
一句話說清楚:
" 它不是更聰明,而是更能動手。"
3. 為什麼 o3/o4 能做到?
我們用最直白的方式來解釋這個分水嶺。
豆包: 你問它問題,它回答;你給它影像,它識别;
o3: 你給它一個模糊的問題,它判斷你要幹什麼 → 裁剪影像 → 調用翻轉 → 放大處理 → 再來一次識别 → 輸出文字 → 确認你是否還想繼續。
這不再是 " 回答問題 ",而是完成任務。
我們可以從 OpenAI 給 o3/o4 設定的「系統提示詞」(system prompt)中看出它的定位:" 你是一個全能執行助理,具備代碼、浏覽、影像理解與操作能力,你的目标是通過最可靠、最安全的方式幫助用戶完成任務。"
注意,重點不是 " 語言模型 ",而是 " 執行助理 "。
它會反復确認答案準确性;
會調用代碼工具做數據分析;
會主動提醒用戶信息不完整、建議分步處理……
它的 " 聰明 ",不在語言,而在行動。
4. 差距不是推理力,是 " 閉環 "
你可以說豆包也能識别影像,也能回答問題。
但差距就在這裡:
o3 知道該做什麼;
它知道什麼時候該叫工具;
它知道結果模糊時要不要再試一次;
它知道什麼時候應該暫停、請求人類反饋。
這一切,不是智力,而是執行力。
真正拉開差距的,不是參數,而是閉環。
這是一種 " 任務驅動型智能 ",而不是 " 對話式智能 "。
AI 的範式已經從 " 輸入 → 輸出 " 變成了 " 問題 → 拆解 → 推理 → 工具鏈調用 → 驗證 → 完成任務 "。
你可能會問:
最近很火的 MCP 協定(Model Context Protocol),由 Anthropic 于 2024 年 11 月推出
不是也在解決 " 模型怎麼執行任務 " 的問題嗎?
那 OpenAI 為什麼沒有跟?
也許答案,就藏在 o3 的架構裡:
它沒選擇走 " 調用外部協定 " 的路子,
而是直接把 " 判斷、執行、驗證 ",一整套流程,做進了模型内部。
不是不感冒,
而是他們可能——已經找到了更好的解決辦法。
他們不是在等标準,而是在提前實現閉環。
所以,當你還在比誰的模型答得更準,OpenAI 已經在比誰能執行得更穩。
5. RL 被誰取代了?是語言 + 工具 + 推理
強化學習曾經是 " 終極夢想 "。
DeepMind 用它下圍棋、玩遊戲、訓練機械手,每一項看起來都像是通往 " 通用智能 " 的捷徑。
但現在你很少在發布會上聽到 "RL" 這個詞了。
為什麼?
因為 RL 最大的問題是:泛化能力太差。
它在 Dota 上能打爆你,換個遊戲就完全廢掉;
能抓蘋果,卻打不開冰箱門——這就是 RL 的通病:死記硬背,不懂變通。
直到 OpenAI 發現:語言模型本身,就是最強的 " 跨任務先驗 "。
" 語言,是我們人類對世界的壓縮表達;也是 AI 泛化能力的關鍵入口。"
你可以讓語言模型 " 幻想 " 任務步驟、構建世界模型、規劃路徑——
這比傳統 RL 強太多了,而且還便宜、穩定、可控。
所以,現在的智能體不是 "RL-trained",而是 "language-prompted + tool-enhanced"。
6. 小結:AI 已不止是模型
我們常說 " 模型智能 ",但今天這個詞已經不夠用了。
你看到的 o3,不再是一個模型,而是一整套 " 能幹活的系統 ":
有語言理解作為大腦;
有推理鏈條作為判斷;
有調用工具的手;
有用戶互動作為眼睛和耳朵;
有系統提示詞定義的行為準則。
它不是在陪你聊天,而是在準備接手你的工作。
這,就是 AI 下半場的技術定義:從 " 對話模型 " 到 " 執行作業系統 "。
" 模型的時代結束了,定義問題的人,才是新世界的工程師。"
第三部分 :誰定義任務,誰就是 AI 下半場的赢家
1. 拼的是 " 定義任務 " 能力
當 o3/o4 帶着 Agent 能力出現,全行業其實都聽到了一個信号:
" 模型戰争結束了,真正的競賽剛剛開始。"
你再堆更大的模型,只能帶來 5% 的改進;
但你如果能換一種 " 定義任務 + 聯動工具 " 的方式,可能就是 50% 的能力躍遷。
OpenAI 很早就意識到了這一點。姚順雨在一篇博客裡,把這個轉變總結成一句話:
" 上半場比的是方法,下半場拼的是評估。"
這裡的 " 評估 ",不是論文上的 "test set accuracy",
而是你怎麼構建一個能讓智能體有用的任務框架。
換句話說,誰定義問題的方式更貼近現實,誰就能引導 AI 做出更有用的事。
2. 别只提問,讓 AI 執行流程
在 AI 的上半場,你只需要學會怎麼 " 問一個好問題 "。
但在下半場,更重要的,是你能不能布置出 " 一個能被完成的任務 "。
你需要掌握的,不是 prompt 拼接技巧,而是任務設計思維。
Prompt 是一句話,任務是一個流程。
真正有生產力的 AI,是 " 能被執行 " 的那一套流程。
你可以繼續說:" 幫我寫一個郵件回復。"
這叫做 調用智能模型。
也可以開始說:" 我每天 9 點會收到一堆工作郵件,你先按優先級提取,再用我平時的結構總結,最後整理出我的今日待辦。"
這就不是在 " 提問 ",而是在定義工作流程。
AI 在這裡不再是 " 一個對話視窗 ",而是一個你訓練出來的數字助理。真正厲害的人,不是問得好,而是布置得清楚。
3. 圍繞 AI 重構組織,才可能赢
OpenAI 的首席產品官 Kevin Weil 在最新訪談中,反復強調一個詞:"Operator(AI Agent)。"
他說:" 總的來說,這是 ChatGPT 從為你回答問題到在現實世界中為你做事的轉變之年 "
在他看來,AI 的任務,不再是寫一段文案、生成一張圖,而是:
浏覽網頁、提取結構化信息;
自動填寫表格、下單、購買;
理解人類的高層意圖,并動态執行;
根據執行反饋,自我調整行為路徑。
這不再是 " 工具更新 ",這是工作方式重構 。
那些依然只靠 prompt 用 AI 的公司,最後只能做 "AI 插件 ";
而那些真正學會用 Agent 重構流程的公司,才有可能成為 "AI 驅動企業 "。
AI 已經能完成任務,接下來該輪到組織來重新設計任務。
4. 不是趕上 o3,而是先讓它動手
很多人焦慮:中國是不是又落後了?
模型差距是不是越來越大了?OpenAI 的 o3/o4 看起來遙不可及……
但如果你換個角度想:
模型代碼是開源的;
方法配方是公開的;
最核心的 Agent 架構,也在逐步被復刻……
真正能決定差距的,是誰先用起來,誰先敢放權給用戶。
你可以看到:
通義千問已經在内測工具鏈;
豆包 1.5 雖然動作慢,但也在強化 " 多輪指令 " 能力;
智譜、Minimax、Moonshot、Kimi 等國内模型,幾乎都在快速 Agent 化。
問題不是沒模型,而是沒人敢 " 真的放手 "。
你還沒見過一個產品,能替你點滑鼠、寫報告、處理郵件。
所以機會還在。
這就是機會所在。
" 你不需要造出 o4 或者 o5,只需要比别人早三個月,讓它動手幹事,你就赢了。"
5. 下半場,任務定義者才是主角
上半場的英雄,是搞方法的人;
下半場的英雄,是敢重新定義任務的人。
你不需要是算法專家,也不需要寫代碼。
但你得能布置一個任務:
比如讓 AI 自動規劃一天的待辦;
比如讓它每天匯總你的數據、提建議;
比如給學生定制個性化學習計劃;
你布置得越清楚,AI 幹得就越像個人。
下半場,拼的不是聰明,而是組織力。
AI 能不能成為生產力,不取決于它的聰明,取決于你有沒有給它一個清晰任務和執行邊界。
Bonus|普通人也能做的 3 件事:
上面講了 " 怎麼布置任務 "。
那普通人不懂技術、沒用過 Agent 怎麼辦?
你可以從下面這三件事開始,立刻試一試:
建議一:把任務說清楚,而不是只提問題
" 幫我寫一個小紅書标題 "
" 我在寫一篇關于 AI 下半場的圖文,主角是 OpenAI 和字節,我希望它吸引科技感用戶,能在微博和朋友圈被轉發,寫 5 個不超過 16 字的文案标題。"
提示詞參考:「你現在是我的編輯,請用 3 步優化這個任務的目标和結構」
建議二:要求它拆步驟,不要只給結果
" 幫我分析一下競争對手 "
" 請你第一步幫我列出對手官網上的所有產品功能,第二步總結與我公司的異同,第三步輸出一段匯報材料給老板看。"
提示詞參考:「你現在是我的分析助理,請按【流程化任務】方式執行。」
建議三:大膽讓它 " 動手 ",别怕麻煩它
" 請你寫一段腳本 "
" 幫我寫完腳本後,再生成一張封面圖,再起一個更吸引人的标題,再把這套東西改成适合發在抖音上的語氣。"
提示詞參考:「我授權你動手幹活,不要等我每一步都下指令。」
" 你不是要變成一個 "AI 工程師 ",
你只是要學會:像對一個實習生下任務一樣,對 AI 開口。"
"AI 會不會不重要,關鍵是你有沒有告訴它:你要它幹什麼。"
結尾 · AI 的下半場,已經開始
你不需要比 AI 更聰明, 只需要比别人更早學會讓它替你幹活。
從 o3 開始,AI 的世界分裂了:
一部分人還在 " 問它會不會 ", 另一部分人已經 " 讓它去做了 "。
模型的能力差不多,差的是你能不能敢交任務、放權執行。
" 不是 AI 不夠強,而是你還沒進入 " 問題定義者 " 的角色。"
下半場已經開打,
勝負,取決于你能不能換一種 " 提問方式 "。
現在,嘗試就讓 AI 開始真實的幹點活兒吧。
原文鏈接:
https://ysymyth.github.io/The-Second-Half/
https://github.com/elder-plinius/CL4R1T4S/blob/main/OPENAI/ChatGPT/ChatGPT-04-16-2025
https://www.youtube.com/watch?v=AlfA-0NyTNA&t=1166s&ab_channel=CNBC-TV18
來源:官方媒體 / 網絡新聞