OpenAI第12天：新品o3發布會的8大看點，第5個讓全球都坐不住了

今天小編分享的教育經驗：OpenAI第12天：新品o3發布會的8大看點，第5個讓全球都坐不住了，歡迎閲讀。

The following article is from AI 深度研究員 Author AI 工作坊

作者 | AI 工作坊

來源 | AI 深度研究員 管理智慧

咨詢合作 | 13699120588

文章僅代表作者本人觀點

就在剛剛，OpenAI 第 12 天發布會上的一則重磅消息讓全球科技圈沸騰：新一代 AI 模型 o3 及其 o3-mini 正式亮相。這不是一場普通的產品發布會，而是一次足以改變 AI 進程的重大事件。

讓全球為之矚目的是，o3 展現出了超越前代的驚人能力。在編程領網域，它展示出了媲美頂級程式員的實力；在科學推理方面，它創造了多項新紀錄；更令人期待的是，它的精簡版 o3-mini 将在 1 月底向公眾開放，這意味着這項革命性技術很快就将走入普通人的生活。

究竟 o3 有哪些突破性的創新？它又将如何改變我們的未來？讓我們一起來看看這場發布會上的八大看點，特别是第五點，它可能會重新影響我們對人工智能的所有認知。

看點 1. 打破人類極限的 AI 天才

很多人都在問：o3 到底有多強？讓我用最直觀的方式告訴你——它簡直強得離譜！這個全新的 AI 模型在各個領網域都展現出了驚人的實力（如下圖），其中最引人注目的是它在編程領網域的表現。

（多個關鍵領網域測試，特别是在編程和數學推理能力）

在編程界，有一個叫 CodeForces 的平台，這就像是程式員的奧林匹克競賽。o3 在這個平台上的預期評分超過 2700 分！對普通人來説，這個數字可能沒什麼感覺，但請聽我説完：一個普通程式員，可能努力一輩子都達不到 2000 分。而 2700 分，這已經是世界頂尖水平了！

不僅是編程，o3 在 GPQA 測試中拿到了 87.7% 的鑽石級成績。這個成績比谷歌的 Gemini Flash 2 高出了整整 25.7 個百分點！要知道，在 AI 領網域，1% 的提升都是非常困難的，而 o3 一下子領先這麼多，簡直就是降維打擊！這種差距就像是高考狀元和普通考生之間的差距，簡直是降維打擊。

而在軟體工程領網域，o3 創下了 71.7% 的新紀錄。對于一個 AI 來説，這意味着它已經能夠理解、設計和實現復雜的軟體系統。這就像一個機器人不僅會做菜，還能設計和經營一整個米其林餐廳！

看點 2. AI 超越傳統思維能力

o3 最與眾不同的地方在于它的 " 思考方式 "。傳統的 AI 就像是一個超級資料庫，而 o3 更像是一個能夠獨立思考的大腦。它采用了一種叫做 " 深度學習驅動的程式搜索系統 " 的技術，這種技術讓它能夠像人類一樣進行創造性思考。

説到這裏，我不得不分享一個有趣的類比：傳統 AI 就像是一個死記硬背的學生，考試時只會照搬課本上的答案。而 o3 則像是一個真正理解知識的學霸，能夠融會貫通，舉一反三。它使用了類似于 AlphaZero 的蒙特卡羅樹搜索方法，這使得它能夠像人類一樣進行創造性思考。

比如説，當面對一個從未見過的問題時：

傳統 AI 會像翻字典一樣，在數據庫裏尋找類似的答案

而 o3 會像人類一樣，先分析問題的本質，然後一步步推理出解決方案

這種思維方式的突破，讓 o3 能夠解決更多復雜和創新性的問題。它不僅能回答 " 是什麼 "，還能解釋 " 為什麼 "，甚至能提出 " 如何更好 "。這種能力的突破，讓它能夠應對各種前所未見的挑戰。

看點3. 令人咋舌的高昂計算成本

不過，這種強大的能力也帶來了巨大的計算成本。説到 o3 的成本，很多人都被吓到了：解決一個復雜問題可能需要花費數千美元，消耗數千萬個計算标記。但我要告訴你一個不一樣的視角。

讓我們做個簡單的計算：

一個高級程式員的年薪可能在 50 萬以上

解決一個復雜問題可能需要幾周甚至幾個月

而 o3 可能幾個小時就能搞定

從這個角度來看，o3 的成本其實是非常劃算的！而且，OpenAI 已經表示，未來代币價格有望下降。這就像當年的計算機，從最初的天價到現在人手一台，o3 的使用成本也會變得越來越親民。

看點 4. 不得不承認的 " 短板 "

o3 也有它的局限性，而且這些局限性非常有趣，甚至有點 " 可愛 "。它最大的局限在于缺乏與現實世界的直接互動能力。

首先，它有點像一個 " 理論家 "。雖然能給出完美的解決方案，但就是沒法親自動手做。這讓我想起了那些在實驗室裏指點江山的科學家，能設計出完美的實驗方案，但可能連試管都拿不穩。o3 就是這樣，它能告訴你怎麼做，但不能真正 " 動手 " 去做。

更有意思的是，它還離不開 " 人類老師 "。它需要依賴專家标注的思維鏈數據來學習，就像一個永遠長不大的學生，總需要老師在旁邊指導。這一點和圍棋 AI AlphaZero 形成了鮮明對比，AlphaZero 可以通過自我對弈完全自主學習，而 o3 還做不到這一點。

看點5. 距離 " 通用人工智能 " 有多遠？

（AGI 測試：人類是 85%VS o3 是 87.5%，人類完敗）

很多人以為 o3 如此強大，是不是就意味着我們實現了傳説中的 " 通用人工智能 "（AGI）？我要説：别急，事情沒那麼簡單。

讓我告訴你一個有趣的現象：在即将發布的 ARC-AGI-2 測試中，o3 即使開足馬力，預計得分也就 30 分不到。簡單説，我們在學校考試時，通常會有不同難度的試卷。有基礎題，也有能夠考察學生真正理解能力的綜合題。ARC-AGI-2 測試就像是為人工智能準備的一個特殊 " 考試 "。

這個 " 考試 " 非常有意思。它不是考 AI 背誦了多少知識，而是測試 AI 是否真的具備 " 理解力 " 和 " 思考力 "。打個比方：

普通考試可能會問："1+1=？"

而 ARC-AGI-2 會問類似這樣的問題：" 如果你有一個蘋果，朋友又給你一個蘋果，你該怎麼計算總數？為什麼要這樣計算？如果是梨子呢？"

這種測試特别厲害的地方在于，它考察的是 AI 是否真的 " 懂 "，而不是簡單的 " 記住 "。就像區分一個背題的學生和真正理解知識的學生一樣。

有趣的是，在這個測試中，o3 這個超級厲害的 AI，預計只能得到 30 分左右，而普通人類随随便便就能得 95 分以上。這説明什麼呢？這説明雖然 o3 在某些方面很厲害（比如編程），但在真正理解和思考問題的能力上，還遠遠比不上人類。這就像一個學霸，數學考 100 分，英語也考 100 分，但讓他處理一些生活中的實際問題時，反而不如一個普通人來得得心應手。

這個現象告訴我們什麼？

AI 的 " 智能 " 和人類的 " 智能 " 是不同的

o3 雖然在某些領網域超越了人類，但在通用性方面還遠遠不夠

真正的 AGI 應該具備更全面的能力，而不是只在特定領網域表現出色

所以，這個 ARC-AGI-2 測試就像是一面鏡子，它清楚地告訴我們：AI 現在到底發展到了什麼水平，還有哪些不足需要改進。這對于整個 AI 領網域的發展都非常重要。

看點6. AI 進化史上的裏程碑時刻！

回顧 AI 的發展歷程，從 GPT-3 到 o3 的每一步進展都清晰可見：

GPT-3：ARC-AGI 測試得分為 0

GPT-4：接近 0 分

GPT-4o：達到 5 分

o3：實現重大突破

這短短幾年的進化史，展現了 AI 技術突飛猛進的發展速度。最早的 GPT-3 就像是一個懵懂的學前兒童，在 ARC-AGI 這個專門考驗 AI 真實理解力的測試中，完全無法應對，拿了個令人尴尬的零分。這個階段的 AI 雖然已經能和人類對話，但在真正需要深度思考的問題面前卻顯得束手無策。

當 GPT-4 登場時，AI 界迎來了第一縷曙光。它在測試中雖然只取得了接近于零的成績，但這微弱的進步卻讓研究人員看到了希望。這就像一個孩子終于邁出了蹒跚的第一步，雖然還很不穩當，卻預示着更大的突破即将到來。GPT-4o 的出現則标志着 AI 開始真正具備了初步的推理能力。5 分的成績看似微不足道，但卻代表着質的飛躍。

而今天，o3 的橫空出世徹底改寫了 AI 的歷史進程。這種進步就像人類從會走路到會跑步，再到會開車，最後直接會飛一樣！而且，這個進步主要體現在兩個核心能力上：

知識儲備更強大了：就像給大腦裝了個超級硬碟

知識運用更靈活了：不僅會背，還會用，還能創新！

看點 7. o3 的開源計劃

現在告訴你一個超級激動人心的消息：OpenAI 計劃在 2025 年推動 o3 的開源復現！這是什麼概念？

這就像把一個超級天才的大腦復制給全世界的科學家研究。通過開源，更多的研究者和開發者将能夠參與到 o3 的改進中來，這可能會催生出更多令人驚喜的創新應用。

同時，研究團隊正在開發全新的 ARC-AGI-2 基準測試，這将為整個 AI 行業制定新的标準。這種标準的提升，将推動 AI 技術向更高水平發展。

看點 8. 想參與改變歷史嗎

最後要説的是，OpenAI 現在開放了紅隊測試申請！這意味着什麼？這意味着你有機會：

成為首批體驗 o3 的人

參與塑造 AI 的未來

為 AI 安全性作出貢獻