超級推理模型正面對壘：谷歌版o1發布次日，OpenAI o1下一代o3登場

今天小編分享的互聯網經驗：超級推理模型正面對壘：谷歌版o1發布次日，OpenAI o1下一代o3登場，歡迎閲讀。

本文作者：李丹

來源：硬 AI

聖誕節前，人工智能巨頭上演了一場精彩的推理模型攻防戰。谷歌和 OpenAI 正面對壘，谷歌剛發布自家的先進推理模型挑戰 OpenAI 的 o1，第二天，OpenAI 就推出了更新版的最強推理模型 o3。

美東時間 12 月 20 日周五，在為期 12 個工作日的線上新品發布活動最後一日，OpenAI 宣布了 " 壓軸大作 "：o1 的下一代模型 o3，而且一開始就要推出兩個版本，一個正式的 o3，還有一個相對較小的精簡版 o3-mini。

OpenAI 的 CEO Sam Altman 在直播中提到，OpenAI 本次 12 日的活動第一天官宣了上線正式版 o1、所謂滿血 o1。活動最後一天又有 o3 亮相，首尾都由介紹推理模型呼應，也算是一種精心設計。

邏輯上説，o1 的下一代應該命名為 o2，至于為什麼新模型叫 o3，之前媒體稱，OpenAI 是為了避免和名為 O2 的英國電信服務商衝突。Altman 也确認了這點，説出于對 O2 的尊敬，并沒有起同樣的名字。

直播中，Altman 稱 o3 是 " 一個非常、非常聰明的模型 "。OpenAi 的評估結果也顯示，無論在軟體工程、編寫代碼，還是競賽數學、掌握人類博士級别的自然科學知識能力方面，o3 都明顯高出 o1 一籌。同時測試顯示，o3 在 OpenAI 實現通用人工智能（AGI）這一奮鬥目标上取得了突破，最高的測試成績達到了類人水平。

o3 軟體工程測試準确率比 o1 高近 47% 競賽數學高 15% 人類博士專家級生化物高近 13%

今年 9 月，OpenAI 發布 o1 的預覽版 o1 preview 時稱，o1 是第一個具備真正通用推理能力的大模型，它的核心能力推理在測試化學、物理和生物學專業知識的基準 GPQA-diamond 上得到了充分體現。據 OpenAI 評估，o1 在該測試中全面超過了人類博士專家，準确率達到 78.3%，而人類專家的得分為 69.7%。

本周五的直播中，OpenAI 展示了 o3 的測評表現：

根據 OpenAI8 月推出的 SWE-bench Verified 代碼生成評估基準，在軟體工程的能力測評中，o3 的準确度得分 71.7，即準确率 71.7%，遠超得分 48.9 的 o1 和得分 41.3 的 o1 preview。也就是説，o3 的準确率比 o1 正式版高将近 47%，比 o1 預覽版高将近 74%。

在競争性編程網站 Codeforces 的競争性代碼測評中，o3 取得 2727 的 Elo 評分，o1 評分 1891，o1 preview 評分 1258。這個測評結果顯示，競争性代碼方面，o3 的評分比 o1 正式版高 44%，是 o1 預覽版的兩倍多。

經過 2024 年 AIME 數學競賽的題目測試，o3 的準确度得分為 96.7、即準确率 96.7%，o1 和 o1 preview 分别得分 83.8 和 56.7。從競賽數學的角度看，o3 的準确率比 o1 正式版高 15%，比 o1 預覽版高近 71%。

以人類博士專家的測試考驗，在測試化學、物理和生物學專業知識的基準 GPQA-diamond 上，o3 的準确度得分為 87.7，即準确率 87.7%，o1 和 o1 preview 分别得分 78.0 和 78.3。o3 的準确率比 o1 高将近 13%，比 o1 預覽版高 12%。

邁向類人智能取得突破 AGI 相關測試最佳成績達到人類水平

除了以上和 o1 對比的編碼、數學、自然科學測評結果，OpenAI 周五還展示了，o3 的推理能力已經更加接近實現 AGI。

OpenAI 對 o1 和 o3 都進行了名為 ARC-AGI 的測試。ARC-AGI 是一項旨在評估 AI 系統是否能有效在其訓練數據之外獲得新技能的測試，運用半私有評估集驗證的測評結果。

下圖可見，以 100% 為最高分的 ARC-AGI 評估結果顯示，o1 的得分在 25% 到 32%，而 o3 的最低成績為 75.7%，最高成績為 87.5%。從這個結果看，o3 的最佳成績超過了标志着達到人類水平的門檻 85%。

創始 ARC-AGI 标準的前谷歌高級工程師、AI 研究員 Fran ç ois Chollet 表示，OpenAI 這些推理模型在 AGI 測試中取得進步是 " 穩健的 "。

Chollet 周五在社交媒體 X 發帖，公布了同 OpenAI 合作進行的 ARC-AGI 結果，稱 " 我們相信這代表了讓 AI 适應新任務的重大突破。"

Chollet 解釋説，在低計算模式下、即計算中每個任務 20 美元的半私人評估中，o3 的得分為 75.7%，在高計算模式下、即每個任務數千美元的評估中，o3 的得分為 87.5%。它不僅僅是蠻力，它是新領網域的功能，需要科學領網域認真關注。

OpenAI 計劃明年初發布 o3 可能一段時間内都不會面向大眾上線

雖然 o3 的測評看上去表現驚豔，但 OpenAI 應該不會很快面向大眾上線這款新的超級推理模型。

從本周五開始，OpenAI 允許安全研究人員可以注冊訪問 o3 和 o3-mini 的預覽。OpenAI 的一名發言人本周五稱，OpenAI 計劃明年初正式發布這些新的 o3 模型。

周五的直播中，Altman 暗示，o3 系列可能在一段時間内都不會向普通大眾推廣使用。因為他説，在 OpenAI 正式發布新的推理模型之前，他更希望有一個聯邦政府的測試框架，指導監控和減輕此類模型的風險。Altman 説，

在 OpenAI 發布 o3 之前，" 應該有某種聯邦測試框架，説明我們最感興趣的是監控和緩解危害，類似于這裏有一組測試，在你發布它之前，你必須能夠證明，這種模型在這些方面是安全的，就像你對一種新藥或一架新飛機或其他什麼的證明一樣。"

本周四，谷歌宣布推出全新的測試模型——Gemini 2.0 Flash Thinking。它使用了類似 o1 模型的慢思維思考方式，可以深度可視化展示整個思維鏈過程，尤其是在執行數學、編程等復雜問題方面。

相比 o1，Gemini 2.0 Flash Thinking 的最大差别是，讓用户能看到一步一步推理的過程，更清晰、更透明地了解模型如何得出結論。它剛亮相就登上了 Chatbot Arena 大模型評估的榜首。不過，谷歌的這一新模型還處于實驗性階段，只是一個早期版本。