今天小編分享的互聯網經驗:超級推理模型正面對壘:谷歌版o1發布次日,OpenAI o1下一代o3登場,歡迎閲讀。
本文作者:李丹
來源:硬 AI
聖誕節前,人工智能巨頭上演了一場精彩的推理模型攻防戰。谷歌和 OpenAI 正面對壘,谷歌剛發布自家的先進推理模型挑戰 OpenAI 的 o1,第二天,OpenAI 就推出了更新版的最強推理模型 o3。
美東時間 12 月 20 日周五,在為期 12 個工作日的線上新品發布活動最後一日,OpenAI 宣布了 " 壓軸大作 ":o1 的下一代模型 o3,而且一開始就要推出兩個版本,一個正式的 o3,還有一個相對較小的精簡版 o3-mini。
OpenAI 的 CEO Sam Altman 在直播中提到,OpenAI 本次 12 日的活動第一天官宣了上線正式版 o1、所謂滿血 o1。活動最後一天又有 o3 亮相,首尾都由介紹推理模型呼應,也算是一種精心設計。
邏輯上説,o1 的下一代應該命名為 o2,至于為什麼新模型叫 o3,之前媒體稱,OpenAI 是為了避免和名為 O2 的英國電信服務商衝突。Altman 也确認了這點,説出于對 O2 的尊敬,并沒有起同樣的名字。
直播中,Altman 稱 o3 是 " 一個非常、非常聰明的模型 "。OpenAi 的評估結果也顯示,無論在軟體工程、編寫代碼,還是競賽數學、掌握人類博士級别的自然科學知識能力方面,o3 都明顯高出 o1 一籌。同時測試顯示,o3 在 OpenAI 實現通用人工智能(AGI)這一奮鬥目标上取得了突破,最高的測試成績達到了類人水平。
o3 軟體工程測試準确率比 o1 高近 47% 競賽數學高 15% 人類博士專家級生化物高近 13%
今年 9 月,OpenAI 發布 o1 的預覽版 o1 preview 時稱,o1 是第一個具備真正通用推理能力的大模型,它的核心能力推理在測試化學、物理和生物學專業知識的基準 GPQA-diamond 上得到了充分體現。據 OpenAI 評估,o1 在該測試中全面超過了人類博士專家,準确率達到 78.3%,而人類專家的得分為 69.7%。
本周五的直播中,OpenAI 展示了 o3 的測評表現:
根據 OpenAI8 月推出的 SWE-bench Verified 代碼生成評估基準,在軟體工程的能力測評中,o3 的準确度得分 71.7,即準确率 71.7%,遠超得分 48.9 的 o1 和得分 41.3 的 o1 preview。也就是説,o3 的準确率比 o1 正式版高将近 47%,比 o1 預覽版高将近 74%。
在競争性編程網站 Codeforces 的競争性代碼測評中,o3 取得 2727 的 Elo 評分,o1 評分 1891,o1 preview 評分 1258。這個測評結果顯示,競争性代碼方面,o3 的評分比 o1 正式版高 44%,是 o1 預覽版的兩倍多。
經過 2024 年 AIME 數學競賽的題目測試,o3 的準确度得分為 96.7、即準确率 96.7%,o1 和 o1 preview 分别得分 83.8 和 56.7。從競賽數學的角度看,o3 的準确率比 o1 正式版高 15%,比 o1 預覽版高近 71%。
以人類博士專家的測試考驗,在測試化學、物理和生物學專業知識的基準 GPQA-diamond 上,o3 的準确度得分為 87.7,即準确率 87.7%,o1 和 o1 preview 分别得分 78.0 和 78.3。o3 的準确率比 o1 高将近 13%,比 o1 預覽版高 12%。
邁向類人智能取得突破 AGI 相關測試最佳成績達到人類水平
除了以上和 o1 對比的編碼、數學、自然科學測評結果,OpenAI 周五還展示了,o3 的推理能力已經更加接近實現 AGI。
OpenAI 對 o1 和 o3 都進行了名為 ARC-AGI 的測試。ARC-AGI 是一項旨在評估 AI 系統是否能有效在其訓練數據之外獲得新技能的測試,運用半私有評估集驗證的測評結果。
下圖可見,以 100% 為最高分的 ARC-AGI 評估結果顯示,o1 的得分在 25% 到 32%,而 o3 的最低成績為 75.7%,最高成績為 87.5%。從這個結果看,o3 的最佳成績超過了标志着達到人類水平的門檻 85%。
創始 ARC-AGI 标準的前谷歌高級工程師、AI 研究員 Fran ç ois Chollet 表示,OpenAI 這些推理模型在 AGI 測試中取得進步是 " 穩健的 "。
Chollet 周五在社交媒體 X 發帖,公布了同 OpenAI 合作進行的 ARC-AGI 結果,稱 " 我們相信這代表了讓 AI 适應新任務的重大突破。"
Chollet 解釋説,在低計算模式下、即計算中每個任務 20 美元的半私人評估中,o3 的得分為 75.7%,在高計算模式下、即每個任務數千美元的評估中,o3 的得分為 87.5%。它不僅僅是蠻力,它是新領網域的功能,需要科學領網域認真關注。
OpenAI 計劃明年初發布 o3 可能一段時間内都不會面向大眾上線
雖然 o3 的測評看上去表現驚豔,但 OpenAI 應該不會很快面向大眾上線這款新的超級推理模型。
從本周五開始,OpenAI 允許安全研究人員可以注冊訪問 o3 和 o3-mini 的預覽。OpenAI 的一名發言人本周五稱,OpenAI 計劃明年初正式發布這些新的 o3 模型。
周五的直播中,Altman 暗示,o3 系列可能在一段時間内都不會向普通大眾推廣使用。因為他説,在 OpenAI 正式發布新的推理模型之前,他更希望有一個聯邦政府的測試框架,指導監控和減輕此類模型的風險。Altman 説,
在 OpenAI 發布 o3 之前," 應該有某種聯邦測試框架,説明我們最感興趣的是監控和緩解危害,類似于這裏有一組測試,在你發布它之前,你必須能夠證明,這種模型在這些方面是安全的,就像你對一種新藥或一架新飛機或其他什麼的證明一樣。"
本周四,谷歌宣布推出全新的測試模型——Gemini 2.0 Flash Thinking。它使用了類似 o1 模型的慢思維思考方式,可以深度可視化展示整個思維鏈過程,尤其是在執行數學、編程等復雜問題方面。
相比 o1,Gemini 2.0 Flash Thinking 的最大差别是,讓用户能看到一步一步推理的過程,更清晰、更透明地了解模型如何得出結論。它剛亮相就登上了 Chatbot Arena 大模型評估的榜首。不過,谷歌的這一新模型還處于實驗性階段,只是一個早期版本。