大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 互聯網

超級推理模型正面對壘:谷歌版o1發布次日,OpenAI o1下一代o3登場

2024-12-21 简体 HK SG TW

今天小編分享的互聯網經驗:超級推理模型正面對壘:谷歌版o1發布次日,OpenAI o1下一代o3登場,歡迎閱讀。

本文作者:李丹

來源:硬 AI

聖誕節前,人工智能巨頭上演了一場精彩的推理模型攻防戰。谷歌和 OpenAI 正面對壘,谷歌剛發布自家的先進推理模型挑戰 OpenAI 的 o1,第二天,OpenAI 就推出了更新版的最強推理模型 o3。

美東時間 12 月 20 日周五,在為期 12 個工作日的線上新品發布活動最後一日,OpenAI 宣布了 " 壓軸大作 ":o1 的下一代模型 o3,而且一開始就要推出兩個版本,一個正式的 o3,還有一個相對較小的精簡版 o3-mini。

OpenAI 的 CEO Sam Altman 在直播中提到,OpenAI 本次 12 日的活動第一天官宣了上線正式版 o1、所謂滿血 o1。活動最後一天又有 o3 亮相,首尾都由介紹推理模型呼應,也算是一種精心設計。

邏輯上說,o1 的下一代應該命名為 o2,至于為什麼新模型叫 o3,之前媒體稱,OpenAI 是為了避免和名為 O2 的英國電信服務商衝突。Altman 也确認了這點,說出于對 O2 的尊敬,并沒有起同樣的名字。

直播中,Altman 稱 o3 是 " 一個非常、非常聰明的模型 "。OpenAi 的評估結果也顯示,無論在軟體工程、編寫代碼,還是競賽數學、掌握人類博士級别的自然科學知識能力方面,o3 都明顯高出 o1 一籌。同時測試顯示,o3 在 OpenAI 實現通用人工智能(AGI)這一奮鬥目标上取得了突破,最高的測試成績達到了類人水平。

o3 軟體工程測試準确率比 o1 高近 47% 競賽數學高 15% 人類博士專家級生化物高近 13%

今年 9 月,OpenAI 發布 o1 的預覽版 o1 preview 時稱,o1 是第一個具備真正通用推理能力的大模型,它的核心能力推理在測試化學、物理和生物學專業知識的基準 GPQA-diamond 上得到了充分體現。據 OpenAI 評估,o1 在該測試中全面超過了人類博士專家,準确率達到 78.3%,而人類專家的得分為 69.7%。

本周五的直播中,OpenAI 展示了 o3 的測評表現:

根據 OpenAI8 月推出的 SWE-bench Verified 代碼生成評估基準,在軟體工程的能力測評中,o3 的準确度得分 71.7,即準确率 71.7%,遠超得分 48.9 的 o1 和得分 41.3 的 o1 preview。也就是說,o3 的準确率比 o1 正式版高将近 47%,比 o1 預覽版高将近 74%。

在競争性編程網站 Codeforces 的競争性代碼測評中,o3 取得 2727 的 Elo 評分,o1 評分 1891,o1 preview 評分 1258。這個測評結果顯示,競争性代碼方面,o3 的評分比 o1 正式版高 44%,是 o1 預覽版的兩倍多。

經過 2024 年 AIME 數學競賽的題目測試,o3 的準确度得分為 96.7、即準确率 96.7%,o1 和 o1 preview 分别得分 83.8 和 56.7。從競賽數學的角度看,o3 的準确率比 o1 正式版高 15%,比 o1 預覽版高近 71%。

以人類博士專家的測試考驗,在測試化學、物理和生物學專業知識的基準 GPQA-diamond 上,o3 的準确度得分為 87.7,即準确率 87.7%,o1 和 o1 preview 分别得分 78.0 和 78.3。o3 的準确率比 o1 高将近 13%,比 o1 預覽版高 12%。

邁向類人智能取得突破 AGI 相關測試最佳成績達到人類水平

除了以上和 o1 對比的編碼、數學、自然科學測評結果,OpenAI 周五還展示了,o3 的推理能力已經更加接近實現 AGI。

OpenAI 對 o1 和 o3 都進行了名為 ARC-AGI 的測試。ARC-AGI 是一項旨在評估 AI 系統是否能有效在其訓練數據之外獲得新技能的測試,運用半私有評估集驗證的測評結果。

下圖可見,以 100% 為最高分的 ARC-AGI 評估結果顯示,o1 的得分在 25% 到 32%,而 o3 的最低成績為 75.7%,最高成績為 87.5%。從這個結果看,o3 的最佳成績超過了标志着達到人類水平的門檻 85%。

創始 ARC-AGI 标準的前谷歌高級工程師、AI 研究員 Fran ç ois Chollet 表示,OpenAI 這些推理模型在 AGI 測試中取得進步是 " 穩健的 "。

Chollet 周五在社交媒體 X 發帖,公布了同 OpenAI 合作進行的 ARC-AGI 結果,稱 " 我們相信這代表了讓 AI 适應新任務的重大突破。"

Chollet 解釋說,在低計算模式下、即計算中每個任務 20 美元的半私人評估中,o3 的得分為 75.7%,在高計算模式下、即每個任務數千美元的評估中,o3 的得分為 87.5%。它不僅僅是蠻力,它是新領網域的功能,需要科學領網域認真關注。

OpenAI 計劃明年初發布 o3 可能一段時間内都不會面向大眾上線

雖然 o3 的測評看上去表現驚豔,但 OpenAI 應該不會很快面向大眾上線這款新的超級推理模型。

從本周五開始,OpenAI 允許安全研究人員可以注冊訪問 o3 和 o3-mini 的預覽。OpenAI 的一名發言人本周五稱,OpenAI 計劃明年初正式發布這些新的 o3 模型。

周五的直播中,Altman 暗示,o3 系列可能在一段時間内都不會向普通大眾推廣使用。因為他說,在 OpenAI 正式發布新的推理模型之前,他更希望有一個聯邦政府的測試框架,指導監控和減輕此類模型的風險。Altman 說,

在 OpenAI 發布 o3 之前," 應該有某種聯邦測試框架,說明我們最感興趣的是監控和緩解危害,類似于這裡有一組測試,在你發布它之前,你必須能夠證明,這種模型在這些方面是安全的,就像你對一種新藥或一架新飛機或其他什麼的證明一樣。"

本周四,谷歌宣布推出全新的測試模型——Gemini 2.0 Flash Thinking。它使用了類似 o1 模型的慢思維思考方式,可以深度可視化展示整個思維鏈過程,尤其是在執行數學、編程等復雜問題方面。

相比 o1,Gemini 2.0 Flash Thinking 的最大差别是,讓用戶能看到一步一步推理的過程,更清晰、更透明地了解模型如何得出結論。它剛亮相就登上了 Chatbot Arena 大模型評估的榜首。不過,谷歌的這一新模型還處于實驗性階段,只是一個早期版本。

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們