大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科技

OpenAI直播最後一天放出“王炸”:下一代推理模型o3亮相!

2024-12-21 简体 HK SG TW

今天小編分享的科技經驗:OpenAI直播最後一天放出“王炸”:下一代推理模型o3亮相!,歡迎閱讀。

财聯社 12 月 21 日訊(編輯 潇湘)OpenAI 将其最為重要的尖端產品,放在了為期 12 天的技術分享直播活動的最後一天!

周五,OpenAI 發布了下一代的推理模型 o3,這是今年早些時候發布的 o1 推理模型的更新版本。更準确地說,o3 是一個模型系列——就像 o1 一樣,同時有 o3 和 o3-mini 兩個版本,後者是一款更小的精簡版模型,針對特定任務進行了微調。

OpenAI 聲稱,至少在某些條件下,o3 模型可以接近實現 AGI。

AGI 是 " 通用人工智能 " ( artificial general intelligence ) 的縮寫,泛指能完成人類所能完成的任何任務的人工智能。OpenAI 對此有着自己的定義:" 在最具經濟價值的工作上勝過人類的高度自主系統 "。

實現 AGI 将是一個大膽的宣言。對于 OpenAI 來說,其背後也将具有現實意義。根據 OpenAI 與其親密合作夥伴和投資方微軟的協定條款,一旦 OpenAI 達到 AGI,就沒有義務再讓微軟使用其最先進的技術 ( 即那些符合 OpenAI AGI 定義的技術 ) 。

OpenAI 首席執行官山姆 · 奧爾特曼 ( Sam Altman ) 介紹稱,OpenAI 計劃在 1 月底前正式推出 o3 mini,之後推出完整版的 o3。該公司期待更強大的大型語言模型可以超越現有模型,吸引新的投資和用戶。

OpenAI 在一篇博客文章中表示,o1 模型已經能夠推理復雜的任務,與以前的科學、編碼和數學模型相比,它能解決更具挑戰性的問題。而 OpenAI 新推出的 o3 和 o3 mini 模型目前正在進行内部安全測試,它們将比之前推出的 o1 模型更加強大。

OpenAI 兩年前發布了 ChatGPT,拉開了 AI 軍備競賽的序幕。ChatGPT 是一款聊天機器人,最初由版本為 GPT-3.5 的大型語言模型驅動。OpenAI 随後在 2023 年推出了 GPT-4,并稱其更準确、更具創造性。最近,OpenAI 又推出了其首個推理模型 o1。

該公司發言人表示,OpenAI 決定不将下一代新模型命名為 o2," 是出于對同名英國電信運營商 o2 的尊重 "。奧爾特曼當天在直播中也調侃稱," 按照 OpenAI 非常非常不擅長命名的偉大傳統,它将被命名為 o3。"

o3 有多強大?

那麼,o3 具體的表現究竟能有多強大呢?

根據 OpenAI 的介紹,o3 模型在 ARC-AGI 基準上獲得了破紀錄的分數。ARC-AGI 由 Keras 之父 Fran ç ois Chollet 開發,主要是通過圖形邏輯推理來測試模型的推理能力。以 100% 為最高分的 ARC-AGI 評估結果顯示,在低計算場景中,o3 得分為 75.7%,而在高計算測試中,它達到了 87.5%。

這标志着,o3 的最佳成績超過了标志着達到人類水平的門檻 85%。作為對比,目前開放的 o1 模型的得分僅在 25% 到 32% 之間。o3 的表現幾乎是 o1 的逾三倍。

在其他基準測試中,o3 也明顯脫穎而出。

在衡量編程能力的 Codeforces Elo 評分中,o3 取得了 2727 的 Elo 評分,而 o1 評分僅為 1891。事實上,o3 mini 在中等推理時間模式的表現也已足以超越 o1。

在 OpenAI 于 8 月推出的 SWE-bench Verified 代碼生成評估基準中,o3 的準确率為 71.7%,比 o1 高出了 22.8 個百分點。

o3 還在 2024 年美國 AIME數學競賽中取得了 96.7% 準确率的高分,只缺了一道題,并在 GPQA Diamond ( 一套研究生水平的生物、物理和化學試題 ) 中取得了 87.7% 準确率的高分。

尤為值得一提的是,o3 在 EpochAI 的 "FrontierMath" 基準測試中創造了新紀錄,解決了 25.2% 的問題——在該項測試中沒有其他模型能超過 2%。

Epoch AI 此前聯合六十餘位全世界的數學家,其中包括教授、IMO 命題人、菲爾茲獎得主,共同推出了全新的數學基準 FrontierMath。這些數學問題從奧賽難度到當今的數學前沿,包含了目前數學研究的所有主要分支——從數論和實數分析中的計算密集型問題到代數幾何和群論中的抽象問題。

行業競争與風險

毫無疑問,o3 模型在上述測試中的表現,足以令人感到驚豔。無論在軟體工程、編寫代碼,還是競賽數學、掌握人類博士級别的自然科學知識能力方面,o3 都明顯高出 o1 一籌。

OpenAI 總裁 Greg Brockman 表示," 我們最新的推理模型 o3 是一個突破,在我們最困難的基準上有了階躍函數的改進。我們現在開始安全測試和紅隊演練。"

而邁向類人智能的大跨步突破,顯然也會引發一些人士對 AI 安全性的擔心。

風險可能确實存在。人工智能安全測試人員發現,與傳統的 " 非推理 " 模型相比,o1 的推理能力便已使其試圖欺騙人類用戶的比例更高,而在這方面,Meta、Anthropic 和谷歌的領先人工智能模型也是如此。

o3 試圖欺騙用戶的比例可能比它的前身更高;一旦未來 OpenAI 的紅隊測試結果出爐,人們或許便能知道具體情況。奧爾特曼對此也表示,在 OpenAI 發布新的推理模型之前,他更希望有一個聯邦測試框架來指導監控和降低這些模型的風險。

在公開發布 o3 模型之前,OpenAI 也将開放外部研究人員測試 o3 模型的申請流程,申請将于 1 月 10 日截止。

近期,在 OpenAI 首批推理模型 o1 發布之後,一些該公司的主要競争對手也已紛紛推出了推理模型。在本月早些時候,谷歌就發布了其旗艦模型 Gemini 的新版本,據稱其速度是上一代模型的兩倍,可以 " 思考、記憶、計劃,甚至代表你采取行動 "。Meta 首席執行官馬克 · 扎克伯格最近也透露,計劃于明年推出 Llama 4。

這些動向表明人工智能領網域的競争目前正日益激烈,各方都在努力創造能夠解決復雜問題的更為智能的模型。

而OpenAI 周五 o3 模型的最新亮相,也為其為期 12 天的直播產品發布會畫上了圓滿句号。在早前的直播中,這家初創公司推出了更昂貴的新 ChatGPT Pro 訂閱選項 ( 每月 200 月 ) ,并正式對外推出了 AI 視頻生成模型 Sora Turbo 以及其他新產品。ChatGPT 搜索功能也全面更新,新增地圖集成、實時搜索等功能,向所有用戶開放。

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們