大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 教育

OpenAI第12天:新品o3發布會的8大看點,第5個讓全球都坐不住了

2024-12-22 简体 HK SG TW

今天小編分享的教育經驗:OpenAI第12天:新品o3發布會的8大看點,第5個讓全球都坐不住了,歡迎閱讀。

The following article is from AI 深度研究員 Author AI 工作坊

作者 |  AI 工作坊

來源   | AI 深度研究員  管理智慧

咨詢合作 | 13699120588

文章僅代表作者本人觀點

就在剛剛,OpenAI 第 12 天發布會上的一則重磅消息讓全球科技圈沸騰:新一代 AI 模型 o3 及其 o3-mini 正式亮相。這不是一場普通的產品發布會,而是一次足以改變 AI 進程的重大事件。

讓全球為之矚目的是,o3 展現出了超越前代的驚人能力。在編程領網域,它展示出了媲美頂級程式員的實力;在科學推理方面,它創造了多項新紀錄;更令人期待的是,它的精簡版 o3-mini 将在 1 月底向公眾開放,這意味着這項革命性技術很快就将走入普通人的生活。

究竟 o3 有哪些突破性的創新?它又将如何改變我們的未來?讓我們一起來看看這場發布會上的八大看點,特别是第五點,它可能會重新影響我們對人工智能的所有認知。

看點 1. 打破人類極限的 AI 天才

很多人都在問:o3 到底有多強?讓我用最直觀的方式告訴你——它簡直強得離譜!這個全新的 AI 模型在各個領網域都展現出了驚人的實力(如下圖),其中最引人注目的是它在編程領網域的表現。

(多個關鍵領網域測試,特别是在編程和數學推理能力)

在編程界,有一個叫 CodeForces 的平台,這就像是程式員的奧林匹克競賽。o3 在這個平台上的預期評分超過 2700 分!對普通人來說,這個數字可能沒什麼感覺,但請聽我說完:一個普通程式員,可能努力一輩子都達不到 2000 分。而 2700 分,這已經是世界頂尖水平了!

不僅是編程,o3 在 GPQA 測試中拿到了 87.7% 的鑽石級成績。這個成績比谷歌的 Gemini Flash 2 高出了整整 25.7 個百分點!要知道,在 AI 領網域,1% 的提升都是非常困難的,而 o3 一下子領先這麼多,簡直就是降維打擊!這種差距就像是高考狀元和普通考生之間的差距,簡直是降維打擊。

而在軟體工程領網域,o3 創下了 71.7% 的新紀錄。對于一個 AI 來說,這意味着它已經能夠理解、設計和實現復雜的軟體系統。這就像一個機器人不僅會做菜,還能設計和經營一整個米其林餐廳!

看點 2. AI 超越傳統思維能力

o3 最與眾不同的地方在于它的 " 思考方式 "。傳統的 AI 就像是一個超級資料庫,而 o3 更像是一個能夠獨立思考的大腦。它采用了一種叫做 " 深度學習驅動的程式搜索系統 " 的技術,這種技術讓它能夠像人類一樣進行創造性思考。

說到這裡,我不得不分享一個有趣的類比:傳統 AI 就像是一個死記硬背的學生,考試時只會照搬課本上的答案。而 o3 則像是一個真正理解知識的學霸,能夠融會貫通,舉一反三。它使用了類似于 AlphaZero 的蒙特卡羅樹搜索方法,這使得它能夠像人類一樣進行創造性思考。

比如說,當面對一個從未見過的問題時:

傳統 AI 會像翻字典一樣,在數據庫裡尋找類似的答案

而 o3 會像人類一樣,先分析問題的本質,然後一步步推理出解決方案

這種思維方式的突破,讓 o3 能夠解決更多復雜和創新性的問題。它不僅能回答 " 是什麼 ",還能解釋 " 為什麼 ",甚至能提出 " 如何更好 "。這種能力的突破,讓它能夠應對各種前所未見的挑戰。

看點3. 令人咋舌的高昂計算成本

不過,這種強大的能力也帶來了巨大的計算成本。說到 o3 的成本,很多人都被吓到了:解決一個復雜問題可能需要花費數千美元,消耗數千萬個計算标記。但我要告訴你一個不一樣的視角。

讓我們做個簡單的計算:

一個高級程式員的年薪可能在 50 萬以上

解決一個復雜問題可能需要幾周甚至幾個月

而 o3 可能幾個小時就能搞定

從這個角度來看,o3 的成本其實是非常劃算的!而且,OpenAI 已經表示,未來代币價格有望下降。這就像當年的計算機,從最初的天價到現在人手一台,o3 的使用成本也會變得越來越親民。

看點 4. 不得不承認的 " 短板 "

o3 也有它的局限性,而且這些局限性非常有趣,甚至有點 " 可愛 "。它最大的局限在于缺乏與現實世界的直接互動能力。

首先,它有點像一個 " 理論家 "。雖然能給出完美的解決方案,但就是沒法親自動手做。這讓我想起了那些在實驗室裡指點江山的科學家,能設計出完美的實驗方案,但可能連試管都拿不穩。o3 就是這樣,它能告訴你怎麼做,但不能真正 " 動手 " 去做。

更有意思的是,它還離不開 " 人類老師 "。它需要依賴專家标注的思維鏈數據來學習,就像一個永遠長不大的學生,總需要老師在旁邊指導。這一點和圍棋 AI AlphaZero 形成了鮮明對比,AlphaZero 可以通過自我對弈完全自主學習,而 o3 還做不到這一點。

看點5. 距離 " 通用人工智能 " 有多遠?

(AGI 測試:人類是 85%VS o3 是 87.5%,人類完敗)

很多人以為 o3 如此強大,是不是就意味着我們實現了傳說中的 " 通用人工智能 "(AGI)?我要說:别急,事情沒那麼簡單。

讓我告訴你一個有趣的現象:在即将發布的 ARC-AGI-2 測試中,o3 即使開足馬力,預計得分也就 30 分不到。簡單說,我們在學校考試時,通常會有不同難度的試卷。有基礎題,也有能夠考察學生真正理解能力的綜合題。ARC-AGI-2 測試就像是為人工智能準備的一個特殊 " 考試 "。

這個 " 考試 " 非常有意思。它不是考 AI 背誦了多少知識,而是測試 AI 是否真的具備 " 理解力 " 和 " 思考力 "。打個比方:

普通考試可能會問:"1+1=?"

而 ARC-AGI-2 會問類似這樣的問題:" 如果你有一個蘋果,朋友又給你一個蘋果,你該怎麼計算總數?為什麼要這樣計算?如果是梨子呢?"

這種測試特别厲害的地方在于,它考察的是 AI 是否真的 " 懂 ",而不是簡單的 " 記住 "。就像區分一個背題的學生和真正理解知識的學生一樣。

有趣的是,在這個測試中,o3 這個超級厲害的 AI,預計只能得到 30 分左右,而普通人類随随便便就能得 95 分以上。這說明什麼呢?這說明雖然 o3 在某些方面很厲害(比如編程),但在真正理解和思考問題的能力上,還遠遠比不上人類。這就像一個學霸,數學考 100 分,英語也考 100 分,但讓他處理一些生活中的實際問題時,反而不如一個普通人來得得心應手。

這個現象告訴我們什麼?

AI 的 " 智能 " 和人類的 " 智能 " 是不同的

o3 雖然在某些領網域超越了人類,但在通用性方面還遠遠不夠

真正的 AGI 應該具備更全面的能力,而不是只在特定領網域表現出色

所以,這個 ARC-AGI-2 測試就像是一面鏡子,它清楚地告訴我們:AI 現在到底發展到了什麼水平,還有哪些不足需要改進。這對于整個 AI 領網域的發展都非常重要。

看點6. AI 進化史上的裡程碑時刻!

回顧 AI 的發展歷程,從 GPT-3 到 o3 的每一步進展都清晰可見:

GPT-3:ARC-AGI 測試得分為 0

GPT-4:接近 0 分

GPT-4o:達到 5 分

o3:實現重大突破

這短短幾年的進化史,展現了 AI 技術突飛猛進的發展速度。最早的 GPT-3 就像是一個懵懂的學前兒童,在 ARC-AGI 這個專門考驗 AI 真實理解力的測試中,完全無法應對,拿了個令人尴尬的零分。這個階段的 AI 雖然已經能和人類對話,但在真正需要深度思考的問題面前卻顯得束手無策。

當 GPT-4 登場時,AI 界迎來了第一縷曙光。它在測試中雖然只取得了接近于零的成績,但這微弱的進步卻讓研究人員看到了希望。這就像一個孩子終于邁出了蹒跚的第一步,雖然還很不穩當,卻預示着更大的突破即将到來。GPT-4o 的出現則标志着 AI 開始真正具備了初步的推理能力。5 分的成績看似微不足道,但卻代表着質的飛躍。

而今天,o3 的橫空出世徹底改寫了 AI 的歷史進程。這種進步就像人類從會走路到會跑步,再到會開車,最後直接會飛一樣!而且,這個進步主要體現在兩個核心能力上:

知識儲備更強大了:就像給大腦裝了個超級硬碟

知識運用更靈活了:不僅會背,還會用,還能創新!

看點 7. o3 的開源計劃

現在告訴你一個超級激動人心的消息:OpenAI 計劃在 2025 年推動 o3 的開源復現!這是什麼概念?

這就像把一個超級天才的大腦復制給全世界的科學家研究。通過開源,更多的研究者和開發者将能夠參與到 o3 的改進中來,這可能會催生出更多令人驚喜的創新應用。

同時,研究團隊正在開發全新的 ARC-AGI-2 基準測試,這将為整個 AI 行業制定新的标準。這種标準的提升,将推動 AI 技術向更高水平發展。

看點 8. 想參與改變歷史嗎

最後要說的是,OpenAI 現在開放了紅隊測試申請!這意味着什麼?這意味着你有機會:

成為首批體驗 o3 的人

參與塑造 AI 的未來

為 AI 安全性作出貢獻

這就像參與了一場改變人類歷史的偉大實驗,多麼難得的機會啊!

加入鏈接 https://openai.com/index/early-access-for-safety-testing/

寫在最後:

o3 的出現不僅僅是一個新產品的發布,而是整個人類社會向前邁出的一大步。雖然它還不完美,還不是真正的 AGI,但它已經向我們展示了 AI 的無限可能。

未來已來,關鍵是我們如何與之共處,如何利用它來創造更美好的世界。

PS:你對 o3 有什麼想法?歡迎在評論區留言讨論!

原視頻鏈接:https://openai.com/index/early-access-for-safety-testing/

熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們