o3來了！編程跻身人類全球前200，破解陶哲軒説難的數學測試，北大校友任泓宇現身直播間 - 大酷樂

今天小編分享的科學經驗：o3來了！編程跻身人類全球前200，破解陶哲軒説難的數學測試，北大校友任泓宇現身直播間，歡迎閲讀。

OpenAI 公布下一代模型，o1 之後直接o3！

" 雙 12" 直播活動最後一天，終于來了個大的，奧特曼本人也再次現身直播間。

o3 相比 o1 最突出的成績，一是頂尖程式員競賽CodeForces分數超過 2700，人類超過這個分數的目前只有不到 200 個。

二是在為 AGI 準備的測試ARC-AGI上分數從 32% 躍升到了 75.7%、87.5%。

為什麼有兩個成績呢？

因為 o3 支持低思考程度和高思考程度兩種設定，高思考程度花費的算力（橫軸）也直接拉滿。

ARC-AGI 是 Keras 之父 Fran ç ois Chollet 發起的測試基準，典型題目為圖形邏輯推理。

另一項測試是号稱最難數學測試的EpochAI Frontier Math，包含最新未公開前沿題目。

此前陶哲軒對這項測試的第一印象是 " 可能難住 AI 好幾年 "。

o3 在測試中比之前 SOTA 從 2 分提升到 25 分。

人類專業數學家解決其中一道題目也要花費數小時到數天，現在 o3 只需要思考幾分鍾了。

這次直播還公布了o3-mini，支持低中高三種思考程度設定。

主要展示了代碼能力，低設定下 o3-mini 和 o1-mini 差不多，中高設定已經超過了 o1 正式版。

參與研究的北大校友任泓宇，現場展示了 o3-mini 的編程能力。

他使用了特殊版本的 ChatGPT，稱為 ChatGPT α。

任務如下：

寫一個 Python 腳本，在本地為一個帶有大文本框的 HTML 檔案啓動伺服器。當我在該框中輸入文本并按下提交時，它應該将該代碼請求發送到 OpenAl o3-mini API ，使用 medium reasoning_effort ，獲取生成的代碼，将其保存到桌面上的臨時檔案中，然後在新的 Python 終端中執行該檔案。還有一些細節：

可以在 ~/api_key 中找到我的 API 密鑰

請在向 API 的請求中添加一些額外的提示，指定它只應返回沒有任何格式或 Markdown 的原始代碼

你将在 Mac 筆記型電腦環境運行

o3-mini 的思考過程用了 38 秒，然後代碼秒出，一次運行成功。

這個演示可能不太直觀，但是看得沒去現場的另一位 OpenAI 研究員 Aidan Clark 直出汗。

總結一下，就是 o3-mini 用 38 秒給自己寫了一個 UI，通過 API 調用 " 自己 "。

後續演示中，任泓宇要求 o3-mini 在這個 UI 中編寫并執行一個腳本，來評估 " 它自己 " 在低思考程度下、在 GPQA 數據集上的表現。

腳本正确運行了評估，返回結果數值 61.62%，與正式評估結果基本一致。

是不是有一點科幻的感覺了。

可惜呐～ o3 和 o3-mini 目前都是早期預覽狀态，只給看不給玩。

安全研究者可以在 OpenAI 官網申請早期訪問權限。

北大校友、GPT-4o 核心開發者現身直播間

這場直播中另外值得關注的，就是新出場的北大校友任泓宇了（最左邊）。

他去年剛加入 OpenAI 擔任研究科學家，主要負責語言模型訓練，是 GPT-4o 的核心開發者、GPT-Next 項目組成員。

直播中最新透露，九月份的 o1-mini 他也有參與，證實了此前傳聞中 o1-mini 主要由三位華人負責（另兩位是 Kevin Lu 和 Jiahui Yu）。

任泓宇博士畢業于斯坦福大學。加入 OpenAI 之前，他在 Apple、Google、NVIDIA 和 Microsoft 有大量研究實習經歷。

One More Thing

笑死，最後一天頂着聖誕帽的 " 青蛙 " 直接被擺到了最前面：

其實，之前每一場它們都在，不過是被擺在了後面的架子上，而且數量随直播天數增加。

昨天是直播第 11 天，聖誕帽 " 青蛙 " 是醬嬸兒的：

你數出來有多少聖誕 " 青蛙 " 了嗎？

— 完 —

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~

>

熱門排行

分析師狠批特朗普對等關税：坑慘美國消費者且繁綺文 | 2025-04-03
搬運工瞞着家人購買29份“泰康人壽”保單，總郟君昊 | 2025-04-03
娛樂圈“惡毒女配”官宣離婚，一點都不可惜！集玲琳 | 2025-04-03
全新智己 L6 汽車全系搭載 800V 高壓平台、袁曼雁 | 2025-04-03
樂道換人，蔚來轉舵袁曼雁 | 2025-04-03
杜蘭特今夏對留在太陽持開放态度！布克：想和KD 集玲琳 | 2025-04-03
三部門：金融管理部門要會同有關部門加強金融寸飛蘭 | 2025-04-03
貴州茅台：2024年淨賺862億元，2025年增速目标甄正浩 | 2025-04-03
Jeep 全新指南者預告圖亮相：可選混動 / 插混郜萌運 | 2025-04-03
翻身無望！事業婚姻雙失敗，趙薇沉寂4年再曝近郟君昊 | 2025-04-03
高露現身上海虹橋機場黑色外套點綴亮色愛惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：處理器更新為天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懶癌”發病率上升，定期體檢别忽視幸聽楓 | 2023-05-02
宋慧喬獲百想視後韓素希發圖手動加愛心表賁芳蕤 | 2023-05-02
十年了，他們終于要HE！惠惠君 | 2023-05-07
曹操墓，裏面都有啥？衛青柏 | 2023-05-02
中央部署經濟工作，釋放5大信号郜萌運 | 2023-05-02
陳自瑤抱病為愛女做蛋糕慶生，王浩信點贊沒露賁芳蕤 | 2023-05-02
高德上線手機彎道會車預警功能習又夏 | 2023-05-02
高端國產車：軍車血統，目前電動車越野的“天花謝飛揚 | 2023-05-02
這些被抓來做實驗的流浪狗，最終拯救了無數糖集玲琳 | 2023-05-02
等比例長大的童星，李蘭迪算一個郟君昊 | 2023-05-02
信用風險釋放趨緩，結構性風險需重點關注 — 袁曼雁 | 2023-05-02
《雲襄傳》終于抬上來啦，男O女A讓人好上頭！集玲琳 | 2023-05-02
21家A股遊戲公司2022年收入651億今年“遊衛青柏 | 2023-05-04
與周立波夫婦鬧糾紛成老賴，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
普京籤署總統令，批準對俄刑法典相關法條的修集玲琳 | 2023-05-02
中銀證券給予南京銀行增持評級袁曼雁 | 2023-05-03
解除資格！停止一切合作佼昌翰 | 2023-05-02
前董事長被免，天山生物全面進入“中植系”時惠惠君 | 2023-05-02
3699起聯想小新mini主機上架 13代酷睿标壓習又夏 | 2023-05-05
瘋成這樣，怎麼還能被全網吹捧？郜萌運 | 2023-05-02
狂吼11次“讓一下”！交警咆哮開道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收購美國第一共和銀行謝飛揚 | 2023-05-02
台劇赢麻了，又來一部8.9 衛青柏 | 2023-05-02
下降45分，上漲35分！34所自劃線院校復試分數線袁曼雁 | 2023-05-07
事關農村土地承包和農民權益，《農村土地承包郟君昊 | 2023-05-02
"三高"已盯上青少年，做好這件事是關鍵習又夏 | 2023-05-05
五一檔沒一個能打的集玲琳 | 2023-05-05
恐怖韓劇下神壇，這次膽小可入袁曼雁 | 2023-05-05
這劇是不是用ChatGPT寫的呀？惠惠君 | 2023-05-02
性騷擾慣犯，滾出娛樂圈謝飛揚 | 2023-05-05
200户連夜疏散，原因讓人憤怒！“損失超一億”，袁曼雁 | 2023-05-03
48歲何炅自曝已老花眼，黃磊睡前認老，《向往的佼昌翰 | 2023-05-02
一個《長月燼明》倒了，《狐妖》《長相思》《惠惠君 | 2023-05-02
當年輕人開始不随份子錢袁曼雁 | 2023-05-02
張天愛假期曬“酷”存照卷發披肩穿黑色吊嬴覓晴 | 2023-05-02
畢滢用8年時間成功逼宮？曾被傳已婚生子的她，幸聽楓 | 2023-05-03
宋慧喬獲視後首次曬照，拿獎杯笑容温柔郜萌運 | 2023-05-02