今天小編分享的科學經驗:o3來了!編程跻身人類全球前200,破解陶哲軒説難的數學測試,北大校友任泓宇現身直播間,歡迎閲讀。
OpenAI 公布下一代模型,o1 之後直接o3!
" 雙 12" 直播活動最後一天,終于來了個大的,奧特曼本人也再次現身直播間。
o3 相比 o1 最突出的成績,一是頂尖程式員競賽CodeForces分數超過 2700,人類超過這個分數的目前只有不到 200 個。
二是在為 AGI 準備的測試ARC-AGI上分數從 32% 躍升到了 75.7%、87.5%。
為什麼有兩個成績呢?
因為 o3 支持低思考程度和高思考程度兩種設定,高思考程度花費的算力(橫軸)也直接拉滿。
ARC-AGI 是 Keras 之父 Fran ç ois Chollet 發起的測試基準,典型題目為圖形邏輯推理。
另一項測試是号稱最難數學測試的EpochAI Frontier Math,包含最新未公開前沿題目。
此前陶哲軒對這項測試的第一印象是 " 可能難住 AI 好幾年 "。
o3 在測試中比之前 SOTA 從 2 分提升到 25 分。
人類專業數學家解決其中一道題目也要花費數小時到數天,現在 o3 只需要思考幾分鍾了。
這次直播還公布了o3-mini,支持低中高三種思考程度設定。
主要展示了代碼能力,低設定下 o3-mini 和 o1-mini 差不多,中高設定已經超過了 o1 正式版。
參與研究的北大校友任泓宇,現場展示了 o3-mini 的編程能力。
他使用了特殊版本的 ChatGPT,稱為 ChatGPT α。
任務如下:
寫一個 Python 腳本,在本地為一個帶有大文本框的 HTML 檔案啓動伺服器。當我在該框中輸入文本并按下提交時,它應該将該代碼請求發送到 OpenAl o3-mini API ,使用 medium reasoning_effort ,獲取生成的代碼,将其保存到桌面上的臨時檔案中,然後在新的 Python 終端中執行該檔案。還有一些細節:
可以在 ~/api_key 中找到我的 API 密鑰
請在向 API 的請求中添加一些額外的提示,指定它只應返回沒有任何格式或 Markdown 的原始代碼
你将在 Mac 筆記型電腦環境運行
o3-mini 的思考過程用了 38 秒,然後代碼秒出,一次運行成功。
這個演示可能不太直觀,但是看得沒去現場的另一位 OpenAI 研究員 Aidan Clark 直出汗。
總結一下,就是 o3-mini 用 38 秒給自己寫了一個 UI,通過 API 調用 " 自己 "。
後續演示中,任泓宇要求 o3-mini 在這個 UI 中編寫并執行一個腳本,來評估 " 它自己 " 在低思考程度下、在 GPQA 數據集上的表現。
腳本正确運行了評估,返回結果數值 61.62%,與正式評估結果基本一致。
是不是有一點科幻的感覺了。
可惜呐~ o3 和 o3-mini 目前都是早期預覽狀态,只給看不給玩。
安全研究者可以在 OpenAI 官網申請早期訪問權限。
北大校友、GPT-4o 核心開發者現身直播間
這場直播中另外值得關注的,就是新出場的北大校友任泓宇了(最左邊)。
他去年剛加入 OpenAI 擔任研究科學家,主要負責語言模型訓練,是 GPT-4o 的核心開發者、GPT-Next 項目組成員。
直播中最新透露,九月份的 o1-mini 他也有參與,證實了此前傳聞中 o1-mini 主要由三位華人負責(另兩位是 Kevin Lu 和 Jiahui Yu)。
任泓宇博士畢業于斯坦福大學。加入 OpenAI 之前,他在 Apple、Google、NVIDIA 和 Microsoft 有大量研究實習經歷。
One More Thing
笑死,最後一天頂着聖誕帽的 " 青蛙 " 直接被擺到了最前面:
其實,之前每一場它們都在,不過是被擺在了後面的架子上,而且數量随直播天數增加。
昨天是直播第 11 天,聖誕帽 " 青蛙 " 是醬嬸兒的:
你數出來有多少聖誕 " 青蛙 " 了嗎?
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>