今天小編分享的科技經驗:OpenAI草莓模型深夜突襲!理化生達博士生水平,比GPT-4o強多了,ChatGPT可用,歡迎閲讀。
作者 | 香草
編輯 | 李水青
智東西 9 月 13 日報道,今日凌晨,OpenAI 突然發布傳説中" 草莓 " 模型的部分預覽版——OpenAI o1 預覽版。這是一系列全新 AI 模型,能推理復雜的任務,解決比以前科學、編程、數學模型更難的問題。
▲ OpenAI 發布 o1 模型
OpenAI o1 是全新系列 AI 模型的第一款。與以往模型不同的是,它擁有進化的推理能力,會在回答前進行缜密思考,生成一個長長的内部思維鏈,在競争性編程問題上排名第 89 位,在美國數學奧林匹克預選資格賽中排名前 500,在物理、生物、化學問題的基準測試中準确度超過了人類博士水平!
新發布的另一款o1 mini是一款更快、更小的模型,使用與 o1 類似的框架進行訓練。o1 mini 擅長理工學科,尤其是數學和編程,其成本比 o1 預覽版便宜 80%。
這兩款模型被 OpenAI 視為復雜推理任務的重大進步,因此被命名為 o1,重置計數器,而非作為 GPT 系列的延續。
不過,推理增強版的 o1 模型,還是在 9.9 和 9.11 比大小這種 " 高階問題 " 上慘敗。
▲ o1 模型回答 " 比大小 " 問題
已經離開 OpenAI 創業的 OpenAI 創始成員、前特斯拉 AI 高級總監 Andrej Karpathy 今早發文吐槽:"o1-mini 一直拒絕為我解決黎曼假設。模型懶惰仍然是一個主要的問題 "
▲ Andrej Karpathy 吐槽 o1 mini" 懶惰 "
OpenAI 已對 o1 預覽版進行嚴格測試及評估,确保該模型可以安全發布。ChatGPT 的 Plus 和 Team 用户即日可選用兩款新模型,Tier 5 級開發者亦率先獲得新模型的 API 訪問權限。
OpenAI 還公布了 o1 模型背後的核心團隊成員,其中基礎貢獻成員 21 名,包括已經離職創業的前 OpenAI 首席科學家 Ilya Sutskever,團隊負責人有 7 名。
一、MMLU 媲美人類專家,編程能力8倍殺GPT-4o
與此前曝料的一樣,OpenAI o1 被訓練成為會花更多時間思考問題,而後再作出反應的模型。它在回答之前會先思考,產生一個很長的内部思路鏈,并且能像人類一樣完善自己的思維過程,不斷嘗試新的策略并認識到自己的錯誤。
作為早期預覽模型,OpenAI o1 目前只支持文本對話,不具備浏覽網頁獲取信息、上傳檔案和圖片等多模态能力。
性能方面,OpenAI o1 在物理、化學和生物學等基準任務上的表現與博士生相當,并且在數學和編程方面表現出色。
▲ OpenAI o1 在數學、編程上的測評基準
在國際數學奧林匹克(IMO)資格考試中,OpenAI 的上一代模型 GPT-4o 正确率為 13%,而 OpenAI o1 則達到 83%。在編程比賽 Codeforces 中,OpenAI o1 的分數為 89,而 GPT-4o 僅有 11。即使是預覽版的 o1-preview 模型,性能也比 GPT-4o 要好數倍。
在大多數基準測試中,o1 的表現都比 GPT-4o 要好得多,覆蓋 57 個 MMLU 子類别中的 54 個。在啓用視覺感知功能後,o1 在 MMLU 上的得分為 78.2%,成為第一個與人類專家相媲美的模型。
▲ o1 預覽版與 GPT-4o 性能對比
以下是 OpenAI o1 預覽版幾個示例:
1、解決一個復雜的邏輯難題
輸入一個復雜的年齡謎題:當公主的年齡是王子的兩倍時,當公主的年齡是他們現在年齡總和的一半時,公主就和王子一樣老了。問王子和公主的年齡是多大?給出這個問題的所有解決方案。
模型思考了 20 多秒後開始作答。其回答過程的邏輯非常連貫。首先是确定年齡方程,将給定語句轉化成數學方程,找到滿足這些方程的所有可能解。然後開始一步一步分析問題:
第一步定義變量,用 P 代表 prince(王子),用 Q 代表 princess(公主);第二步理解問題中的兩個條件;第三部将條件轉化為方程;第四步解方程;第五步用這些值驗證所有條件;第六步給出所有可能的解法。
最後得出結論:
2、翻譯有錯誤的句子
添加額外不必要的輔音會影響韓語閲讀。母語使用者讀起來會感覺不自然,他們會在看到這類句子時自動更改并理解文本。但這對于模型來説是個有難度的挑戰。
輸入一個嚴重損壞的韓語提示詞後,OpenAI o1 首先意識到輸入文本存在亂碼或未對齊的韓語字元,詢問用户是否願意檢查輸入錯誤。
o1 模型會首先理解底層結構,經過大約 10 秒的思考來解碼亂碼文本、破譯文本、加強翻譯、理解概念,将其轉換回連貫語言。
與 GPT-4o 不同,o1 模型在輸出答案前先對問題進行了思考,檢查這段文字,然後像破解答案一樣來将其修改成正确的句子。經過大約 15 秒的思考,o1 給出最終優化版的翻譯。
這展示出推理能力成為解決問題的有力工具。
3、回答大語言模型中的知名棘手問題:單詞中字母計數
這個例子很簡單,輸入 Strawberry 單詞,讓模型回答這個詞裏有幾個 R。
結果 GPT-4o 給出錯誤回答:"2 個。"
為什麼這種高級模型會犯如此簡單的錯誤呢?這是因為像 GPT-4o 這樣的模型是為了處理文本而構建的,而不是處理字元或單詞,因此它在遇到涉及理解字元和單詞概念的問題時可能會犯錯。
而基于推理的新模型 o1 在思考幾秒鍾後,能夠給出正确答案:
4、編程視頻遊戲
讓模型用 pygame制作一個名為《尋找松鼠(Squirrel Finder)》的視頻遊戲,并輸入下述要求:用户需要通過按箭頭鍵引導螢幕上的 " 考拉 " 圖示,避開漂浮的草莓,并在 3 秒的時間限制内找到一只松鼠,以取得勝利。
這對以前的模型來説比較難,但 o1 預覽版已經能夠做到。o1 花了 21 秒思考,用思維過程來規劃代碼結構,包括收集遊戲布局的細節、繪制指令、設定螢幕等等,再輸出最終的遊戲編程代碼。
復制粘貼代碼到 Sublime Text 編輯器中,運行後,會先有幾行簡要提示語。
然後就可以開始玩《尋找松鼠》遊戲了。
與以前的模型相比,o1 模型展現出明顯增強的規劃能力。
二、迷你版速度提升3~5倍,成本僅為标準版1/5
OpenAI 還發布了" 小杯版 " 模型 OpenAI o1-mini,其速度更快、成本更低,且與标準版一樣在數學、編程方面表現突出。
OpenAI o1-mini 在預訓練期間,針對 STEM(科學、技術、工程、數學四門學科)推理進行了優化。在使用與 o1 相同的高計算強化學習(RL)管道進行訓練後,o1-mini 在許多推理任務上性能優越,同時成本效率顯著提高。
OpenAI o1-mini比預覽版 OpenAI o1 便宜 80%,适用于需要推理但不需要廣泛世界知識的應用程式。在一些對智能和推理提出要求的基準測試中,o1-mini 的表現甚至優于 o1-preview。
▲數學性能與推理成本曲線
在高中數學競賽 AIME 中,o1-mini 正确率為 70%,大約相當于美國高中生前 500 名。同時,o1、o1-preview 正确率分别為 74.4%、44.6%,但 o1-mini 價格比它們便宜得多。
在人類偏好評估上,OpenAI 通過讓人類評分者在不同領網域,針對對具有挑戰性的開放式提示詞測試 o1-mini、o1-preview,并和 GPT-4o 進行比較,得到以下測試結果。與 o1-preview 類似,o1-mini 在推理任務繁重的領網域比 GPT-4o 更受歡迎,但在以語言為中心的領網域則不被看好。
▲人類偏好評估結果
速度方面,GPT-4o、o1-mini 和 o1-preview 回答同一個單詞推理問題分别耗時3 秒、9 秒、32 秒,但 GPT-4o 的回答是錯誤的,後兩者回答正确。可以看出,o1-mini 得出答案的速度比 o1 快了大約 3~5 倍。
▲ GPT-4o、o1-mini 和 o1-preview 回答速度
當然,畢竟是 " 閹割版 ",OpenAI o1-mini 也一定的局限性。在日期、傳記和日常瑣事等非 STEM 主題的事實知識上,o1-mini 有所局限,表現與 GPT-4o mini 等小型模型相當。OpenAI 稱将在未來版本中改進這些限制,将模型擴展到 STEM 之外的其他專業及模态。
三、引入推理标記,用思維鏈解決難題
與人類類似,o1 在回答難題之前會進行長時間思考,且嘗試解決問題時會使用思維鏈(Chain of Thought)。
通過強化學習,o1 學會了改進思維鏈和使用策略。它能夠識别和糾正錯誤,将棘手的步驟分解為更簡單的步驟,并且在當前方法不起作用時嘗試不同的方法。這一過程極大地提高了模型的推理能力。
具體來説,o1 模型引入了推理标記(Reasoning Tokens)。這些推理标記被用于進行 " 思考 ",分解對提示的詞理解,并考慮多種生成響應的方法。推理标記生成後,模型會将答案生成為可見的完成标記(Completion Tokens),并從其上下文中丢棄推理标記。
以下是用户與模型之間進行多步驟對話的示例。每個步驟的輸入和輸出标記都會被保留,而推理标記則會被丢棄。
▲ o1 模型推理過程
值得注意的是,OpenAI 在進行大規模強化學習算法訓練時,發現随着強化學習、思考時間的增加,或者説随着訓練時間、測試時間的增加,o1 的性能會持續提高。這與大模型預訓練中的 Scaling Law 大不相同。
▲ o1 性能随着訓練時間和測試時間計算而平穩提升
為了展現 o1 實現的飛躍,OpenAI 公開了預覽版 o1 在解決編程、數學、解碼、英語等難題時產生的思維鏈。
例如當拿到一道解碼題目,GPT-4o 先是拆解出了輸入、輸出和示例,随後開始分析可能的解碼方式。
▲ GPT-4o 拆解輸入、輸出和示例
它猜測第一個短語可能遵循與示例相同的結構,意識到輸入文本似乎可以根據自然分隔或模式抽成組,但随後就 " 歇菜 " 了,稱自己需要更多關于可能涉及的轉換或字母移位的上下文。
▲ GPT-4o 稱需要更多信息
另一邊,OpenAI o1-preview 則通過一番思考準确給出了答案。
▲ o1-preview 正确解答解碼問題
雖然最後呈現出的答案很簡短,但 o1 的思考過程非常長,并且思考方式和用詞很像人類。它會先問自己 " 這裏發生了什麼 ",然後復述一遍要求,随後開始拆解任務、明确目标。
▲ o1 思考過程
接着,o1 開始觀察自己得到的信息,并逐步分析。
▲ o1 思考過程
在進行了一些推理後,o1 開始提出不同的解決方案。在這個過程中,還會像人類一樣突然説 " 等一下,我覺得 ……",然後思維一轉開始嘗試新的方法。
▲ o1 思考過程
不僅如此,在 o1 的思考過程中甚至還會出現 " 嗯 "、" 有趣 " 等口語化、情緒化的表達。
▲ o1 思考過程
完整的思維鏈非常長,這裏不再一一贅述。總得來看确實如 OpenAI 所説,o1 能夠像人類一樣不斷完善自己的思維過程,嘗試新的策略、認識到自己的錯誤并解決。而且這裏的 " 像人類 " 不僅局限于思考方式,還體現在語氣上。
四、每周可對話30~50次,Ilya 參與基礎貢獻
不同于以往,這次 OpenAI 沒上期貨,而是直接上線了兩款模型。
即日起,ChatGPT Plus 和 Team 用户可以在 ChatGPT 中訪問 o1 模型,通過模型選擇器手動選擇 o1-preview 或 o1-mini;企業和教育用户則下周起可以使用,面向免費用户未來也有獲取訪問權限的計劃。
▲用户可在 ChatGPT 訪問 o1 模型
但也許是出于安全或成本的考慮,目前這兩款模型均限制了消息次數,預覽版和 mini 版每周發送消息次數分别為 30、50 條。OpenAI 稱正在努力提高額度,并使 ChatGPT 能夠根據給定的提示詞,自動選擇合适的模型。
OpenAI 還上線了 o1 模型的 API(應用程式接口)。符合等級的開發人員現在可以開始使用兩種模型的 API 進行原型設計,速率限制為 20 RPM。這些 API 目前不包括函數調用、流式傳輸、對系統消息的支持等其他功能。
▲ o1、o1 mini 模型 API
從 API 文檔可見,這兩款模型的上下文視窗均為 128k,而 mini 版輸出視窗更長,是 o1 的兩倍,此外兩款模型訓練數據均截至 2023 年 10 月。
OpenAI 還公布了 o1 模型背後的核心團隊成員:
▲ o1 模型背後的核心團隊成員
其中基礎貢獻成員有 21 名,包括已經離職創業的前 OpenAI 首席科學家 Ilya Sutskever。
團隊負責人有 7 名,分别是 Jakub Pachocki、Jerry Tworek ( overall ) 、Liam Fedus、Lukasz Kaiser、Mark Chen、Szymon Sidor、Wojciech Zaremba。項目經理是 Lauren Yang 和 Mianna Chen。
據其團隊成員介紹,推理是一種将思考時間轉化為更好結果的能力,他們投入比以前更多的計算,訓練模型產生連貫的思路,產生與以前截然不同的表現。
他們使用強化學習訓練 AI 模型生成和磨練自己的思維鏈,甚至能比人類為它編寫的思維鏈做得更好。這種訓練 AI 模型產生自己的思維過程的方式,使其理解和糾正錯誤的能力顯著提高,早期 o1 模型已經在數據測試中取得更高的分數。
核心貢獻者和其他貢獻者名單如下:
▲ o1 核心貢獻者和其他貢獻者名單
行政領導包括 OpenAI 的 CEO Sam Altman、總裁 Greg Brockman、CEO Mira Murati 等 8 人,支持領導有 8 人。
▲ o1 行政領導、支持領導
全新 o1 模型可根據上下文推斷并更有效地利用安全規則。OpenAI 已對 o1-preview 進行了嚴格的測試及評估,确保該模型可以安全發布,不會增加現有資源可能帶來的風險。
結語:OpenAI 掀桌子," 草莓 " 重構大模型格局?
從神秘 Q* 模型到 " 草莓 " 模型,OpenAI 的新模型終于面世。自去年 11 月 OpenAI" 政變 " 開始,這一模型就被曝成為導致阿爾特曼被開除的關鍵因素之一。當時據傳 Q* 模型的演示在 OpenAI 内部流傳,發展速度讓一些 AI 安全研究人員感到震驚。
不同于 GPT-4o,o1 模型選擇直接開啓了一個新的數字命名系列,而不是 GPT 的延續,這表明了 OpenAI 對其的重視。
在如今一眾大模型廠商開始卷多模态、卷應用的情況下,OpenAI 發布純文本模型 o1,也許會再次将大眾的目光拉向底層模型能力的提升。大模型格局是否會在 o1 的影響下重構,還有待進一步觀察。