大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科技

OpenAI 發布新模型,Sam Altman:耐心時刻結束了!

2024-09-13 简体 HK SG TW

今天小編分享的科技經驗:OpenAI 發布新模型,Sam Altman:耐心時刻結束了!,歡迎閲讀。

作者 | Li Yuan

北京時間凌晨一點,OpenAI 突然進行了重大更新。

已經預熱了接近一年的 Q*/ 草莓項目,傳説中能夠進行高級推理的大語言模型,今晚終于露出了真面目。

OpenAI  發推表示,剛剛推出了 OpenAI o1-preview 模型——名字的含義之前外媒已經爆料過,o1 應該代表着 OpenAI 下一代大模型的 Orion(獵户座)一代。

OpenAI 在發布文檔中寫道,新模型在推理能力上代表了人工智能能力的新水平,因此,計數器将重置為 1 ——這意味着未來很可能不會有 GPT-5 了,o1 将代表未來  OpenAI  的最強水平。

且從今天開始,ChatGPTPlus 和 Team 用户就能夠直接訪問模型。

用户可以手動選擇使用 o1 模型的預覽版—— o1-preview,或者使用 o1 模型的小尺寸版—— o1-mini。o1-preview 的每周限制為 30 條消息,o1-mini 的每周限制為 50 條。

在 OpenAI 的模型介紹網頁上,可以看到 o1 模型的訓練數據截止時間為去年十月份,而最早的 Q* 項目的爆料,正好大概出現在去年十一月份。

OpenAI 憋了一年的大招究竟如何?OpenAI 能否再一次引領大模型的潮流,甚至讓人們看到通用人工智能之路不再遙遠?很快,每個人都能檢驗這一點了。

Sam Altman 凌晨一點在 X 上發帖:「需要耐心等待的時刻結束了!」

o1 模型:解決博士級别的科學問題超越人類

截止發稿時,筆者還不能使用 o1 模型。

不過 OpenAI 已經放出了大量相關的 o1 模型表現展示。

最引人關注的當然是新模型的推理能力。Sam Altman 直接在 X 上貼出了 o1 與 GPT-4o 在數學、編程和解決博士級别科學題目上的能力對比。

最左邊的柱形代表目前 OpenAI 的主力模型 GPT-4o。今天放出來的 o1 預覽版為中間的橙色柱形。

可以看到,在 2024 年美國數學邀請賽的競賽題和 Codeforces 算法競賽題上,o1 預覽版解決數學和編程問題的能力,比起 GPT-4o,提升了 5-6 倍。而可怕的是,深橙色的柱形,代表真正的 o1,相比于 GPT-4o,提升了 8-9 倍!

最後一個圖中,OpenAI 還列出了人類專家在解決博士級别科學題目的時的成功率,大約在 69.7%,而 o1 預覽版和 o1,都已經超過了人類專家的水平。

OpenAI 的技術博客提到了更具體的數字,目前 o1 模型的成績,在美國數學邀請賽上,可以排名進入美國前 500 名。而物理、生物和化學問題上的準确度,超過了人類博士的水平。

在大模型技術進入公眾視野的兩年内,一個經常為人們所使用的比喻是,大模型像一個什麼都懂一點的大學生,在知識專精方面遠遠不行,但是從天文到地理,最基礎的知識都能懂一點點。OpenAI 的新模型,很有可能要刷新人們的這一認知了。

在官方博客中,OpenAI 簡單解釋了這一進步背後的原理。

類似于人類在回答難題之前可能會思考很長時間,o1 在嘗試解決問題時會使用一系列思維。通過強化學習,o1 學會了磨練其思維鏈并完善其使用的策略。它學會了認識并糾正錯誤,将棘手的步驟分解為更簡單的步驟。當當前方法不起作用時,它會嘗試另一種方法。這個過程極大地提高了模型的推理能力。

在 OpenAI 給的案例中。GPT-4o 和 o1 模型同時回答同一個問題——讀一段長文,然後做閲讀理解。在 o1 模型中,會多一個選項叫做展開思維鏈。

如果不展開思維鏈,我們可以看到兩個模型本身給出的答案是不同的。而打開思維鏈後,則會看到一段非常長的模型和自己的思維對話,解釋為什麼做出了不同的選擇。

選 A 嗎?emm,好像不是很好。選 B 嗎?好像沒有關聯。模型完全在自己和自己提問和回答,最後判斷出了哪個答案更好。

而在另一個例子中,解決化學問題時,我們可以看到 o1 模型甚至自己在選擇多種方案對比。

标準的計算方式是這樣。但是我們也可以這麼計算,但這樣或許沒有必要?

在多次糾正自己之後,它得出了正确的答案。

之前,也已經有很多報道透露過 o1 模型能夠有高推理能力的原理——這一訓練方法,最早來自于斯坦福大學 2022 年開發的一種「自學推理」(Self-Taught Reasoner,STaR)。

後來研究人員進一步開發了一種名為 "Quiet-STaR" 的新技術,翻譯過來大概為 " 安靜的自學推理 "。核心為在每個輸入 token 之後插入一個 " 思考 " 步驟,讓 AI 生成内部推理。然後,系統會評估這些推理是否有助于預測後續文本,并相應地調整模型參數。這也是人們推測 OpenAI 最早的模型項目為什麼叫 Q*(讀作 Q Star)的原因。

在 o1 模型出現之前,用户通常也可以自己通過和模型對話的方式,讓模型進行一步一步的思考,也就是所謂的慢思考,進行更準确的回答。但是很明顯,o1 模型此次将思維鏈放大到了完全不同的量級上。

而且,在之前的用户 prompt 引導中,模型能夠回答出什麼答案,最終也還要被模型能力限制。而通過不同的訓練方式訓練出來的 o1 模型,很有可能能夠通過自己的推理,超越自身訓練材料的限制,產出更高級和準确的答案。

在復雜推理任務上的進步,可能對編程和科學研究兩個方向產生直接的推動。

OpenAI 提到,在未來,醫療保健研究人員可以使用 o1 來注釋細胞測序數據,物理學家可以使用 o1 生成量子光學所需的復雜數學公式,所有領網域的開發人員可以使用 o1 來構建和執行多步驟工作流程。

OpenAI 提供了一個例子,真正做到了只使用提示詞,就完成了一個遊戲的編程。

而推理能力的進步,如果能夠進一步消除模型的幻覺,還可能對 AI 應用的建構產生間接的影響。對未來的 AI 安全也有積極的影響——之前的一些通過提示詞工程誤導模型進行錯誤輸出的手段,可能會直接被模型通過更強的思考能力解決。

OpenAI o1-preview 将在今天開始能夠在 ChatGPT 上使用,并提供給受信任的API用户。

價格沒漲,OpenAI 用 o1-mini 解決推理成本問題

在 OpenAI 此次發布之前,曾有不少媒體爆料,新模型因為内部推理鏈條較長,對于推理的算力成本的需求進一步增高,OpenAI 很有可能将提高使用模型的費用,甚至最離譜的猜測數字達到每月 2000 美金。

而此次 OpenAI 的發布,卻令人驚訝,新模型的使用價格并沒有上漲,雖然因為推理成本的原因,使用次數受到了大大的限制。o1-preview 的每周限制使用條數為 30 條消息。

除了限制使用條數,OpenAI 管控推理成本的另一個重要舉措,是随着 o1 模型的推出,同時推出了 o1-mini 版。

OpenAI 沒有具體説明 o1-mini 的參數量有多大,但通過技術文檔可以看出,o1mini 版,和 o1 版上下文長度沒有區别,甚至最大輸出 token 數更高。

OpenAI 表示 o1-mini 尤其擅長準确生成和調試復雜代碼,對于開發人員尤其有用。作為較小的模型,o1-mini 比 o1-preview 便宜 80%,這使其成為需要推理但不需要廣泛的世界知識的應用程式的強大且經濟高效的模型。

OpenAI 甚至還計劃之後為所有 ChatGPT 免費用户提供 o1-mini 訪問權限。

不過,作為新模型,o1 系列模型,目前仍然不能浏覽網頁以獲取信息以及上傳檔案和影像。OpenAI 也提示道,GPT-4o 在短期内,在某些任務上會更強一些。

Scaling Law 後最重要的進展?

事實上,此次發布了新的模型,甚至不是 OpenAI 的發布中唯一重要的事情。

OpenAI 還提及了自己訓練中發現的一個現象:随着更多的強化學習(訓練時計算)和更多的思考時間(測試時計算),o1 的性能能持續提高。擴展這種方法的限制與 LLM 預訓練的限制有很大不同。

事實上,英偉達的具身團隊領導者 Jim Fan 直接在 X 上點評了這一事件的歷史意義——模型不僅僅擁有訓練時的 scaling law,還擁有推理層面的 scaling law,雙曲線的共同增長,将突破之前大模型能力的提升瓶頸。

Jim Fan 表示,2022 年,人們提出了原始的 scaling law(尺度定律),大概意為随着模型的參數量、數據量和計算量的增加,模型的性能能夠不斷提高。

這指的是在模型的訓練過程中。而 scaling law 在今年看起來,似乎已經有停滞的意味——他提到在 self-rewarding language 文章中,感受到 3 輪自我提升似乎是大語言模型的飽和極限了。

而此次 OpenAI 新模型,除了在訓練時,通過增大參數量和數據量,得到了性能上的提升,同時通過增加推理時間——也就是前面所説的模型在自我内部思考的時間——得到了能力上的提升。

也就是説,如果模型未來自己和自己思考的時間越長,得到的答案可能會越準确。這很接近于我們對AI的終極想象了——像最早在 AlphaGo 中所展現出來的,AI 通過自己和自己下棋,提升自己的棋藝。

OpenAI 的新模型,展現出的,是一條新的大模型的提升路徑。

Jim Fan 在 X 上的一句話令人聳動:「之前,沒人能将 AlphaGo 的成功復制到大模型上,使用更多的計算讓模型走向超人的能力。目前,我們已經翻過這一頁了。」

回看 2023 年,許多人在問,Ilya 看到了什麼?

大家都懷疑是一個超級強有力的模型——是的,此次發布的 o1 模型确實很強。

但或許,更有可能是這個——推理層面的 scaling law 的發現,再一次讓人們意識到,超人的AI,或許不再遙遠。

本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們