大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科技

Open AI新模型o1問世,能像人類一樣思考?

2024-09-13 简体 HK SG TW

今天小編分享的科技經驗:Open AI新模型o1問世,能像人類一樣思考?,歡迎閱讀。

本文來自微信公眾号:王智遠,作者:王智遠,原文标題:《Open AI 發布新一代模型 01》,題圖來自:AI 生成

凌晨 1 點,我還在追劇。

這時,朋友發來一條消息說:Open AI 發布了新模型,你在電腦上試試看能用嗎?哎,大哥,都要睡覺了,這要強制開機,讓我起來加班碼字啊。‍‍

帶着好奇,打開 PC 端 ChatGPT 一看,果然,多出兩個模型,分别是 ChatGPT o1-mini 和 o1-preview。

這是什麼東東?怎麼叫這個名字?這個模型有什麼特點?怎麼還有兩個版本呢?價位如何?難道是此前被傳的 " 草莓 " 做出來了?

帶着疑惑,熬夜看完官方文檔,把内容總結分享給你。

一

為什麼叫 o1 呢?官方說:

For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1。

我用自帶浏覽器的翻譯功能,翻譯出來就是:

這個模型在復雜推理任務上是一個重大的進步,代表了人工智能能力的一個新水平;因此,我們決定重新開始編号,把這一系列模型命名為 OpenAI o1。

襖,原來因為這個模型非常厲害,能做很多復雜的事情,OpenAI 覺得這是一個新的起點,所以把編号重新設為 1,開始一個新的系列。

那麼,它為什麼會有兩個版本呢?官方說:

o1 mini 版是個簡化的版本。它在速度、體積和成本方面都做了優化。

這個版本在處理數學、編程推理任務時表現不錯,特别适合需要快速處理問題的場合;因為它體積小,成本也低,所以,如果你想快速得到答案,那麼 o1 mini 版可能更适合你。

相對 o1 preview 版,是完整版本。

比較擅長解決復雜的問題,比如,無論是科學問題、數學題還是編程,它都能處理得非常好;當然,如果你遇到的問題要廣泛的知識或者深刻的理解,那麼這個版本更适合你,因為它的推理能力非常強大。

我不信,于是,讓國產大模型 Kimi Chat 給我想了一個邏輯數學邏輯題,如下:

假設我有一個農場,裡面有雞和兔子。有一天,我數了數農場裡動物的頭和腳,發現總共有 35 個頭和 94 只腳。請問,農場裡各有多少只雞和兔子?

preview 版的确很強。除了告訴我有 23 只雞,和 12 只兔子外,還給出了步驟,整個下來,也就不到 2 秒。當然,這種測試用來對付 Chat 肯定是無壓力的,如果你有時間,也可以帶入工作中的問題,自己體驗下。

總的來說,兩個版本的主要區别是它們處理任務的能力、速度和成本;o1 mini 版在速度、成本上有優勢;preview 版更适合推理。

不過,實際體驗下來,沒覺得有什麼差異,也許我本身要它做的事情,比較簡單。

體驗完後,仔細一想,這和 GPT-4o、GPT-4omini 有啥區别呢?非要搞出四個模型嗎?加上 GPT-4,我電腦上已經有五個模型了。

查了下官方文檔,有一篇文章叫《用法學碩士學習推理》(Learning to Reason with LLMs)詳細介紹了一切。

他們是這麼說的:

在對 OpenAI 的兩個 AI 模型—— o1-preview 和 GPT-4o 的實際使用偏好測試中,人類評估者在不知情的情況下,比較了兩個模型對復雜問題的回答。

結果顯示,在需要大量推理的任務上,比如數據分析、編程和數學問題,大家更喜歡 o1-preview。因為 o1-preview 經過特殊的強化學習訓練,所以,在解決這類問題時,推理能力更強,更高效。

但是,在自然語言處理任務上,o1-preview 的表現不如 GPT-4o。這是因為它的訓練重點在推理和解決問題的策略上,而不是在語言的流暢度或文本生成的多樣性上。

這說明,雖然 o1-preview 在某些領網域很出色,但它并不适合所有類型的任務,尤其是那些專注于自然語言處理的場景。

原來如此。

我又看了看 o1-preview 和 o1 mini 版适合哪些人。官方說,如果你在處理科學、編碼、數學等領網域的復雜問題,這些增強的推理能力可能特别有用。

比如:

醫療研究人員可以用 o1 來标注細胞測序數據;物理學家可以生成量子光學所需的復雜數學公式;各個領網域的開發者都可以用 o1 來構建和執行多步的工作流程。

所以,如果你做科學、敲代碼、編程、數學方面的工作,用它再好不過了。

二

那麼,o1-preview 和 o1 mini 到底做了哪些測試呢?

首先,為了顯示 o1 模型在推理方面比 GPT-4o 有多大改進,他們在不同的人體檢查和機器學習基準上測試了它。

在 2024 年的 AIME 數學考試中,GPT-4o 平均只解決了 12% 的題目;而 o1 模型單次測試的平均解題率達到了 74%。如果算上 64 次測試的平均得分,能達到 83%;重新從 1000 個樣本中排名,平均得分甚至可以達到 93%。

這個成績不僅讓它進入了全美前 500 名,還超過了參加美國數學奧林匹克的分數線。

他們還用一個叫做 GPQA 鑽石的難題來測試 o1。這個測試涉及化學、物理和生物學的專業知識。

他們請了一些擁有博士學位的專家來回答這些問題,結果發現,o1 模型的表現超過了人類專家,成為第一個在這個測試中取得這樣成績的模型。

這并不意味着 o1 在所有方面都比博士更厲害,而是說明它在解決某些專業問題上更為熟練。

當然,在其他一些機器學習的測試中,他們也做了大量測試;它在 MMMU 的視覺感知測試中得了 78.2 分,成為第一個能和人類專家競争的模型;而且,在 57 個 MMLU 子測試中的 54 個項目上,它的表現都優于 GPT-4o。

我好奇地搜索了一下,什麼是 MMLU?簡單講,MMLU 像一場大型的綜合考試,參加考試的不是人類,而是人工智能模型。

總之,這些測試最終結論是:

OpenAI 的 o1 模型在全球編程比賽 Codeforces 中排名第 89 位,在美國數學奧林匹克(AIME)的資格賽中,進入了全美前 500 名。

在物理、生物學和化學問題的測試中,它的表現甚至超過了博士水平。

因此,o1-preview 和 o1 mini 在解決高難度的推理和專業問題上表現更出色;而 GPT-4o 更适合處理日常的任務。

三

所以,這麼強的推理能力怎麼實現的?關鍵有四個方面:

首先,o1 模型用了一種 " 自我對弈強化學習 "(Self-play RL)的方法;這是一種通過模拟環境和自我對抗來提升模型性能的技術。

這種方法中,模型在沒有外部指導,通過不斷嘗試和錯誤來學習策略和優化決策。

想象一下:

它就像在和自己下棋,一邊玩一邊學;過程中,不用别人教,自己試試、出錯、再試,慢慢就學會了怎樣做決策和解決問題。

其次,o1 還模仿了人類的 " 慢思考 "(Slow Thinking);這種思考要時間、努力和邏輯三者結合,就像我們在考試時仔細思考一個難題一樣。

通過深思熟慮的方式,o1 先分析問題,然後把它拆開,再推理,再解決;這讓它在科學、編程或數學上更精準,更出色。

當然,這一步離不開思維鏈。

思維鏈的推理,還用一種獨特的方法來監控模型。如果這些思維鏈是可讀的,研發人員就能 " 讀懂 " 模型的思考過程。

這對于監測模型是否能操縱用戶行為非常有幫助,但是,為了讓模型能自由地表達思考,他們不在模型中加入任何與政策、用戶偏好相關的硬性規定。

因此,這個模型整合了安全政策和人類價值觀,通過在模型的答案中重現思維鏈中的有用想法,讓用戶間接了解模型的思考過程。

還有一點,思維鏈加入了魯棒性(Robustness)測試。所謂魯棒性指一個系統、模型或者設備在面對各種意外情況、幹擾或者變化時,仍然能夠正常工作,不容易出問題。

一輛汽車,無論在高溫、低溫、下雨還是颠簸的路面上,都能正常行駛,這說明它的魯棒性很好;在 AI 領網域,魯棒性指軟體、模型在面對不同的數據輸入、錯誤,甚至惡意攻擊時,仍然能保持穩定和準确。

所以,魯棒性強調的是在各種復雜、多變的環境下,仍然能保持可靠和穩定的性能。

除以上兩點,o1 在訓練時還用上了數據飛輪(Data Flywheel);它的正确答案會被用來再訓練它自己,幫助它變得更聰明。

當然,為支持這些復雜的思考任務,o1 還用上了一些特别優化的算法、架構。這些技術讓它更快、更準确地解決問題,提高了它的整體能力。

總之,o1 模型訓練關注五個維度:

1. 自我對弈強化學習;2. 模仿人類慢思考;3. 拆解了思維鏈的過程;4. 在思維鏈中加入了魯棒性測試;5. 數據飛輪再強化。

看完官網文檔,說白了,我覺得他們讓 AI 更像人了。

四

再強大的東西,不商業化肯定不行。那麼,o1 模型的成本和使用限制有哪些呢?

o1-preview 的價格是:

每處理一百萬個輸入要花 15 美元,每處理一百萬個輸出則是 60 美元;這說明,如果你用這個版本,輸入和輸出的處理費用會比較高。

真貴啊。這是什麼概念?舉個例子:

如果你每天和這個模型聊天 100 次,每次輸入 1000 個單詞,那麼一天的費用是 75 美分乘以 100 次,等于 75 美元。按照現在匯率,75 美元約等于 540 人民币。

這樣看來,使用這個模型的成本相當于每天花 540 塊錢。如果你每天都這麼使用,一個月下來的花費就非常可觀了,堪比請一個專家了。

而 o1-mini 的價格便宜一些。

每一百萬個輸入只需 3 美元,每一百萬個輸出 12 美元。但這個便宜版在功能上可能會有些限制;如果你是 ChatGPT Plus 或 Team 的用戶,就可以優先嘗試 o1 模型的功能。

對開發者來說,要求就嚴格多了,只有支付了 1000 美元的五級開發者才能用這個模型,而且每分鍾只能調用 20 次。

至于 API 的調用限制,o1-preview 每周只能調用 30 次,o1-mini 每周可以調用 50 次。這種限制是按周來算的,不是按小時或分鍾。

功能方面,目前的 o1 模型還不能支持所有的功能,比如理解圖片、生成圖片、解釋代碼、網頁搜索等。所以,用戶現在只能用它來進行基本的對話。

官方還說:

雖然現在 o1 模型成本較高,使用也有限,但随着技術發展和 OpenAI 的不斷改進,預計将來會有更多用戶能使用到這個模型,成本也可能會降低。

不管怎能說,AI 越來越像人一樣 " 深思熟慮 " 了,至于這個模型,誰會付費呢?誰又能為它支付 1000 美金呢?或許,只有大公司、研究機構、有特定需求的專業人士才能承擔得起。

那到時候,真就成了花錢請了一個 "AI 專家 ",所以,AI 會替代專家嗎?

總結‍

越來越像人的模型。

誰也猜不到,未來的 o1-preview(mini)會發展成什麼樣,至少,它肯定不會是個普通的 GPT。

它會發展成具身智能嗎?有這個可能。随着技術不斷進步,o1-preview(mini)很大概率會改變一些行業的運作方式。

本文來自微信公眾号:王智遠,作者:王智遠

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們