大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

推理王者o1到底怎麼落地?

2024-11-08 简体 HK SG TW

今天小編分享的科學經驗:推理王者o1到底怎麼落地?,歡迎閱讀。

完整版 o1" 被洩露 ",成了上周 AI 界的大新聞。

9 月 13 日,OpenAI 發布了傳說中代号 " 草莓 " 的全新模型系列的預覽版 o1 preview,随後又上線了 o1 mini。o1 模型系列,能夠模仿人類思維過程 " 慢思考 ",提升了 AI 的邏輯推理能力,成為 AI 模型領網域的王炸,牽動着整個行業的神經。

而就在上周,有不少用戶突然發現,能在 ChatGPT 官網上用到完整版 o1 了。奧特曼更是不小心 " 登錯賬号 ",在社交媒體宣布 "o2 即将登場 "。

從 o1 preview 到 o2,這一系列模型,炸裂歸炸裂,但所謂的推理能力好像并沒有真正融入產業應用,以至于大家都有種狼來了的感覺,開始猜測這不過是奧特曼的又一次宣傳噱頭。

比如,就有網友覺得完整版 o1 被釋放,并不是 " 不小心 ",而是 " 精心策劃 " 的炒作,奧特曼 " 登錯号劇透 o2" 也是裝的。

如何避免真實的技術價值淪為 " 狼來了 " 的戲碼?答案就是,别讓模型能力成為空中樓閣,而是加速落地到產業中。

到底哪些場景才能充分發揮 o1" 慢思考 " 的技術潛力呢?本文就來找找產業化落地的路子。

落地產業,前提是正确認識到技術的價值。o1 模型系列與老前輩們的最大區别和價值究竟是啥呢?就是慢思考。

我們都知道 GPT-4o 啥的處理些日常瑣事還行,但時不時就會犯點小迷糊,算個小學數學題加減法都錯漏百出。而 o1 就像是經過嚴格訓練的學霸,專克邏輯推理、復雜任務難題。前不久的 OpenAI 倫敦開發者日上,完整版 o1 的五大能力包括:函數調用、開發者 message、流式傳輸、結構化輸出、影像理解。

如果說 4o 的數學水平是高中生程度,那麼 9 月發布的 o1-preview 就有大學生水平了,即将發布的 o2 在 GPQA 研究生級别基準中取得了 105% 的成績,未來是妥妥的研究生了。

而上述能力靠的就是 o1 的獨門秘籍——慢思考。

已知人腦有兩種模式:一種是快思考,就是咱們平時 " 一拍腦門 " 那種憑直覺、靠經驗的快速決策;另一種是慢思考,指的是在解數學題、進行科學推理需要花時間、費精力去琢磨的思考模式,更注重邏輯和理性分析。

o1 通過學習人腦深思熟慮、穩扎穩打的思考模式,o1 采用強化學習 + 思維鏈,把復雜問題拆成小塊,一步步來,直到得出最準确的答案,極大地提高了模型的推理能力。

研究生級别的學霸 o1 模型系列,給 AI 界帶來了全新的可能。但如何将 " 慢思考 " 的技術潛力真正轉化為實際應用,讓 o1 成為推動產業進步的重要力量?還是一個需要進一步探索的話題。

產業大不同,落地有先後。按照落地的難易程度,我們可能會看到類 o1 的 " 慢思考 " 能力,在以下產業逐步應用開來。

堅實的數字化基礎、對新技術的高接受度、強大的付費能力,這些特性使得金融成為大模型技術落地的理想場所。

幾乎所有的大模型廠商,都将金融行業作為業務開拓的第一站。然而,在金融與大模型的結合過程中,由于大模型的推理能力不強,加上幻覺問題,導致大模型在金融領網域的復雜應用中表現并不理想。

此前,大模型在金融行業的應用範圍,主要是一些容錯率較高的淺層應用上,如智能客服、報表文檔助手。而風控、信貸、投資分析等的嚴肅生產力場景,需要對多種模态的數據,進行深入分析和推理,決策質量要求極高。這些核心業務中,大模型在工作流中發揮的價值相對有限,主要還是得靠人類專家來做。

一位銀行從業者表示,客戶需要我們的理财分析師給出犀利、專業的觀點來幫助決策,而大模型只會泛泛而談,沒什麼參考價值。

人人都希望由專業的金融從業人員來服務,如果 AI 模型能夠在一些容錯率低的嚴肅場景中應用,只需要少量人工幹預、監督和驗證,那麼專業人士的時間精力,不就可以解放出來了嗎?随着 " 慢思考 " 邏輯推理能力的出現,這一期待真的有可能實現。

基于類 o1 的邏輯推理能力,我們有望看到 AI 在金融核心業務中承擔起專家角色,發揮更重要的作用。比如像專業審核員一樣讀征信報告、看賬單流水,甚至能解讀網絡大數據,思考和捕捉數據之間的關聯,并生成風險判斷的依據和結論。

又或者像專業分析師一樣,根據用戶需求進行個性化的產品設計,缜密分析投資策略,給出理财、投資、投保等建議。

慢思考可以讓 AI 從淺層、邊緣、單一的場景,進入到復雜、核心、高價值的核心業務中,突破大模型在金融行業的價值上限。

"o1 實在太強了……我的博士作業做了 20 個小時,被它 3 分鍾思考就拿下了。剛讀博就出這個,感覺人生都灰暗了 [ 流淚 ] 。" 邏輯推理能力達到研究生水平的 o1 模型系列,讓不少人類研究生、博士生感到了切實的危機。

但用一句流行語來說,"o1 不是來拆散科研這個家,而是來加入這個家的 "。

近幾十年來,神經網絡算法已經被廣泛應用于科研領網域,從宏觀世界的天文探索、引力波探測,到微觀世界的蛋白質折疊、同步光源等,數據科學和算法工程提供了大量的操作手段,幫助科學領網域的探索性課題取得突破。AI 技術已經成為科學研究不可或缺的一部分,AI4S 的大趨勢不可阻擋。

面對這個過程,一位高校力學老師曾對我們說過一個比喻:AI 和力學的結合,就像是成功的婚姻才剛剛開始,會有甜蜜期,也會有磨合期。

傳統模型算法雖然有強大的計算能力和手段,但缺乏深入的邏輯推理能力和對科學原理的深刻理解,面對復雜的科學問題時,往往力不從心,難以提供準确且可靠的解決方案。思考方式跟追求嚴謹的科學家們大相徑庭,此前的 AI4S 全靠人類遷就。

而 o1 慢思考強調的逐步分析、深入推理,這種思考方式與科學研究的本質不謀而合。具備慢思考能力的 AI 模型,相當于掌握了碩博們的學習方法,可以逐步拆解問題、分析數據、反復驗算、推導結論。

在科研領網域,類 o1 模型可以作為科學家們的 " 科研伴侶 ",扮演好幾種角色:

1. 靈感缪斯。在一些經典的科學問題,或者已經成熟的科研結果上,科學家們往往還要開發新方法、新理論。這個過程中,AI 的邏輯推理能力可以發現數據之間的潛在聯系和規律,提出新的假設和預測,為科學研究開辟新的道路。

2. 科研助理。随着科學領網域 " 低垂的果實 " 被摘完,科學家們要去解決更復雜的問題。以力學為例,在深水探索任務中,不僅要做簡單的維度對比,還需要做更細節的探索研究,包括復雜的洋流環境、水下潛入等復雜動作,這些是傳統的流體控制方法所難以預測的。而邏輯推理大模型可以在這類非線性、高維度的科學問題與科研應用上,有更好的性能表現。比如馬克思普朗克研究所的量子物理學者 Mario Krenn,就展示了 o1-preview 正确完成計算的復雜量子物理問題。

3. 工程師助理。科研目的不是簡單地開發新方法、新理論,最終成果要轉化到工業界,去解決工業、生活中的現實問題,這就不單單需要新穎的想法,還需要技術的安全性、成熟度、容錯率等。這時候,具備邏輯推理能力的大模型,可以在工業場景中處理復雜問題,降低幻覺,如同工程師助理一樣,減少實際應用中的故障率。

無論是容錯率較高的創造型任務,還是容錯率較低的工程類任務,擁有 " 慢思考 " 能力的大模型,都會是一名更得力的助手,與科學長相厮守。

ChatGPT 的第一個應用案例,就是幫學生寫作業,為此遭到了各國多所學校的嚴格限制。這種應用場景雖然不可取,但說明了一個道理:充斥着大量文本、重復任務的教育行業,是大模型落地的絕佳場景。

過去一年多來," 大模型 + 教育 " 這個新風口的爆發,也證實了教育產業 AI 化的價值切實存在。但真正落地的應用,主要還是以 AI 口語對話、AI 批改作文、LLM 翻譯、中英文寫作等功能為主。

一旦覆蓋到復雜的學科内容,比如數學、物理、化學等,連 "9.9 跟 9.11 誰大 " 都搞不清楚的 GPT 們就集體熄火了。國產大模型也同樣如此,一位國產數學大模型的工作人員告訴我,做數學題的正确率是 60%。試問哪個家長敢讓數學成績剛及格,還熱愛 " 胡說八道 " 的 AI 給孩子當家教呢?

邏輯推理,限制了模型的能力邊界。而模型的能力限制,又進一步影響了智能教育硬體、個性化 AI 在線輔導服務的市場化推廣步伐。可以說,解決大模型 + 教育的商業化問題,最關鍵的是問技術要出路,這也是慢思考模型的價值所在。

首先,具備慢思考的大模型,數學推理的能力飛躍,數學正确率更是肉眼可見地高漲。在剛剛結束的 2024 IOI 信息學奧賽題目中,o1 的微調版本在每題嘗試 50 次條件下取得了 213 分,屬于人類選手中前 49% 的成績。如果允許它每道題嘗試 10000 次,能獲得 362.14 分,可以獲得金牌。對于有算力、有開發能力的教育大模型公司來說,完全有可能開發出數學能力很強的垂類大模型,提供面向復雜學科或高年齡學段的 AI 輔導功能。

其次,疊加了多模态的推理大模型,進一步開拓教育應用。在洩露出來的完整版 o1,已經具備多模态能力了,支持上傳附件,或直接識圖。有網友将一道普特南數學競賽的證明題截圖發給 o1,就被具有影像推理能力的 o1 成功搞定。這意味着教育類大模型不再局限于文本、語言對話類的功能,可以跟物理世界產生互動,比如拍照答題、實時視頻問答等,不管學生問的是現實世界中的什麼問題,AI 都能大概率找出正确答案。

更為關鍵的是,由于慢思考的模型不再一味追求參數、追求 scaling law,而是着重于提高推理能力和認知效率。也就是說,面對一個復雜問題或任務,AI 大模型開始以 " 更聰明 " 的方法,而非 " 力大飛磚 " 的笨辦法,模型的參數規模更小,更便于在硬體終端上部署,在同樣的終端配置下,推理大模型可以表現更出色,這有利于 AI 學習機等教育類智能硬體的普及,為教育行業帶來新的增長點。

雖然慢思考的類 o1 大模型還是個新鮮事物,OpenAI 噱頭大于實際的營銷手段也招人吐槽,但可以肯定的是,更強邏輯推理能力的大模型,将成為模廠與行業在智能化領網域所必須拿下的高地,去解決此前 LLM+ 行業的結合止于淺層應用、難以應對復雜業務的產業化痛點,進而打開大模型的商業化空間。

究其核心,是 AI 大模型開始走出語言類任務的局限,可以在容錯率低、專業性強的嚴肅工作中發揮價值。

專家型人才稀缺的行業場景,往往也是高價值所在。懂得慢思考的大模型,正慢慢行業專家化,這讓大模型更有價值,也讓會思考的人更有價值了。

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們