推理王者o1到底怎麼落地？

今天小編分享的科學經驗：推理王者o1到底怎麼落地？，歡迎閲讀。

完整版 o1" 被泄露 "，成了上周 AI 界的大新聞。

9 月 13 日，OpenAI 發布了傳説中代号 " 草莓 " 的全新模型系列的預覽版 o1 preview，随後又上線了 o1 mini。o1 模型系列，能夠模仿人類思維過程 " 慢思考 "，提升了 AI 的邏輯推理能力，成為 AI 模型領網域的王炸，牽動着整個行業的神經。

而就在上周，有不少用户突然發現，能在 ChatGPT 官網上用到完整版 o1 了。奧特曼更是不小心 " 登錯賬号 "，在社交媒體宣布 "o2 即将登場 "。

從 o1 preview 到 o2，這一系列模型，炸裂歸炸裂，但所謂的推理能力好像并沒有真正融入產業應用，以至于大家都有種狼來了的感覺，開始猜測這不過是奧特曼的又一次宣傳噱頭。

比如，就有網友覺得完整版 o1 被釋放，并不是 " 不小心 "，而是 " 精心策劃 " 的炒作，奧特曼 " 登錯号劇透 o2" 也是裝的。

如何避免真實的技術價值淪為 " 狼來了 " 的戲碼？答案就是，别讓模型能力成為空中樓閣，而是加速落地到產業中。

到底哪些場景才能充分發揮 o1" 慢思考 " 的技術潛力呢？本文就來找找產業化落地的路子。

落地產業，前提是正确認識到技術的價值。o1 模型系列與老前輩們的最大區别和價值究竟是啥呢？就是慢思考。

我們都知道 GPT-4o 啥的處理些日常瑣事還行，但時不時就會犯點小迷糊，算個小學數學題加減法都錯漏百出。而 o1 就像是經過嚴格訓練的學霸，專克邏輯推理、復雜任務難題。前不久的 OpenAI 倫敦開發者日上，完整版 o1 的五大能力包括：函數調用、開發者 message、流式傳輸、結構化輸出、影像理解。

如果説 4o 的數學水平是高中生程度，那麼 9 月發布的 o1-preview 就有大學生水平了，即将發布的 o2 在 GPQA 研究生級别基準中取得了 105% 的成績，未來是妥妥的研究生了。

而上述能力靠的就是 o1 的獨門秘籍——慢思考。

已知人腦有兩種模式：一種是快思考，就是咱們平時 " 一拍腦門 " 那種憑直覺、靠經驗的快速決策；另一種是慢思考，指的是在解數學題、進行科學推理需要花時間、費精力去琢磨的思考模式，更注重邏輯和理性分析。

o1 通過學習人腦深思熟慮、穩扎穩打的思考模式，o1 采用強化學習 + 思維鏈，把復雜問題拆成小塊，一步步來，直到得出最準确的答案，極大地提高了模型的推理能力。

研究生級别的學霸 o1 模型系列，給 AI 界帶來了全新的可能。但如何将 " 慢思考 " 的技術潛力真正轉化為實際應用，讓 o1 成為推動產業進步的重要力量？還是一個需要進一步探索的話題。

產業大不同，落地有先後。按照落地的難易程度，我們可能會看到類 o1 的 " 慢思考 " 能力，在以下產業逐步應用開來。

堅實的數字化基礎、對新技術的高接受度、強大的付費能力，這些特性使得金融成為大模型技術落地的理想場所。

幾乎所有的大模型廠商，都将金融行業作為業務開拓的第一站。然而，在金融與大模型的結合過程中，由于大模型的推理能力不強，加上幻覺問題，導致大模型在金融領網域的復雜應用中表現并不理想。

此前，大模型在金融行業的應用範圍，主要是一些容錯率較高的淺層應用上，如智能客服、報表文檔助手。而風控、信貸、投資分析等的嚴肅生產力場景，需要對多種模态的數據，進行深入分析和推理，決策質量要求極高。這些核心業務中，大模型在工作流中發揮的價值相對有限，主要還是得靠人類專家來做。

一位銀行從業者表示，客户需要我們的理财分析師給出犀利、專業的觀點來幫助決策，而大模型只會泛泛而談，沒什麼參考價值。

人人都希望由專業的金融從業人員來服務，如果 AI 模型能夠在一些容錯率低的嚴肅場景中應用，只需要少量人工幹預、監督和驗證，那麼專業人士的時間精力，不就可以解放出來了嗎？随着 " 慢思考 " 邏輯推理能力的出現，這一期待真的有可能實現。

基于類 o1 的邏輯推理能力，我們有望看到 AI 在金融核心業務中承擔起專家角色，發揮更重要的作用。比如像專業審核員一樣讀征信報告、看賬單流水，甚至能解讀網絡大數據，思考和捕捉數據之間的關聯，并生成風險判斷的依據和結論。

又或者像專業分析師一樣，根據用户需求進行個性化的產品設計，缜密分析投資策略，給出理财、投資、投保等建議。

慢思考可以讓 AI 從淺層、邊緣、單一的場景，進入到復雜、核心、高價值的核心業務中，突破大模型在金融行業的價值上限。

"o1 實在太強了……我的博士作業做了 20 個小時，被它 3 分鍾思考就拿下了。剛讀博就出這個，感覺人生都灰暗了 [ 流淚 ] 。" 邏輯推理能力達到研究生水平的 o1 模型系列，讓不少人類研究生、博士生感到了切實的危機。

但用一句流行語來説，"o1 不是來拆散科研這個家，而是來加入這個家的 "。

近幾十年來，神經網絡算法已經被廣泛應用于科研領網域，從宏觀世界的天文探索、引力波探測，到微觀世界的蛋白質折疊、同步光源等，數據科學和算法工程提供了大量的操作手段，幫助科學領網域的探索性課題取得突破。AI 技術已經成為科學研究不可或缺的一部分，AI4S 的大趨勢不可阻擋。

面對這個過程，一位高校力學老師曾對我們説過一個比喻：AI 和力學的結合，就像是成功的婚姻才剛剛開始，會有甜蜜期，也會有磨合期。

傳統模型算法雖然有強大的計算能力和手段，但缺乏深入的邏輯推理能力和對科學原理的深刻理解，面對復雜的科學問題時，往往力不從心，難以提供準确且可靠的解決方案。思考方式跟追求嚴謹的科學家們大相徑庭，此前的 AI4S 全靠人類遷就。

而 o1 慢思考強調的逐步分析、深入推理，這種思考方式與科學研究的本質不謀而合。具備慢思考能力的 AI 模型，相當于掌握了碩博們的學習方法，可以逐步拆解問題、分析數據、反復驗算、推導結論。

在科研領網域，類 o1 模型可以作為科學家們的 " 科研伴侶 "，扮演好幾種角色：

1. 靈感缪斯。在一些經典的科學問題，或者已經成熟的科研結果上，科學家們往往還要開發新方法、新理論。這個過程中，AI 的邏輯推理能力可以發現數據之間的潛在聯系和規律，提出新的假設和預測，為科學研究開辟新的道路。

2. 科研助理。随着科學領網域 " 低垂的果實 " 被摘完，科學家們要去解決更復雜的問題。以力學為例，在深水探索任務中，不僅要做簡單的維度對比，還需要做更細節的探索研究，包括復雜的洋流環境、水下潛入等復雜動作，這些是傳統的流體控制方法所難以預測的。而邏輯推理大模型可以在這類非線性、高維度的科學問題與科研應用上，有更好的性能表現。比如馬克思普朗克研究所的量子物理學者 Mario Krenn，就展示了 o1-preview 正确完成計算的復雜量子物理問題。

3. 工程師助理。科研目的不是簡單地開發新方法、新理論，最終成果要轉化到工業界，去解決工業、生活中的現實問題，這就不單單需要新穎的想法，還需要技術的安全性、成熟度、容錯率等。這時候，具備邏輯推理能力的大模型，可以在工業場景中處理復雜問題，降低幻覺，如同工程師助理一樣，減少實際應用中的故障率。

無論是容錯率較高的創造型任務，還是容錯率較低的工程類任務，擁有 " 慢思考 " 能力的大模型，都會是一名更得力的助手，與科學長相厮守。

ChatGPT 的第一個應用案例，就是幫學生寫作業，為此遭到了各國多所學校的嚴格限制。這種應用場景雖然不可取，但説明了一個道理：充斥着大量文本、重復任務的教育行業，是大模型落地的絕佳場景。

過去一年多來，" 大模型 + 教育 " 這個新風口的爆發，也證實了教育產業 AI 化的價值切實存在。但真正落地的應用，主要還是以 AI 口語對話、AI 批改作文、LLM 翻譯、中英文寫作等功能為主。

一旦覆蓋到復雜的學科内容，比如數學、物理、化學等，連 "9.9 跟 9.11 誰大 " 都搞不清楚的 GPT 們就集體熄火了。國產大模型也同樣如此，一位國產數學大模型的工作人員告訴我，做數學題的正确率是 60%。試問哪個家長敢讓數學成績剛及格，還熱愛 " 胡説八道 " 的 AI 給孩子當家教呢？

邏輯推理，限制了模型的能力邊界。而模型的能力限制，又進一步影響了智能教育硬體、個性化 AI 在線輔導服務的市場化推廣步伐。可以説，解決大模型 + 教育的商業化問題，最關鍵的是問技術要出路，這也是慢思考模型的價值所在。

首先，具備慢思考的大模型，數學推理的能力飛躍，數學正确率更是肉眼可見地高漲。在剛剛結束的 2024 IOI 信息學奧賽題目中，o1 的微調版本在每題嘗試 50 次條件下取得了 213 分，屬于人類選手中前 49% 的成績。如果允許它每道題嘗試 10000 次，能獲得 362.14 分，可以獲得金牌。對于有算力、有開發能力的教育大模型公司來説，完全有可能開發出數學能力很強的垂類大模型，提供面向復雜學科或高年齡學段的 AI 輔導功能。

其次，疊加了多模态的推理大模型，進一步開拓教育應用。在泄露出來的完整版 o1，已經具備多模态能力了，支持上傳附件，或直接識圖。有網友将一道普特南數學競賽的證明題截圖發給 o1，就被具有影像推理能力的 o1 成功搞定。這意味着教育類大模型不再局限于文本、語言對話類的功能，可以跟物理世界產生互動，比如拍照答題、實時視頻問答等，不管學生問的是現實世界中的什麼問題，AI 都能大概率找出正确答案。

更為關鍵的是，由于慢思考的模型不再一味追求參數、追求 scaling law，而是着重于提高推理能力和認知效率。也就是説，面對一個復雜問題或任務，AI 大模型開始以 " 更聰明 " 的方法，而非 " 力大飛磚 " 的笨辦法，模型的參數規模更小，更便于在硬體終端上部署，在同樣的終端配置下，推理大模型可以表現更出色，這有利于 AI 學習機等教育類智能硬體的普及，為教育行業帶來新的增長點。