今天小編分享的科學經驗:推理王者o1到底怎麼落地?,歡迎閱讀。
完整版 o1" 被洩露 ",成了上周 AI 界的大新聞。
9 月 13 日,OpenAI 發布了傳說中代号 " 草莓 " 的全新模型系列的預覽版 o1 preview,随後又上線了 o1 mini。o1 模型系列,能夠模仿人類思維過程 " 慢思考 ",提升了 AI 的邏輯推理能力,成為 AI 模型領網域的王炸,牽動着整個行業的神經。
而就在上周,有不少用戶突然發現,能在 ChatGPT 官網上用到完整版 o1 了。奧特曼更是不小心 " 登錯賬号 ",在社交媒體宣布 "o2 即将登場 "。
從 o1 preview 到 o2,這一系列模型,炸裂歸炸裂,但所謂的推理能力好像并沒有真正融入產業應用,以至于大家都有種狼來了的感覺,開始猜測這不過是奧特曼的又一次宣傳噱頭。
比如,就有網友覺得完整版 o1 被釋放,并不是 " 不小心 ",而是 " 精心策劃 " 的炒作,奧特曼 " 登錯号劇透 o2" 也是裝的。
如何避免真實的技術價值淪為 " 狼來了 " 的戲碼?答案就是,别讓模型能力成為空中樓閣,而是加速落地到產業中。
到底哪些場景才能充分發揮 o1" 慢思考 " 的技術潛力呢?本文就來找找產業化落地的路子。
落地產業,前提是正确認識到技術的價值。o1 模型系列與老前輩們的最大區别和價值究竟是啥呢?就是慢思考。
我們都知道 GPT-4o 啥的處理些日常瑣事還行,但時不時就會犯點小迷糊,算個小學數學題加減法都錯漏百出。而 o1 就像是經過嚴格訓練的學霸,專克邏輯推理、復雜任務難題。前不久的 OpenAI 倫敦開發者日上,完整版 o1 的五大能力包括:函數調用、開發者 message、流式傳輸、結構化輸出、影像理解。
如果說 4o 的數學水平是高中生程度,那麼 9 月發布的 o1-preview 就有大學生水平了,即将發布的 o2 在 GPQA 研究生級别基準中取得了 105% 的成績,未來是妥妥的研究生了。
而上述能力靠的就是 o1 的獨門秘籍——慢思考。
已知人腦有兩種模式:一種是快思考,就是咱們平時 " 一拍腦門 " 那種憑直覺、靠經驗的快速決策;另一種是慢思考,指的是在解數學題、進行科學推理需要花時間、費精力去琢磨的思考模式,更注重邏輯和理性分析。
o1 通過學習人腦深思熟慮、穩扎穩打的思考模式,o1 采用強化學習 + 思維鏈,把復雜問題拆成小塊,一步步來,直到得出最準确的答案,極大地提高了模型的推理能力。
研究生級别的學霸 o1 模型系列,給 AI 界帶來了全新的可能。但如何将 " 慢思考 " 的技術潛力真正轉化為實際應用,讓 o1 成為推動產業進步的重要力量?還是一個需要進一步探索的話題。
產業大不同,落地有先後。按照落地的難易程度,我們可能會看到類 o1 的 " 慢思考 " 能力,在以下產業逐步應用開來。
堅實的數字化基礎、對新技術的高接受度、強大的付費能力,這些特性使得金融成為大模型技術落地的理想場所。
幾乎所有的大模型廠商,都将金融行業作為業務開拓的第一站。然而,在金融與大模型的結合過程中,由于大模型的推理能力不強,加上幻覺問題,導致大模型在金融領網域的復雜應用中表現并不理想。
此前,大模型在金融行業的應用範圍,主要是一些容錯率較高的淺層應用上,如智能客服、報表文檔助手。而風控、信貸、投資分析等的嚴肅生產力場景,需要對多種模态的數據,進行深入分析和推理,決策質量要求極高。這些核心業務中,大模型在工作流中發揮的價值相對有限,主要還是得靠人類專家來做。
一位銀行從業者表示,客戶需要我們的理财分析師給出犀利、專業的觀點來幫助決策,而大模型只會泛泛而談,沒什麼參考價值。
人人都希望由專業的金融從業人員來服務,如果 AI 模型能夠在一些容錯率低的嚴肅場景中應用,只需要少量人工幹預、監督和驗證,那麼專業人士的時間精力,不就可以解放出來了嗎?随着 " 慢思考 " 邏輯推理能力的出現,這一期待真的有可能實現。
基于類 o1 的邏輯推理能力,我們有望看到 AI 在金融核心業務中承擔起專家角色,發揮更重要的作用。比如像專業審核員一樣讀征信報告、看賬單流水,甚至能解讀網絡大數據,思考和捕捉數據之間的關聯,并生成風險判斷的依據和結論。
又或者像專業分析師一樣,根據用戶需求進行個性化的產品設計,缜密分析投資策略,給出理财、投資、投保等建議。
慢思考可以讓 AI 從淺層、邊緣、單一的場景,進入到復雜、核心、高價值的核心業務中,突破大模型在金融行業的價值上限。
"o1 實在太強了……我的博士作業做了 20 個小時,被它 3 分鍾思考就拿下了。剛讀博就出這個,感覺人生都灰暗了 [ 流淚 ] 。" 邏輯推理能力達到研究生水平的 o1 模型系列,讓不少人類研究生、博士生感到了切實的危機。
但用一句流行語來說,"o1 不是來拆散科研這個家,而是來加入這個家的 "。
近幾十年來,神經網絡算法已經被廣泛應用于科研領網域,從宏觀世界的天文探索、引力波探測,到微觀世界的蛋白質折疊、同步光源等,數據科學和算法工程提供了大量的操作手段,幫助科學領網域的探索性課題取得突破。AI 技術已經成為科學研究不可或缺的一部分,AI4S 的大趨勢不可阻擋。
面對這個過程,一位高校力學老師曾對我們說過一個比喻:AI 和力學的結合,就像是成功的婚姻才剛剛開始,會有甜蜜期,也會有磨合期。
傳統模型算法雖然有強大的計算能力和手段,但缺乏深入的邏輯推理能力和對科學原理的深刻理解,面對復雜的科學問題時,往往力不從心,難以提供準确且可靠的解決方案。思考方式跟追求嚴謹的科學家們大相徑庭,此前的 AI4S 全靠人類遷就。
而 o1 慢思考強調的逐步分析、深入推理,這種思考方式與科學研究的本質不謀而合。具備慢思考能力的 AI 模型,相當于掌握了碩博們的學習方法,可以逐步拆解問題、分析數據、反復驗算、推導結論。
在科研領網域,類 o1 模型可以作為科學家們的 " 科研伴侶 ",扮演好幾種角色:
1. 靈感缪斯。在一些經典的科學問題,或者已經成熟的科研結果上,科學家們往往還要開發新方法、新理論。這個過程中,AI 的邏輯推理能力可以發現數據之間的潛在聯系和規律,提出新的假設和預測,為科學研究開辟新的道路。
2. 科研助理。随着科學領網域 " 低垂的果實 " 被摘完,科學家們要去解決更復雜的問題。以力學為例,在深水探索任務中,不僅要做簡單的維度對比,還需要做更細節的探索研究,包括復雜的洋流環境、水下潛入等復雜動作,這些是傳統的流體控制方法所難以預測的。而邏輯推理大模型可以在這類非線性、高維度的科學問題與科研應用上,有更好的性能表現。比如馬克思普朗克研究所的量子物理學者 Mario Krenn,就展示了 o1-preview 正确完成計算的復雜量子物理問題。
3. 工程師助理。科研目的不是簡單地開發新方法、新理論,最終成果要轉化到工業界,去解決工業、生活中的現實問題,這就不單單需要新穎的想法,還需要技術的安全性、成熟度、容錯率等。這時候,具備邏輯推理能力的大模型,可以在工業場景中處理復雜問題,降低幻覺,如同工程師助理一樣,減少實際應用中的故障率。
無論是容錯率較高的創造型任務,還是容錯率較低的工程類任務,擁有 " 慢思考 " 能力的大模型,都會是一名更得力的助手,與科學長相厮守。
ChatGPT 的第一個應用案例,就是幫學生寫作業,為此遭到了各國多所學校的嚴格限制。這種應用場景雖然不可取,但說明了一個道理:充斥着大量文本、重復任務的教育行業,是大模型落地的絕佳場景。
過去一年多來," 大模型 + 教育 " 這個新風口的爆發,也證實了教育產業 AI 化的價值切實存在。但真正落地的應用,主要還是以 AI 口語對話、AI 批改作文、LLM 翻譯、中英文寫作等功能為主。
一旦覆蓋到復雜的學科内容,比如數學、物理、化學等,連 "9.9 跟 9.11 誰大 " 都搞不清楚的 GPT 們就集體熄火了。國產大模型也同樣如此,一位國產數學大模型的工作人員告訴我,做數學題的正确率是 60%。試問哪個家長敢讓數學成績剛及格,還熱愛 " 胡說八道 " 的 AI 給孩子當家教呢?
邏輯推理,限制了模型的能力邊界。而模型的能力限制,又進一步影響了智能教育硬體、個性化 AI 在線輔導服務的市場化推廣步伐。可以說,解決大模型 + 教育的商業化問題,最關鍵的是問技術要出路,這也是慢思考模型的價值所在。
首先,具備慢思考的大模型,數學推理的能力飛躍,數學正确率更是肉眼可見地高漲。在剛剛結束的 2024 IOI 信息學奧賽題目中,o1 的微調版本在每題嘗試 50 次條件下取得了 213 分,屬于人類選手中前 49% 的成績。如果允許它每道題嘗試 10000 次,能獲得 362.14 分,可以獲得金牌。對于有算力、有開發能力的教育大模型公司來說,完全有可能開發出數學能力很強的垂類大模型,提供面向復雜學科或高年齡學段的 AI 輔導功能。
其次,疊加了多模态的推理大模型,進一步開拓教育應用。在洩露出來的完整版 o1,已經具備多模态能力了,支持上傳附件,或直接識圖。有網友将一道普特南數學競賽的證明題截圖發給 o1,就被具有影像推理能力的 o1 成功搞定。這意味着教育類大模型不再局限于文本、語言對話類的功能,可以跟物理世界產生互動,比如拍照答題、實時視頻問答等,不管學生問的是現實世界中的什麼問題,AI 都能大概率找出正确答案。
更為關鍵的是,由于慢思考的模型不再一味追求參數、追求 scaling law,而是着重于提高推理能力和認知效率。也就是說,面對一個復雜問題或任務,AI 大模型開始以 " 更聰明 " 的方法,而非 " 力大飛磚 " 的笨辦法,模型的參數規模更小,更便于在硬體終端上部署,在同樣的終端配置下,推理大模型可以表現更出色,這有利于 AI 學習機等教育類智能硬體的普及,為教育行業帶來新的增長點。
雖然慢思考的類 o1 大模型還是個新鮮事物,OpenAI 噱頭大于實際的營銷手段也招人吐槽,但可以肯定的是,更強邏輯推理能力的大模型,将成為模廠與行業在智能化領網域所必須拿下的高地,去解決此前 LLM+ 行業的結合止于淺層應用、難以應對復雜業務的產業化痛點,進而打開大模型的商業化空間。
究其核心,是 AI 大模型開始走出語言類任務的局限,可以在容錯率低、專業性強的嚴肅工作中發揮價值。
專家型人才稀缺的行業場景,往往也是高價值所在。懂得慢思考的大模型,正慢慢行業專家化,這讓大模型更有價值,也讓會思考的人更有價值了。