AI開卷數學模型，哪家強？ - 大酷樂

今天小編分享的科技經驗：AI開卷數學模型，哪家強？，歡迎閲讀。

文 | 王智遠

Kimi 這兩天悄悄推出數學版，名字叫：k0-math。

知道模型前，已經有不少外部不少信息説對标 OpenAI o1 系列，還有人放出了在 MATH、中考、高考、考研 4 個數學基準測試中的數據。

結論是，Kimi 數學版成績均超過了 OpenAI o1-mini 和 o1-preview 模型。

對于這種評測肯定有各種説法。有些人認為，Kimi 在處理幾何、代數和計算準确性方面表現不錯，還能提供多種解題思路。即使遇到一時解不出的題目，它也會 " 回爐 " 重新分析，最終給出正确答案。

但也有人指出，國内大模型推出數學版的同時，也暴露了自身的真實水平；以前，數學能力不是大家關注的重點，但随着 Kimi 推出這個新模型，人們逐漸意識到：數學才是衡量大模型底層能力的核心。

既然如此，大模型卷數學哪家更強呢？紙上得來終覺淺，絕知此事要躬行；所以，和團隊夥伴一口氣測了 8 個模型。

01

模型包括：主流的 Kimi、ChatGPT（o1 和 o1-preview）、豆包、通義千問 2.5、訊飛星火、誇克和知乎直答。

問題來了，該怎麼測試這些模型的數學能力？剛好前兩天發完小綠書後，有位朋友留言推薦了一道題。他説，試試這個問題：

正方形 ABCD 繞 B 逆時針旋轉任意角度得正方形 BPQR ，連 QD ，連 CP 交 QD 于 E 。已知 CE =5V2, ED =4，求 AB 的邊長。

説實話，我不是專業的數學博主，只能從評測的角度來還原這個過程。先説明一點，這裏面有些模型可能并沒有對外宣傳自己能做數學題，但這沒關系，測一測或許會發現一些意想不到的表現。

我把問題給 Kimi 數學版，這是它給的結論：

準确嗎？

説實話，我不知道。畢竟這些幾何知識早就還給老師了，為了避免答得太離譜，我順便問了 Kimi 一個問題：這道題屬于什麼範疇、什麼難度？

它告訴我：這是一道正方形旋轉、勾股定理、以及三角形組成的題，主要在初中、高中的幾何課程中，反復被讨論更復雜的幾何變換使用。

好吧，先不糾結我自己的數學水平，接着測試豆包。為了閲讀方便，這裏就不放截圖了。豆包的計算速度很快，結論和 Kimi 數學版完全一致。這麼看來，這兩個模型在答案上還是比較統一。

通義千問 2.5 模型怎麼樣呢？它的第一個答案是 √ 33，但當我再次測試時，它給出的結果變成了 √ 66。這個結果讓我有點懵。

事情總是按照英雄之旅的模式發展，測試訊飛星火時，它的計算速度比其他幾個模型明顯慢了一些。

更離譜的是，它得出的結論是正方形 ABCD 的邊長是 9，而我問的是 AB 的邊長；于是，我指出了這個錯誤，要求重新計算，這才得到一個和通義千問類似的答案。

接下來是誇克的測試。

它提供了三個不同的計算過程，但結論并不一致，帶着疑惑，我又測了知乎直答，結果更不一樣，答案五花八門，讓人有點摸不着頭腦。

心裏帶着疑惑，轉向 ChatGPT 4o。

這個模型很有意思，它一開始幾乎快解完了，卻突然删掉了；更有趣的是，它解完又删，又重新計算，像在 " 反思 " 自己的解題思路。最終，它的答案和 Kimi 數學版一致。

切換到 ChatGPT o1-preview 模型後，答案和通義千問、訊飛星火類似。

8 個模型最終測試下來，豆包、Kimi、ChatGPT 4o 計算方式和答案一致；通義千問、訊飛星火、ChatGPT o1-preview 答案另一個答案；誇克和知乎直答，提供了不同的結果。

02

有句話，被人經常説起，即：如果給我一個小時來解決問題，我會用 55 分鍾來思考問題，再用 5 分鍾來思考解決方案。

雖然，無法證明是不是愛因斯坦説的，至少告訴我們，思考比答案更重要，問題被定義，答案也就很好解決。

于是乎，我們來了一波反向操作，把問題又給了 8 個大模型，讓它來糾正錯誤。

首先，拿 ChatGPT4o 和 ChatGPT o1-preview 進行對比，果然，統一大模型下測試語言類和數學類就能看出它真正的能力。

ChatGPT4o 邏輯性比較明顯，回答也很幹脆，它説：

一，旋轉角度不明确，比如 " 繞 B 點逆時針旋轉任意角度 "，這個角度到底是多少？需要明确。二，已知條件和幾何關系不匹配，導致計算困難。

三，因為有前兩個問題存在，求 AB 角度會很靈活，結果容易變化。

ChatGPT 0.1-preview 的回答方式有點不同。它會先分析，等梳理完再給出完整答案。雖然内容和 ChatGPT4o 一致，但思路展開得更全面些。

Kimi 呢？表現如何？

它更懂中國人一些，我雖然做數學題的能力早蜕化完了，但能看懂解題思路；它分析了三個關鍵問題，最後建議直接設定一個具體角度（比如 90 °）或補充幾何信息，這樣能避免理解偏差；總體來説，Kimi 的回答簡單明了。

豆包回答更注重細節。它明确指出旋轉角度模糊、缺少等量關系線索等問題，給出具體修改建議，比如将 " 繞 B 點逆時針旋轉任意角度 " 改為 " 旋轉 45 ° "，或者增加三角形面積比等條件。

它的回答怎麼評價呢？

Kimi 結構化清晰，列出幾點就沒了；豆包，則會在條目上進行一步展開動作，内容更豐富一些。

通義千問 2.5 的表現有些矛盾。它一開始説問題沒有邏輯錯誤，但又指出條件中 CE 和 ED 的長度與旋轉角度不匹配。這種前後不一致讓我有點困惑。

再説説訊飛星火模型，它在糾錯方面表現一般，會直接還原解題思路，但幾乎沒有排查問題，即使調整提示詞，結果還是一樣，和其他模型的表現有明顯差距。

對于誇克，體驗感受是這樣，它網頁版只有搜題、上傳圖片來解題這倆功能，不像其他智能體能直接把問題發給它，再給提示詞讓幫忙解題。

缺了過程就限制了互動性。只能換種形式，對着電腦拍張圖片給它；不過它的解題能力很強，能根據缺少的條件生成多個答案，并還原出對應的解題思路。

知乎知答倒是挺意外，雖然它沒宣傳解題功能，但它不僅能解決問題，還能糾錯。

一部分答案依賴搜索，另一部分通過生成完成，它還能直接指出題目中模糊的地方，加入修正設想。不過它的回答沒有 Kimi 或豆包那樣條理清晰，可能是訓練數據不足的原因。

8 個模型，整體糾錯下來，ChatGPT 4.o 和 Kimi 水平相當，回答清晰，ChatGPT o1-preview 和豆包細節更豐富，展開更多。

通義千問 2.5 表現模糊，訊飛星火在糾錯方面還需提升，誇克解題能力強，但互動性差。知乎知答算是意外之喜，能解題糾錯，但條理性稍弱。

以上是我和團隊另一位夥伴測試中的個人體驗，如果認為不準，也可以親自測試一下模型中的表現。

測試完後，我查了一下，這道題如果出現在試卷裏通常會明确説明旋轉角度。但在我的測試中，這個條件沒有給出，所以問題本身确實有些模糊。

也正因如此，我更覺得，明确和梳理清楚問題才能找到答案。

03

大模型卷數學能力蠻重要，為什麼重要？理由有很多，不過，從我的感受上認為有兩個值得關注下。

第一點：教育

家長們輔導孩子做作業已經夠費勁了，尤其是數學題，将來你有了孩子，遇到難題想用 AI 幫忙，結果幾個模型給出的答案都不一樣，那得多讓人焦慮？

從大方面看，解題思路可以有很多種，但答案必須準确無誤。因為數學是嚴格按照邏輯規則來的學科，從公理到定理，每一步推導都要精确，數學結論出錯了，接下來的推導可能全錯。

我們可以想象一個實際場景。比如：工程設計。

某天我們用 AI 模型幫忙計算關鍵數據，結果有偏差，那施工時是不是會直接釀成事故？

還有一點，我感覺數學模型的實際應用場景比語言模型更多，從金融分析到天氣預測，從自動駕駛到工程設計，哪一樣離得開精确的數學運算？

第二點：模型本身

過去幾年，大語言模型學了不少東西，比如語言、語義和情感表達。這就像一個剛出生的孩子，最初大腦充滿了對情感、語言和人際交流的敏感性。

但接下來，模型要進入更高層次的認知發展階段，就像孩子逐漸開始上學，學習數學、科學等邏輯性更強的東西。

這個階段，好比大腦的 " 系統 2"，更高級的理性思考能力。系統 2 的作用是什麼？深入理解、推理和解決復雜問題的基礎。

如果模型在理科上不夠精準，那怎麼能指望它在復雜的任務中表現得好呢？所以，數學是對系統 2 的極限測試，因為數學不容模糊，要麼對，要麼錯，沒有中間地帶。

更進一步説，大語言模型不能只會講故事、安慰人，它得成為一個會計算的 " 科學家 " 或者 " 工程師 "，這樣才能解決更高層次的問題，而這一切都要靠數學能力。

04

我注意到除 Kimi 外，還有不少大公司推出了專門提升數學能力的大模型。

比如：好未來的 MathGPT，它主要為全球的數學愛好者和科研機構服務的，主要做搜題和答題，屬于千億級别的大模型。

百川智能的 Baichuan 4，主要關注金融行業，能做風險評估和交易策略分析，已經和用友、軟通動力、新致軟體、達觀數據、華勝天成等夥伴合作了。

阿裏雲的 Qwen2-Math 是個開源模型，專門用來解數學題。雖然它還沒公布具體客户，但在學術研究和競賽培訓中經常看到它的影子。

除此之外，還有雲從科技的從容大模型和 MiniMax 的 abab6.5 等等。它們有的專注政府領網域，有的更偏向制造業，以前，這些公司大多通過大模型或者某個具體應用場景來讓大家了解。

現在 AI 在個人用户端應用競争，已經變得有些局限了。

因為主要集中在搜索、對話、寫作、代碼生成這幾個領網域，AI 的極致體驗，更多是從搜索開始，然後逐步建立起搜集、應用、輸出的完整流程。

這種局限讓 AI 的潛力還沒有完全發揮出來，實際上數學模型的應用場景要比文科類、代碼生成要廣泛得多；不信，只要思考一個場景就夠了：

上班時，無論是财務、運營還是市場決策，幾乎所有公司每天都離不開數據。

管理者們關注的是什麼？是各種報表上的 ROI 指标，是增長率、轉化率，是用數字來衡量業務健康狀況的關鍵指标。

這些數字背後，靠強大的數學分析、預測和建模能力。

進一步來説，這種能力在更大的層面甚至關系到供給側的優化。比如，企業如何通過數據優化供應鏈，降低庫存成本，同時提升交付效率？

如何用數學模型分析市場需求波動，及時調整生產計劃？這些都是企業面臨的核心問題，而解決問題的關鍵，正是強大的數學建模能力。

所以，數學模型意義早已超越學科本身，它是推動經濟發展，加速商業效率的支柱，AI 模型卷數學，無疑能讓能力邁向新高度。

總結

未來，誰更勝一籌呢？

不太好定義，不過，我認為，在比能力這件事上，不如多思考一下，如何進入某個領網域拿到數據，畢竟數據是訓練模型重要的語料。