大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科技

AI開卷數學模型,哪家強?

2024-11-26 简体 HK SG TW

今天小編分享的科技經驗:AI開卷數學模型,哪家強?,歡迎閱讀。

文 | 王智遠

Kimi 這兩天悄悄推出數學版,名字叫:k0-math。

知道模型前,已經有不少外部不少信息說對标 OpenAI o1 系列,還有人放出了在 MATH、中考、高考、考研 4 個數學基準測試中的數據。

結論是,Kimi 數學版成績均超過了 OpenAI o1-mini 和 o1-preview 模型。

對于這種評測肯定有各種說法。有些人認為,Kimi 在處理幾何、代數和計算準确性方面表現不錯,還能提供多種解題思路。即使遇到一時解不出的題目,它也會 " 回爐 " 重新分析,最終給出正确答案。

但也有人指出,國内大模型推出數學版的同時,也暴露了自身的真實水平;以前,數學能力不是大家關注的重點,但随着 Kimi 推出這個新模型,人們逐漸意識到:數學才是衡量大模型底層能力的核心。

既然如此,大模型卷數學哪家更強呢?紙上得來終覺淺,絕知此事要躬行;所以,和團隊夥伴一口氣測了 8 個模型。

01

模型包括:主流的 Kimi、ChatGPT(o1 和 o1-preview)、豆包、通義千問 2.5、訊飛星火、誇克和知乎直答。

問題來了,該怎麼測試這些模型的數學能力?剛好前兩天發完小綠書後,有位朋友留言推薦了一道題。他說,試試這個問題:

正方形 ABCD 繞 B 逆時針旋轉任意角度得正方形 BPQR ,連 QD ,連 CP 交 QD 于 E 。已知 CE =5V2, ED =4,求 AB 的邊長。

說實話,我不是專業的數學博主,只能從評測的角度來還原這個過程。先說明一點,這裡面有些模型可能并沒有對外宣傳自己能做數學題,但這沒關系,測一測或許會發現一些意想不到的表現。

我把問題給 Kimi 數學版,這是它給的結論:

準确嗎?

說實話,我不知道。畢竟這些幾何知識早就還給老師了,為了避免答得太離譜,我順便問了 Kimi 一個問題:這道題屬于什麼範疇、什麼難度?

它告訴我:這是一道正方形旋轉、勾股定理、以及三角形組成的題,主要在初中、高中的幾何課程中,反復被讨論更復雜的幾何變換使用。

好吧,先不糾結我自己的數學水平,接着測試豆包。為了閱讀方便,這裡就不放截圖了。豆包的計算速度很快,結論和 Kimi 數學版完全一致。這麼看來,這兩個模型在答案上還是比較統一。

通義千問 2.5 模型怎麼樣呢?它的第一個答案是 √ 33,但當我再次測試時,它給出的結果變成了 √ 66。這個結果讓我有點懵。

事情總是按照英雄之旅的模式發展,測試訊飛星火時,它的計算速度比其他幾個模型明顯慢了一些。

更離譜的是,它得出的結論是正方形 ABCD 的邊長是 9,而我問的是 AB 的邊長;于是,我指出了這個錯誤,要求重新計算,這才得到一個和通義千問類似的答案。

接下來是誇克的測試。

它提供了三個不同的計算過程,但結論并不一致,帶着疑惑,我又測了知乎直答,結果更不一樣,答案五花八門,讓人有點摸不着頭腦。

心裡帶着疑惑,轉向 ChatGPT 4o。

這個模型很有意思,它一開始幾乎快解完了,卻突然删掉了;更有趣的是,它解完又删,又重新計算,像在 " 反思 " 自己的解題思路。最終,它的答案和 Kimi 數學版一致。

切換到 ChatGPT o1-preview 模型後,答案和通義千問、訊飛星火類似。

8 個模型最終測試下來,豆包、Kimi、ChatGPT 4o 計算方式和答案一致;通義千問、訊飛星火、ChatGPT o1-preview 答案另一個答案;誇克和知乎直答,提供了不同的結果。

02

有句話,被人經常說起,即:如果給我一個小時來解決問題,我會用 55 分鍾來思考問題,再用 5 分鍾來思考解決方案。

雖然,無法證明是不是愛因斯坦說的,至少告訴我們,思考比答案更重要,問題被定義,答案也就很好解決。

于是乎,我們來了一波反向操作,把問題又給了 8 個大模型,讓它來糾正錯誤。

首先,拿 ChatGPT4o 和 ChatGPT o1-preview 進行對比,果然,統一大模型下測試語言類和數學類就能看出它真正的能力。

ChatGPT4o 邏輯性比較明顯,回答也很幹脆,它說:

一,旋轉角度不明确,比如 " 繞 B 點逆時針旋轉任意角度 ",這個角度到底是多少?需要明确。二,已知條件和幾何關系不匹配,導致計算困難。

三,因為有前兩個問題存在,求 AB 角度會很靈活,結果容易變化。

ChatGPT 0.1-preview 的回答方式有點不同。它會先分析,等梳理完再給出完整答案。雖然内容和 ChatGPT4o 一致,但思路展開得更全面些。

Kimi 呢?表現如何?

它更懂中國人一些,我雖然做數學題的能力早蛻化完了,但能看懂解題思路;它分析了三個關鍵問題,最後建議直接設定一個具體角度(比如 90 °)或補充幾何信息,這樣能避免理解偏差;總體來說,Kimi 的回答簡單明了。

豆包回答更注重細節。它明确指出旋轉角度模糊、缺少等量關系線索等問題,給出具體修改建議,比如将 " 繞 B 點逆時針旋轉任意角度 " 改為 " 旋轉 45 ° ",或者增加三角形面積比等條件。

它的回答怎麼評價呢?

Kimi 結構化清晰,列出幾點就沒了;豆包,則會在條目上進行一步展開動作,内容更豐富一些。

通義千問 2.5 的表現有些矛盾。它一開始說問題沒有邏輯錯誤,但又指出條件中 CE 和 ED 的長度與旋轉角度不匹配。這種前後不一致讓我有點困惑。

再說說訊飛星火模型,它在糾錯方面表現一般,會直接還原解題思路,但幾乎沒有排查問題,即使調整提示詞,結果還是一樣,和其他模型的表現有明顯差距。

對于誇克,體驗感受是這樣,它網頁版只有搜題、上傳圖片來解題這倆功能,不像其他智能體能直接把問題發給它,再給提示詞讓幫忙解題。

缺了過程就限制了互動性。只能換種形式,對着電腦拍張圖片給它;不過它的解題能力很強,能根據缺少的條件生成多個答案,并還原出對應的解題思路。

知乎知答倒是挺意外,雖然它沒宣傳解題功能,但它不僅能解決問題,還能糾錯。

一部分答案依賴搜索,另一部分通過生成完成,它還能直接指出題目中模糊的地方,加入修正設想。不過它的回答沒有 Kimi 或豆包那樣條理清晰,可能是訓練數據不足的原因。

8 個模型,整體糾錯下來,ChatGPT 4.o 和 Kimi 水平相當,回答清晰,ChatGPT o1-preview 和豆包細節更豐富,展開更多。

通義千問 2.5 表現模糊,訊飛星火 在糾錯方面還需提升,誇克解題能力強,但互動性差。知乎知答算是意外之喜,能解題糾錯,但條理性稍弱。

以上是我和團隊另一位夥伴測試中的個人體驗,如果認為不準,也可以親自測試一下模型中的表現。

測試完後,我查了一下,這道題如果出現在試卷裡通常會明确說明旋轉角度。但在我的測試中,這個條件沒有給出,所以問題本身确實有些模糊。

也正因如此,我更覺得,明确和梳理清楚問題才能找到答案。

03

大模型卷數學能力蠻重要,為什麼重要?理由有很多,不過,從我的感受上認為有兩個值得關注下。

第一點:教育

家長們輔導孩子做作業已經夠費勁了,尤其是數學題,将來你有了孩子,遇到難題想用 AI 幫忙,結果幾個模型給出的答案都不一樣,那得多讓人焦慮?

從大方面看,解題思路可以有很多種,但答案必須準确無誤。因為數學是嚴格按照邏輯規則來的學科,從公理到定理,每一步推導都要精确,數學結論出錯了,接下來的推導可能全錯。

我們可以想象一個實際場景。比如:工程設計。

某天我們用 AI 模型幫忙計算關鍵數據,結果有偏差,那施工時是不是會直接釀成事故?

還有一點,我感覺數學模型的實際應用場景比語言模型更多,從金融分析到天氣預測,從自動駕駛到工程設計,哪一樣離得開精确的數學運算?

第二點:模型本身

過去幾年,大語言模型學了不少東西,比如語言、語義和情感表達。這就像一個剛出生的孩子,最初大腦充滿了對情感、語言和人際交流的敏感性。

但接下來,模型要進入更高層次的認知發展階段,就像孩子逐漸開始上學,學習數學、科學等邏輯性更強的東西。

這個階段,好比大腦的 " 系統 2",更高級的理性思考能力。系統 2 的作用是什麼?深入理解、推理和解決復雜問題的基礎。

如果模型在理科上不夠精準,那怎麼能指望它在復雜的任務中表現得好呢?所以,數學是對系統 2 的極限測試,因為數學不容模糊,要麼對,要麼錯,沒有中間地帶。

更進一步說,大語言模型不能只會講故事、安慰人,它得成為一個會計算的 " 科學家 " 或者 " 工程師 ",這樣才能解決更高層次的問題,而這一切都要靠數學能力。

04

我注意到除 Kimi 外,還有不少大公司推出了專門提升數學能力的大模型。

比如:好未來的 MathGPT,它主要為全球的數學愛好者和科研機構服務的,主要做搜題和答題,屬于千億級别的大模型。

百川智能的 Baichuan 4,主要關注金融行業,能做風險評估和交易策略分析,已經和用友、軟通動力、新致軟體、達觀數據、華勝天成等夥伴合作了。

阿裡雲的 Qwen2-Math 是個開源模型,專門用來解數學題。雖然它還沒公布具體客戶,但在學術研究和競賽培訓中經常看到它的影子。

除此之外,還有雲從科技的從容大模型和 MiniMax 的 abab6.5 等等。它們有的專注政府領網域,有的更偏向制造業,以前,這些公司大多通過大模型或者某個具體應用場景來讓大家了解。

現在 AI 在個人用戶端應用競争,已經變得有些局限了。

因為主要集中在搜索、對話、寫作、代碼生成這幾個領網域,AI 的極致體驗,更多是從搜索開始,然後逐步建立起搜集、應用、輸出的完整流程。

這種局限讓 AI 的潛力還沒有完全發揮出來,實際上數學模型的應用場景要比文科類、代碼生成要廣泛得多;不信,只要思考一個場景就夠了:

上班時,無論是财務、運營還是市場決策,幾乎所有公司每天都離不開數據。

管理者們關注的是什麼?是各種報表上的 ROI 指标,是增長率、轉化率,是用數字來衡量業務健康狀況的關鍵指标。

這些數字背後,靠強大的數學分析、預測和建模能力。

進一步來說,這種能力在更大的層面甚至關系到供給側的優化。比如,企業如何通過數據優化供應鏈,降低庫存成本,同時提升交付效率?

如何用數學模型分析市場需求波動,及時調整生產計劃?這些都是企業面臨的核心問題,而解決問題的關鍵,正是強大的數學建模能力。

所以,數學模型意義早已超越學科本身,它是推動經濟發展,加速商業效率的支柱,AI 模型卷數學,無疑能讓能力邁向新高度。

總結

未來,誰更勝一籌呢?

不太好定義,不過,我認為,在比能力這件事上,不如多思考一下,如何進入某個領網域拿到數據,畢竟數據是訓練模型重要的語料。

熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們