大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科技

Kimi的數學模型來了,這次甚至能挑戰高考。

2024-11-26 简体 HK SG TW

今天小編分享的科技經驗:Kimi的數學模型來了,這次甚至能挑戰高考。,歡迎閱讀。

消停了一陣子之後,國内又有大模型公司打榜 OpenAI 了。

這不,  Kimi   最近推了個數學模型   k0-math  ,号稱數學能力可以媲美   OpenAI   的   o1-mini   和   o1-preview  ,中高考、考研還有入門競賽題都能跟 o1 過過招。

該說不說,  AI   模型開始   "   炒作   "   起數學能力,這事兒還挺稀奇,畢竟   AI   的數學能力拉胯也不是一天兩天了,連 strawberry 裡有幾個 r 都一直數不清。。。

就連 OpenAI 的 o1 發布時,也沒有直說自己的數學多麼多麼厲害,只是點了一下推理能力罷了。

所以原本以長文本出圈兒的 Kimi ,這回突然卷起了數學,世超确實很好奇,好奇這個 k0-math 到底啥水平啊?

而世超在哥們兒的幫助下,也提前體驗了一陣子,今天就借着 Kimi 數學版(  基于 k0-math 模型  )全量開放了,帶着大家瞧瞧這個數學模型有多少斤兩。

目前,  Kimi   數學版只能在網頁版上用,入口倒是跟之前的普通版和探索版沒啥區别,但有一點,Kimi   數學版只支持一輪對話。

像世超一上來,就直戳 Kimi 痛處翻了波舊賬,問它   "13.11%   和 13.8%  ,哪個更大?  "  。(之前 Kimi 在這上面翻過車,說 13.11 的整數部分和小數部分都大于 13.8 。。 )

這次倒是學機靈了,而且很簡單的比數值大小,  Kimi   數學版都用上了  "   為了進一步确認   ""   為了确保萬無一失   ""   經過多種方法的驗證   "  這些話術, kuku 輸出了二三十行。

只不過當世超想再次追問的時候,出來的就不是 k0-math 模型了。

當然,這只是個小插曲,既然官方都已經把 k0-math 的實力挑明,那咱也不客氣了。

直接上今年高考新課标 1 卷的數學題:已知 cos ( a+  β )   =m , tanatan β  =2 ,則 cos ( a-  β )   =  ?

雖說解題過程有些波折,但總算是沒把最後   -3m 的答案弄錯。

這個問題我同時也問了智譜清言和   ChatGPT  ,答案倒是沒出入,但區别于一個步驟一個步驟列出來,  Kimi   數學版給我一種,它真的在模仿人類思考的過程。

模型在推導的過程中,懷疑過自己的思路可能是錯誤的,并且對此進行了驗證。

但下面這道概率題, Kimi 數學版就沒那麼好運了。

标準答案是 1/2 ,只有 ChatGPT 答對了。

世超看了眼 Kimi 數學版的推導過程, 24 種可能發生的情況它都列舉出來了,而且每一種情況誰輸誰赢也盤得清清楚楚,甚至最後還檢查了一遍。

但最大的問題出在,它把甲的總得分≥ 2 的次數,漏數了一個。。。實屬可惜。

咱再找一道 AMC 數學競賽的題目,給 Kimi 數學版試試。

一個集合由 6 個(  不是不同的  )正整數組成:1 、 7 、 5 、 2 、 5 和 X 。6 個數字的平均值(  算術平均值  )等于集合中的一個值。X 的所有可能值之和是多少?

這次世超還把豆包也加進來了,同一道題,四個模型只有智譜清言的算錯了。(正确答案是 36)

還有個小插曲,本來世超想再給 Kimi 試一道競賽題,結果它直接反過來質疑我。。試了好幾次都是這麼個回答,不知道是系統的 bug ,還是它壓根就不會兒這題,幹脆裝死。

有一說一,好幾道數學題試下來, Kimi 數學版确實給了我不少驚喜,特别是解題過程中展現出來的思考、推理的能力,又刷新了一波咱對 AI 模型數學能力的認知。

只可惜幾何題一如既往的菜,只是一道初中級别的幾何選擇題,給 Kimi 數學版的 CPU 都快幹燒了,結果還是錯的答案。

至于為啥 Kimi 的 k0-math 模型能有這麼大的突破,前段時間世超參加了一場月之暗面的媒體會,月之暗面的創始人楊植麟就告訴世超, k0-math 的成功很大概率要歸功于一個叫做 COT ( Chain of Thought )思維鏈的技術。

太專業的術語咱也不在這拽了,大夥兒可以把這個 COT 理解為, AI 模型模仿人類的大腦進行邏輯推理,把復雜的任務拆解之後,再一步步地解決。把這個技術運用到模型裡,模型就能夠通過   "   思考   "   來完成任務并提高正确率。

而為啥先把這東西用在了一個數學模型上,楊植麟直接引用了伽利略的名言  "   宇宙是由數學這門語言書寫而成的   "  。

總之,就是希望先從數學問題入手,再将數學的思維泛化,從而去理解整個世界。

當然,并不是說模型一旦用上了思維鏈就能得到正确的答案,但這個方式,目前确實可以提高模型對復雜任務的推理能力。

再舉個例子,咱讓 Kimi 數學版統計   " chaping debug the world "   裡,有幾個字母   "e"  。

先分别把   " chaping "" debug "" the "" world "   單獨拎出來,再挨個字母一個個查,方法雖然笨,但至少不會出錯。

就這麼說吧,這道簡單的數數題,世超試了一下,只有 Claude 和 Kimi 數學版數對了。

包括在   "   我有一塊 1 米長的面包,每天吃一半,需要幾天才能把這塊面包吃完 ? "   的問題中,在大部分 AI 給出永遠吃不完的答案時, Kimi 數學版覺得   "   是有物理極限的   "  ,認為分到了一納米就不能分了。。。

這種對任務拆解的能力,誇張到什麼程度,即使你問它 1+1 等于多少, Kimi 數學版都能給你唠半天,截圖根本截不完。

另外,在思維鏈的作用下,對糾正 AI 模型犯蠢、不會抓重點的老毛病也有一定效果。

像前段時間蘋果就發了篇論文,大概意思是說模型壓根就不會推理,随便加幾個無關痛癢的幹擾條件,模型的準确率就會下降。

但世超這次分别拿 Kimi 數學版和豆包試了試,題目是:超市裡,每袋大米售價 50   元,每瓶醬油售價 10   元。如果鮮蝦包購買了 4 袋大米和 4 瓶醬油,并且送給鄰居 1 袋大米和 2 瓶醬油,那麼鮮蝦包購買大米比醬油多花了多少錢?

這道題,還特地加了   "  送給鄰居 1 袋大米和 2 瓶醬油  "   的陷阱。

豆包多少就有點不懂人情世故了,還把自個兒留存的大米和醬油單獨拎出來算。

反觀 Kimi 數學版,深知送出去的禮物潑出去的水。

反正測試下來, k0-math 的解題準确率不能說百分百,但調用了思維鏈之後的邏輯推理過程,很大程度上提高了 Kimi 這個做題家的數學水平。

而且世超也發現,除了 k0-math 外,國内的幻方 DeepSeek 前兩天也搞了個推理模型 DeepSeek-R1-Lite ,同樣也是紙上水平媲美 o1 。

又是 o1 系列,又是 k0-math 、 DeepSeek-R1-Lite ,可能有差友也好奇,之前不是還在長文本嗎,這怎麼突然就卷起了推理能力了?

其實,傳統的拼算力、拼數據在大模型領網域,已經遇到了一定的瓶頸,而靠着強化學習,提高大模型的推理能力,已經成了大夥們卷的新方向。

這強化學習說白了,就是在訓練時讓 AI 自己試錯,最後摸索出正确答案。

像 Claude Sonnet 3.5 就是基于強化學習,實現了代碼能力的提升。包括 Kimi 創始人楊植麟在前陣子的媒體分享會上,也無數次 cue 到了強化學習,還說他們接下來會越來越關注基于強化學習的方法去繼續迭代。

最後,借用楊植麟的   "   登月論   "  ,如果說,先前的長文本是通往 AGI 的第一步,那麼現在讓 AI 學會思考,則是正式開啟了第二階段。

撰文:西西

熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們