今天小编分享的科技经验:这道数学题,Kimi和豆包谁答对了?,欢迎阅读。
出品|虎嗅科技组
作者|余杨
编辑|苗正卿
头图|视觉中国
12 月 16 日下午,我照常使用 Kimi,突然发现 Kimi 数学版的和蔼小眼镜 logo 的眼镜框变大了。
滑鼠移过去一看,"Kimi 数学版 " 已经正式改名为 "Kimi 视觉思考版 "。
这让我想起上周为 Kimi 数学版写的测评文章。原文如下:
11 月 26 日下午,Kimi 上线了 k0-math 模型驱动的 Kimi 数学版,官宣文非常简单,一共 3 张图,1 张主题,1 张入口,1 张能力测评,Kimi 用数据说话,直接对标了 Chatgpt 正当红的 o1-mini 模型,主打一个 " 人狠话不多 "。
或许是为了面向更多的用户,官方还提供了玩法思路:" 听说 Kimi 数学版不只会数学,就像《生活大爆炸》里的 Sheldon 一样,它会用理科思维来解释生活中的一切。你还可以试试让它陪你玩 24 点游戏。"
由于我的数学知识早已还给老师,数学水平和亟需 AI 提升教育属性从而用来辅导孩子做作业的家长没什么区别,需要验证 Kimi 做数学题到底行不行,这篇测评经历了一些曲折,以至于还未发出。
Kimi 改版后,测评虽成明日黄花,但也有了审视两个版本的 Kimi 差别的契机。
让我们一起来看看,Kimi 做出了哪些改变。
前面提到,我的数学知识早已还给老师,因此,我想了一个办法,用神话战胜神话,让 AI 给 AI 出题,看看 Kimi 在数学能力上表现得怎么样。
首先,我让豆包帮我出一道经典数学难题考考它。豆包表示,让 Kimi 证明一下任意大于 2 的偶数都可以表示为两个质数之和。
这是一道尚未被完全证明的哥德巴赫猜想数学题。
豆包也是非常 " 厚道 ",但没关系,AI 无情人有情,咱们换一道高中数学题试试水。
Kimi 数学版
第一问很快,大约 20 秒钟 Kimi 就给出了答案,然而第二小问,Kimi 花了 33 秒。解答整道题一共 53 秒。
总的来说,这是一道常规题,Kimi 的表现也可圈可点。
接下来看第二小问。
在这个过程中,Kimi 还使用了 " 然而,我们不妨换个角度思考。" 和 " 然而,让我们再仔细审视一番。" 等等非常人味儿的话,并认为自己的解答 " 无懈可击 "。
豆包
转而,我又把这道题扔回给豆包,让豆包解答,对于自己出的题,豆包一共花了 40 秒,第一问的解答方法与 Kimi 无出二致。
但第二问,豆包给出的答案却是:
哇~
我们一起来看看豆包的解题过程。
豆包被自己难倒了?
经人类审查,Kimi 和豆包的解法似乎都有点问题。
首先,第一小问没有争议。
而在第二小问中,Kimi 的解题思路是没有问题的,需要先解出 m 和 k 的关系。
但 Kimi 定点取来(h,k),取 h 没问题 ,k 是直线斜率,所以不应该取 k,至少应该换个字母,比如(h,h1)。
我猜测,Kimi 是随便选取了两个字母表示定点,而没有注意到顶点纵坐标的字母 k 就是直线 l 的斜率。在这个错误的基础之上,后续的推理都出现了问题。
通过这种方式得出了 " 直线 l 并不总是通过一个固定点 " 的结论后,Kimi 进一步提出 " 换个角度思考 " 的可能性。
然而,基于上面的错误,我们并不能够确定 " 存在一个与 k 无关的固定点 " 中的 k 指向的是直线斜率 k,还是定点纵坐标 k,亦或是通过错误方法得到的关于 k 的表达式中的 k。
如果同样的情况出现在人类解题过程中," 存在一个与 k 无关的固定点 " 更多地指向最后一种情况。但是 Kimi 的低级错误使得后续的讨论都无意义了。
再看豆包,豆包失误程度与 Kimi 不相上下。
在最后一步的整理过程,当 x=0 时,豆包忽略了等式中 k 的存在,而得出了 y = pm sqrt{frac{4}{3}} 的结论。
事实上,y=。而因为 k 是变动的,所以不存在定点。
它被自己出的题难倒了。
总结
数学,原本就是解开宇宙万物本源最为重要的钥匙之一。早期人类通过结绳、刻字来计数,到后面算盘诞生,推动计算的演化与发展,人类的数学能力一直在以指数级提升。计算机首次实现规模演算,人类花费数千年才能推算出的结果跃然纸上,时至今日,这一棒交到了 AI 手上。
Kimi 数学版发布之际,月之暗面创始人杨植麟曾在媒体采访中表示," 如果说长文本是月之暗面登月的第一步,那么提升模型深度推理能力则是第二步。"
这套话语背后,映射的是曾经 " 百模大战 " 的 AI 圈对 Scaling laws 不再深信不疑,所谓 Scaling laws 是相信 " 大力出奇迹 ",随着模型规模、训练数据和计算资源的增加,模型性能会得到显著提升。
但随着算力扩展到一定的规模,这时算力的增加很难再直接提升模型的质量。从 Claude 推出更高效的小模型开始,大模型 " 厂商 " 纷纷转向寻找有效的方法来 Scale。
也就是说,这时的状态是,再加更多的算力,并不一定能看到直接的提升。因为核心是没有高质量的数据,小几十 G 的 token 是人类互联网积累了 20 多年的上限。于是,要通过算法的改变,来释放 Scaling 的潜力。
对此,月之暗面选择了强化学习的方法和思维链(ChAIn of Thought,简称 COT)技术,Kimi 数学版即由此出圈,这项技术使模型能够像人类一样进行逻辑推理和思考,从而在多个数学基准测试中超越了主流 AI 模型。
另外需要注意的是,为了 Kimi 数学版获得更好的体验,公式推荐使用 LaTeX 格式。不知道怎么输入的话,可以截图或拍照给 Kimi 常规版,让 Kimi 把图片转为 LaTeX 格式,然后复制题目给 Kimi 数学版,此次测评完全遵循说明。
Kimi 视觉思考版
今天,我找了历史记录,把之前 Kimi 解析的 LaTeX 格式数学题发给了 Kimi。
对于第一小问,Kimi 给出了如下解答。
首先,Kimi 的数学公式符号更加完善了,另外,它增加了验算步骤。
这次 Kimi 的解题过程耗时 4 分半钟,并且,在 3 分 10 秒左右的时候,Kimi 经过了一个大大的停顿,似乎因为 chat 的篇幅所限," 断了 "。
上周测评时我曾写到:" 但显然从以上解题过程来看,‘像人类一样进行逻辑推理和思考’似只停留在表面,这一宏伟构想还有一段路要走。"
从这周发布的 Kimi 视觉思考版看来,它似乎太 " 人类 " 了,它会说 " 我觉得我之前的展开可能有误 ",还会说," 等等,还有一个想法 "。
更重要的是,到这里,Kimi 的推演中断了,由于给我提供了 " 接着说 " 按钮,我猜测是之前的推演篇幅过长,Chat 的容量还需要调试。
我们先一起来看接下来的解题步骤。
内容还挺硬核,上次的测评,我请学数学的朋友看了看,人类的解题思路在上文了。
这一次,把评分交给大家。
看到这里,你会想给 Kimi 点个赞吗?