大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科技

测试“天下最聪明”的Grok3,就这?

2025-02-19 简体 HK SG TW

今天小编分享的科技经验:测试“天下最聪明”的Grok3,就这?,欢迎阅读。

北京时间 2 月 18 日,马斯克与 xAI 团队,在直播中正式发布了 Grok 最新版本 Grok3。

早在本次发布会之前,依靠着种种相关信息的抛出,加上马斯克本人 24/7 不间断的预热炒作,让全球对 Grok3 的期待值被拉到了空前的程度。在一周前,马斯克在直播中评论 DeepSeek R1 时,还信心满满地表示 "xAI 即将推出更优秀的 AI 模型 "。

从现场展示的数据来看,Grok3 在数学、科学与编程的基准测试上已经超越了目前所有的主流模型,马斯克甚至宣称 Grok 3 未来将用于 SpaceX 火星任务计算,并预测 " 三年内将实现诺贝尔奖级别突破 "。

但这些目前都只是马斯克的一家之言。笔者在发布后,就测试了最新的 Beta 版 Grok3,并提出了那个经典的用来刁难大模型的问题:"9.11 与 9.9 哪个大?"

遗憾的是,在不加任何定语以及标注的情况下,号称目前最聪明的 Grok3,仍然无法正确回答这个问题。

Grok3 并没准确识别出这个问题的含义 | 图片来源:极客公园

在这个测试发出之后,很短的时间内迅速引发了不少朋友的关注,无独有偶,在海外也有很多类似问题的测试,例如 " 比萨斜塔上两个球哪个先落下 " 这些基础物理 / 数学问题,Grok3 也被发现仍然无法应对。因此被戏称为 " 天才不愿意回答简单问题 "。

Grok3 在实际测试中的许多常识问题上出现 " 翻车 "| 图片来源:X

除了网友自发测试的这些基础知识上 Grok3 出现了翻车,在 xAI 发布会直播中,马斯克演示使用 Grok3 来分析他号称经常玩的 Path of Exile 2 对应的职业与升华效果,但实际上 Grok3 给出的对应答案绝大部分都是错误的。直播中的马斯克并没有看出这个明显的问题。

Grok3 在直播中也出现给出数据大量错误的情况 | 图片来源:X

因此这个失误不仅成为了海外网友再次嘲讽马斯克打游戏 " 找代练 " 的实锤证据,同时也为 Grok3 在实际应用中的可靠性,再次打上了一个大大的问号。

对于这样的 " 天才 ",无论实际能力几何,未来被用于火星探索任务这样的极度复杂的应用场景,其可靠性都要打上一个大大的问号。

目前,众多在几周前获得 Grok3 测试资格、以及昨天刚刚用上几个小时的模型能力测试者,对于 Grok3 当前的表现,都指向了一个相同的结论:

"Grok3 是很好,但它并不比 R1 或 o1-Pro 更好。"

"Grok3 是很好,但它并不比 R1 或 o1-Pro 更好 "| 图片来源:X

Grok3 在发布中官方的 PPT 中,在大模型竞技场 Chatbot Arena 中实现 " 遥遥领先 ",但这其实也应用了一些小小的作图技巧:榜单的纵轴仅列出了 1400-1300 分段的排名,让原本 1% 的测试结果差距,在这个 PPT 展示中都变得异常明显。

官方发布 PPT 中的 " 遥遥领先 " 效果 | 图片来源:X

而实际的模型跑分结果,Grok3 其实也只比 DeepSeek R1 以及 GPT4.0 实现了不到 1%~2% 的差距:这对应了不少用户在实际测试中 " 并无明显差别 " 的体感效果。

实际上的 Grok3,只比后来者高了 1%-2%| 图片来源:X

此外虽然在分数上,Grok3 超过了目前公开测试的所有模型,但这一点并不被很多人买账:毕竟 xAI 在 Grok2 时代就有在这个榜单中 " 刷分 ",随着榜单对回答长度风格做降权处理而大幅降低分数的情况,因此经常被业内人士诟病 " 高分低能 "。

无论是榜单 " 刷分 ",还是配图设计上的 " 小技巧 ",都展示出的是 xAI 以及马斯克本人对于模型能力 " 遥遥领先 " 这件事的执念。

而为了这些差距,马斯克所付出的代价堪称高昂:在发布会中,马斯克用近乎炫耀的口吻表示,用了 20 万张 H100 训练 Grok3,总训练小时数达到两亿小时。这让一部分人觉得这是对 GPU 行业的又一个重大利好,并认为 DeepSeek 给行业带来的震动是 " 愚蠢 " 的。

不少人认为堆砌算力将会是模型训练的未来 | 图片来源:X

但实际上,有网友对比了使用 2000 张 H800 训练两个月得出的 DeepSeek V3,计算出 Grok3 其实际的训练算力消耗是 V3 的 263 倍。而 DeeSeek V3 在大模型竞技场榜单上与得分 1402 分的 Grok3 的差距,甚至还不到 100 分而已。

从这些数据出炉之后,就有不少人快速意识到,在 Grok3 登顶 " 世界最强 " 的背后,其实是模型越大,性能越强的逻辑,已经出现了明显的边际效应。

即使是 " 高分低能 " 的 Grok2,其背后也有着 X 平台内海量的高质量第一方数据作为支撑来使用。而到了 Grok3 的训练中,xAI 自然也会遇到 OpenAI 当前同样遇到的 " 天花板 " ——优质训练数据的不足,让模型能力的边际效应迅速曝光。

对于这些事实,最早意识到并且也是最深刻理解的人,肯定是 Grok3 的开发团队与马斯克,因此马斯克也在社交媒体上不断表示当前用户体验到的版本 " 还仅仅只是测试版 "" 完整版将在未来几个月推出 "。马斯克本人更是化身 Grok3 产品经理,建议用户直接在评论区反馈使用时所遇到的各种问题。

他大概是地球上粉丝数量最多的产品经理 | 图片来源:X

但不到一天之内,Grok3 的表现,无疑给寄希望依靠 " 大力飞砖 " 训练出能力更强的大模型的后来者敲响了警钟:根据微软公开的信息推测,OpenAI GPT4 参数体积为 1.8 万亿参数,相比 GPT3 已经提升了超过 10 倍,而传闻中的 GPT4.5 的参数体积甚至还会更大。

模型参数体积飞涨的同时训练成本也在飙升 | 图片来源:X

有 Grok3 在前,GPT4.5 以及更多想要继续 " 烧钱 ",以参数体积来获得更好模型性能的选手,都不得不考虑到已经近在眼前的天花板,应该怎样突破。

此时此刻,OpenAI 的前首席科学家 Ilya Sutskever 在去年 12 月曾表示 " 我们所熟悉的预训练将会结束 ",又被人重新记起来,并试图从中找到大模型训练的真正出路。

Ilya 的观点,已经为行业敲响了警钟 | 图片来源:X

彼时,Ilya 准确预见到了可用的新数据接近枯竭,模型难以再继续通过获取数据来提升性能的情况,并这种情况形容为化石燃料的消耗,表示 " 正如石油是有限资源一样,互联网中由人类生成的内容也是有限的 "。

在 Sutskever 预测中,预训练模型之后的下一代模型将会有 " 真正的自主性 ",同时将具备 " 类似人腦 " 的推理能力。

与如今预训练模型主要依赖的内容匹配不同,未来的 AI 系统将能够以类似于人腦 " 思维 " 的方式,来逐步学习并建立起解决问题的方法论。

人类对某一个学科做到基本的精通,只需要基本专业书籍即可实现,但 AI 大模型却需要学习数以百万计的数据才能实现最基础的入门效果,甚至当你换了个问法之后,这些基础的问题也无法正确理解,模型在真正的智能上并没有得到提升:文章开头提到的那些基础但 Grok3 仍然无法正确回答的问题,就是这种现象的直观体现。

但在 " 力大飞砖 " 之外,Grok3 如果真的能向行业揭示 " 预训练模型即将走到尽头 " 这个事实,那它对行业仍然称得上有着重要的启发意义。

或许,在 Grok3 的狂潮逐渐褪去之后,我们也能看到,更多类似李飞飞 " 在特定数据集的基础上 50 美元微调出高性能模型 " 的案例出现。并在这些探索中,最终找到真正通向 AGI 的道路。

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們