马斯克用20万张卡练出的Grok 3能超越DeepSeek吗？

今天小编分享的互联网经验：马斯克用20万张卡练出的Grok 3能超越DeepSeek吗？，欢迎阅读。

出品｜虎嗅科技组

作者｜孙晓晨

编辑｜苗正卿

头图｜直播画面

2 月 18 日，马斯克所言 " 地球上最聪明的人工智能 " 终于亮相，其旗下人工智能公司 xAI 正式发布其新一代的大语言模型 Grok 3，马斯克本人也在社交平台 X 上同步开启直播演示。

据直播介绍，Grok 3 已超越目前市场上所有已发布的人工智能。在官方公布的测试数据中，其在数学推理、科学逻辑推理以及代码写作等方面表现均优于 ChatGPT-4o、DeepSeek-V3 等竞品。

Grok 大模型是马斯克旗下的 xAI 公司推出的人工智能模型，其命名源自美国科幻作家罗伯特 · 海因莱因的小说《异乡异客》（Stranger in a Strange Land）。该系列第一款大模型 Grok 1 于 2023 年 11 月面世，2024 年该模型参数量扩展至 3140 亿，远超 GPT-3.5 的 1750 亿。2024 年 8 月，Grok 2 大模型发布，在 Grok 1 基础上全面更新，并在 X 平台上面向用户免费使用。而此次直播推出的 Grok 3，据工程师表示，其所涉及的训练是 Grok 2 的 10 倍，且 Grok 3 已经在 xAI 内部运行了 2 周。

据悉，Grok 3 训练所用 GPU 总量为 20 万个，在第一阶段通过 10 万个 GPU 进行训练，耗时 144 天，而第二阶段的 92 天中，所用 GPU 数量拓展到了 20 万个。此前据报道，印度已启动一个有超过 1.8 万个 GPU 的公共计算设施，将对初创公司、研究人员和开发者开放，以促进其国内人工智能发展以及本国大语言模型的训练。相较之下，xAI 的 Grok 3 训练所用 GPU 总量已远超印度国家级项目 GPU 总量 10 倍不止。庞大的算力规模成为 Grok 3 加速问世的最大助力，也让 xAI 在日益激烈的市场竞争底气十足。

在直播活动中，xAI 的工程师展示了 Grok 3 的使用，如现场生成一段太空发射的 3D 动画的代码、制作一款融合 " 宝石迷阵 " 和 " 俄罗斯方块 " 的游戏，Grok 3 均表现良好，这也证明了该模型对于复杂知识具有良好的理解。马斯克表示，Grok 3 的功能比 Grok 2 强大一个数量级。

面对 Grok 3 的极佳表现，有知名博主 Alexandr Wang 表示，Grok 3 是世界上新的最佳模型，其在聊天机器人竞技场中排名第一，且遥遥领先。Amjad Masad 也表示 Grok 3 似乎是最先进的尖端模型，他认为考虑 xAI 的处境，该模型的发布无疑是巨大成就。知名播客主持人 Lex Fridman 同样对该模型印象深刻，表达了对该模型的称赞。

而 Grok 3 所带来的骚动，实际上比该模型的正式面世要来得早。

此前，DeepSeek 在世界范围内掀起热潮。由于 DeepSeek-R1 模型的优秀表现，以及其代表的低成本训练路线，人们一度开始讨论全球 AI 话语权的归属问题。尽管人工智能行业尚处于群雄逐鹿的阶段，但是 DeepSeek-R1 模型无疑为这个世界带来巨大冲击。

继 DeepSeek 爆火之后，2 月 13 日，OpenAI 首席执行官奥特曼发布博文，宣布准备推出 GPT-4.5 和 GPT-5，并公布路线图。

同样在 2 月 13 日，马斯克在迪拜世界政府峰会上表示 xAI 将推出新一代模型 Grok 3，并盛赞其 " 强到让人感到害怕 "。而这也引发了人们对 Grok 3 的猜测，以至于讨论 AI 话语权可能再度扯向西方。

至此，一场有关人工智能模型的 " 三国杀 " 已见雏形。

作为 xAI 的重要市场竞争对手，OpenAI 对 Grok 3 的反应也引起人们的注意。在今日马斯克的直播活动开始之前，奥特曼在社交平台 X 发布消息，称 GPT-4.5 已进入测试阶段，并称其体验 " 接近通用人工智能（AGI）"，而这一行为被外界视为对 Grok 3 的紧急 " 狙击 "。

相比于明星产品 DeepSeek-R1，" 推理 + 测试时间计算 " 中，在数学推理、科学逻辑推理和编程三个方面，Grok 3 Reasoning Beta 版本综合得分分别为 93、85、79，均高于 DeepSeek-R1 的 80、71 和 65。最新 AIME 2025 性能测试中，Grok 3 Reasoning Beta 版本有 93 分，高于 DeepSeek-R1。前特斯拉人工智能总监、OpenAI 创始团队成员 Andrej Karpathy 通过提前体验指出，Grok 3 模型确实可以做到 DeepSeek-R1 做不到的事。而单纯从测试数据看，Grok 3 确实做到了比 DeepSeek-R1 略好。

尽管 Grok 3 在测试中成绩优秀，但是仍有分析表现，在 " 推理 + 测试时间计算 " 这一测试中，相比于 o3-mini（high）或 DeepSeek-R1，Grok 3 的数学性能并没有显著优势。马斯克表示，Grok 3 仍处于早期训练阶段，未来将持续优化。

据了解，自今日起，X 平台 Premium Plus 订阅用户将率先获得 Grok 3 访问权限。此外，xAI 还推出了名为 Super Grok 的独立订阅服务，但尚未公开定价。马斯克还表示，目前 xAI 的工程师团队正在训练 Grok 3 的迷你版本，并指出 " 迷你版的训练时间更长，有时表现略好于 Grok 3 推理模型。"

自 Grok 3 开始，马斯克 " 再无 AI 比 Grok 更优秀 " 的预言能否成真？以目前 AI 的更新速度而言，当真难以定论。但就该模型的表现来看，在人工智能的牌局上，马斯克确实甩出了有分量的 " 大牌 "。