国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

今天小编分享的科学经验：国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开，欢迎阅读。

DeepSeek 新版模型正式发布，技术大佬们都转疯了！

延续便宜大碗特点的基础之上，DeepSeek V3 发布即完全开源，直接用了 53 页论文把训练细节和盘托出的那种。

怎么说呢，QLoRA 一作的一个词评价就是：优雅。

具体来说，DeepSeek V3 是一个参数量为671B的 MoE 模型，激活 37B，在14.8T高质量 token 上进行了预训练。

在多项测评上，DeepSeek V3 达到了开源 SOTA，超越 Llama 3.1 405B，能和 GPT-4o、Claude 3.5 Sonnet 等 TOP 模型正面掰掰手腕——

而其价格比 Claude 3.5 Haiku 还便宜，仅为 Claude 3.5 Sonnet 的 9%。

更重要的是，大家伙儿还第一时间在论文中发现了关键细节：

DeepSeek V3 整个训练过程仅用了不到280 万个 GPU 小时，相比之下，Llama 3 405B 的训练时长是3080 万 GPU 小时（p.s. GPU 型号也不同）。

直观地从钱上来对比就是，训练 671B 的 DeepSeek V3 的成本是 557.6 万美元（约合 4070 万人民币），而只是训练一个 7B 的 Llama 2，就要花费 76 万美元（约合 555 万人民币）。

OpenAI 创始成员 Karpathy 对此赞道：

DeepSeek V3 让在有限算力预算上进行模型预训练这件事变得容易。

DeepSeek V3 看起来比 Llama 3 405B 更强，训练消耗的算力却仅为后者的 1/11。

Meta 科学家田渊栋也惊叹 DeepSeek V3 的训练看上去是 " 黑科技 "：

这是非常伟大的工作。

全网热烈实测中

先来看官方说法，新模型这次主要有以下几个特点：

首先从模型能力来看，其评测跑分不仅超越了 Qwen2.5-72B 和 Llama-3.1-405B 等开源模型，甚至还和一些顶尖闭源模型（如 GPT-4o 以及 Claude-3.5-Sonnet）不分伯仲。

从实际响应来看，其生成速度提升了3 倍，每秒生成 60 个 tokens。

在又快又好的同时，DeepSeek V3 的API 价格也被打下来了。

每百万输入 tokens 0.5 元（缓存命中）/ 2 元（缓存未命中），每百万输出 tokens 8 元

单论价格，正如一开始提到的，它几乎是 Claude 3.5 Sonnet 的 1/53（后者每百万输入 3 美元、输出 15 美元）。

而如果要平衡性能和成本，它成了 DeepSeek 官方绘图中唯一闯进 " 最佳性价比 " 三角区的模型。

对了，DeepSeek 这次还搞了一个45 天优惠价格体验期，也就是在 2025 年 2 月 8 日之前，所有用户使用 DeepSeek V3 API 的价格分别下降了 80%（输入命中）、50%（输入未命中），75%（输出）。

每百万输入 tokens 0.1 元（缓存命中）/ 1 元（缓存未命中），每百万输出 tokens 2 元

最后，官方此次一同开源了原生 FP8 权重，并提供了从 FP8 到 BF16 的转换脚本。

具体而言，SGLang 和 LMDeploy 这两个框架已支持 FP8 推理，另外两个框架 TensorRT-LLM 和 MindIE 则支持 BF16 推理（适合需要更高精度的场景）。

目前普通用户可以通过官网（chat.deepseek.com）与 DeepSeek V3 展开对话，API 也已同步更新，接口配置无需改动。

知名 AI 博主 AK 亲测，只需几行代码就能将它部署到 Gradio。

Okk，话说到这里，我们直接来看一些实测效果吧。

首位全职提示词工程师出新题，DeepSeek V3 完全答对

这第一关，来自首位全职提示词工程师 Riley Goodside。

新题为 "Which version is this?"，考察模型对自身版本的理解。接受考验的选手除了 DeepSeek V3，还有 Claude、Gemini、ChatGPT 和 Grok。

先说结论，按 Riley 的说法，这几位的回答主打" 各不相同 "，不过 DeepSeek V3 完全答对了。

Claude 3.5 Sonnet 也对其版本了如指掌——不仅说对了版本号（许多用户非官方地称这个版本为 3.5.1 或 3.6），还给出了发布月份。

（不过 Claude 3.5 Haiku 出错了，误识别为 Claude 3 Haiku。）

不过后面几位选手就开始各种出错了，尤其是 ChatGPT 和 Grok。

ChatGPT 要么给出模糊答案（基于 GPT-4 架构），要么直接自信给出错误版本，总之处于比较懵圈的状态。

而 Grok 更是独特，理论倒是一套一套，但就是不说自己的版本。（除非直接问它是哪个 Grok 模型）

除此之外，一些网友还进行了更多测试。

更多网友整活

比如这位 Tom 小哥惊讶表示，DeepSeek V3 无需开发者详细解释，就能 " 诡异 " 理解整个项目。

突然感觉机器里好像有鬼

他唯一做的，就是告诉 DeepSeek V3 最终目标是什么。

当然，老规矩还是要测一下数草莓中的 "r" 以及 "9.9 和 9.11 哪个大 " 这种行业难题。 ( doge）

很欣慰，这次它都答对了，而且答案和分析过程都没问题。

最后，还有人直接将 4 个 M4 Mac mini 堆叠在一起来运行 DeepSeek V3 了……

唯一值得遗憾的是，当前版本的 DeepSeek V3暂不支持多模态输入输出。

模型预训练：＜2 个月，600 万美元

测试完毕，我们继续掰开论文细节。先来看最受关注的预训练部分：

官方介绍，通过在算法、框架和硬體方面的协同优化，DeepSeek V3 的训练成本变得非常经济。

预训练阶段，在每万亿 token 上训练 DeepSeek V3 仅需要 18 万 GPU 小时，就是说，在官方 2048 卡集群上，3.7 天就能完成这一训练过程。

研发团队用了不到 2 个月的时间就完成了 DeepSeek V3 的预训练，耗费了 266.4 万 GPU 小时，再加上上下文长度扩展的 11.9 万 GPU 小时，和后训练的 5000 GPU 小时，总训练成本为 278.8 万 GPU 小时。

假设 GPU 租赁价格为每 GPU 小时 2 美元，那成本换算过来就是 557.6 万美元。

所以，具体是什么样的协同优化？

官方标注了几个重点：

首先，架构方面，DeepSeek V3 采用了创新的负载均衡策略和训练目标。

研发团队在 DeepSeek-V2 架构的基础上，提出了一种无辅助损失的负载均衡策略，能最大限度减少负载均衡而导致的性能下降。

具体而言，该策略为 MoE 中的每个专家引入了一个偏置项（bias term），并将其添加到相应的亲和度分数中，以确定 top-K 路由。

研发团队还证明，多 Token 预测目标（Multi-Token Prediction，MTP）有利于提高模型性能，可以用于推理加速的推测解码。

预训练方面，DeepSeek V3 采用 FP8 训练。研发团队设计了一个 FP8 混合精度训练框架，首次验证了 FP8 训练在极大规模模型上的可行性和有效性。

论文中还提到了跨节点 MoE 训练中的通信瓶颈问题。解决策略包括，设计 DualPipe 高效流水线并行算法：在单个前向和后向块对内，重叠计算和通信。

这种重叠能确保随着模型的进一步扩大，只要保持恒定的计算和通信比率，就仍然可以跨节点使用细粒度专家，实现接近于 0 的 all-to-all 通信开销。

另外，研发团队还开发了高效的跨节点 all-to-all 通信内核等。

后训练方面，DeepSeek V3 引入了一种创新方法，将推理能力从长思维链模型（DeepSeek R1）中，蒸馏到标准模型上。这在显著提高推理性能的同时，保持了 DeepSeek V3 的输出风格和长度控制。

其他值得关注的细节还包括，DeepSeek V3 的 MoE 由 256 个路由专家和 1 个共享专家组成。在 256 个路由专家中，每个 token 会激活 8 个专家，并确保每个 token 最多被发送到 4 个节点。

DeepSeek V3 还引入了冗余专家（redundant experts）的部署策略，即复制高负载专家并冗余部署。这主要是为了在推理阶段，实现 MoE 不同专家之间的负载均衡。

最后，来看部分实验结果。

大海捞针实验：

可以看到，在各项基准测试中，DeepSeek V3 在开源模型中达到 SOTA。

贾扬清谈 DeepSeek 团队：其成就根植于多年专业知识

新版本模型引爆热议，更多有关 DeepSeek 及其背后团队的信息也被关注到。

其中，贾扬清还透露了与 DeepSeek 团队早年的相处细节。

当时是 2019 年，他正打算向团队推荐一个 AI 云解决方案，并试图说服这群人：

不需要复杂的云虚拟化，只需要容器和高效的调度器。

需要真正快速、相互连接的专用网络，如 RoCE 或 Infiniband。

需要像 NFS 这样的通用存储，不需要太复杂，但必须快速。

要让 AI 开发者满意，而不是系统可靠性工程师（SREs）满意。

有意思的是，团队表示这些东西他们早已实践了多年，并转而让他帮忙向一些大学实验室捐赠算力资源。

当然最后也确实帮上忙了，而贾扬清也再次感叹：

DeepSeek 团队的伟大成就在某种程度上植根于多年的专业知识，这些专业知识部分被许多人忽视了。

最最后，除了本次官方公布的测试结果，Imsys 匿名竞技场也出来提前预热了。

家人们，快来用你最难的提示考考 DeepSeek V3。（后续发布竞技场榜单）

体验地址：

chat.deepseek.com

技术报告地址：

https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

抱抱脸开源地址：

https://huggingface.co/deepseek-ai/DeepSeek-V3

参考链接：

https://mp.weixin.qq.com/s/iFZOQsUNkpkXPDvOkE99wQ

— 完 —

点这里关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~