大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

国产之光DeepSeek把AI大佬全炸出来了!671B大模型训练只需此前算力1/10,细节全公开

2024-12-27 简体 HK SG TW

今天小编分享的科学经验:国产之光DeepSeek把AI大佬全炸出来了!671B大模型训练只需此前算力1/10,细节全公开,欢迎阅读。

DeepSeek 新版模型正式发布,技术大佬们都转疯了!

延续便宜大碗特点的基础之上,DeepSeek V3 发布即完全开源,直接用了 53 页论文把训练细节和盘托出的那种。

怎么说呢,QLoRA 一作的一个词评价就是:优雅。

具体来说,DeepSeek V3 是一个参数量为671B的 MoE 模型,激活 37B,在14.8T高质量 token 上进行了预训练。

在多项测评上,DeepSeek V3 达到了开源 SOTA,超越 Llama 3.1 405B,能和 GPT-4o、Claude 3.5 Sonnet 等 TOP 模型正面掰掰手腕——

而其价格比 Claude 3.5 Haiku 还便宜,仅为 Claude 3.5 Sonnet 的 9%。

更重要的是,大家伙儿还第一时间在论文中发现了关键细节:

DeepSeek V3 整个训练过程仅用了不到280 万个 GPU 小时,相比之下,Llama 3 405B 的训练时长是3080 万 GPU 小时(p.s. GPU 型号也不同)。

直观地从钱上来对比就是,训练 671B 的 DeepSeek V3 的成本是 557.6 万美元(约合 4070 万人民币),而只是训练一个 7B 的 Llama 2,就要花费 76 万美元(约合 555 万人民币)。

OpenAI 创始成员 Karpathy 对此赞道:

DeepSeek V3 让在有限算力预算上进行模型预训练这件事变得容易。

DeepSeek V3 看起来比 Llama 3 405B 更强,训练消耗的算力却仅为后者的 1/11。

Meta 科学家田渊栋也惊叹 DeepSeek V3 的训练看上去是 " 黑科技 ":

这是非常伟大的工作。

全网热烈实测中

先来看官方说法,新模型这次主要有以下几个特点:

首先从模型能力来看,其评测跑分不仅超越了 Qwen2.5-72B 和 Llama-3.1-405B 等开源模型,甚至还和一些顶尖闭源模型(如 GPT-4o 以及 Claude-3.5-Sonnet)不分伯仲。

从实际响应来看,其生成速度提升了3 倍,每秒生成 60 个 tokens。

在又快又好的同时,DeepSeek V3 的API 价格也被打下来了。

每百万输入 tokens 0.5 元(缓存命中)/ 2 元(缓存未命中),每百万输出 tokens 8 元

单论价格,正如一开始提到的,它几乎是 Claude 3.5 Sonnet 的 1/53(后者每百万输入 3 美元、输出 15 美元)。

而如果要平衡性能和成本,它成了 DeepSeek 官方绘图中唯一闯进 " 最佳性价比 " 三角区的模型。

对了,DeepSeek 这次还搞了一个45 天优惠价格体验期,也就是在 2025 年 2 月 8 日之前,所有用户使用 DeepSeek V3 API 的价格分别下降了 80%(输入命中)、50%(输入未命中),75%(输出)。

每百万输入 tokens 0.1 元(缓存命中)/ 1 元(缓存未命中),每百万输出 tokens 2 元

最后,官方此次一同开源了原生 FP8 权重,并提供了从 FP8 到 BF16 的转换脚本。

具体而言,SGLang 和 LMDeploy 这两个框架已支持 FP8 推理,另外两个框架 TensorRT-LLM 和 MindIE 则支持 BF16 推理(适合需要更高精度的场景)。

目前普通用户可以通过官网(chat.deepseek.com)与 DeepSeek V3 展开对话,API 也已同步更新,接口配置无需改动。

知名 AI 博主 AK 亲测,只需几行代码就能将它部署到 Gradio。

Okk,话说到这里,我们直接来看一些实测效果吧。

首位全职提示词工程师出新题,DeepSeek V3 完全答对

这第一关,来自首位全职提示词工程师 Riley Goodside。

新题为 "Which version is this?",考察模型对自身版本的理解。接受考验的选手除了 DeepSeek V3,还有 Claude、Gemini、ChatGPT 和 Grok。

先说结论,按 Riley 的说法,这几位的回答主打" 各不相同 ",不过 DeepSeek V3 完全答对了。

Claude 3.5 Sonnet 也对其版本了如指掌——不仅说对了版本号(许多用户非官方地称这个版本为 3.5.1 或 3.6),还给出了发布月份。

(不过 Claude 3.5 Haiku 出错了,误识别为 Claude 3 Haiku。)

不过后面几位选手就开始各种出错了,尤其是 ChatGPT 和 Grok。

ChatGPT 要么给出模糊答案(基于 GPT-4 架构),要么直接自信给出错误版本,总之处于比较懵圈的状态。

而 Grok 更是独特,理论倒是一套一套,但就是不说自己的版本。(除非直接问它是哪个 Grok 模型)

除此之外,一些网友还进行了更多测试。

更多网友整活

比如这位 Tom 小哥惊讶表示,DeepSeek V3 无需开发者详细解释,就能 " 诡异 " 理解整个项目。

突然感觉机器里好像有鬼

他唯一做的,就是告诉 DeepSeek V3 最终目标是什么。

当然,老规矩还是要测一下数草莓中的 "r" 以及 "9.9 和 9.11 哪个大 " 这种行业难题。 ( doge)

很欣慰,这次它都答对了,而且答案和分析过程都没问题。

最后,还有人直接将 4 个 M4 Mac mini 堆叠在一起来运行 DeepSeek V3 了……

唯一值得遗憾的是,当前版本的 DeepSeek V3暂不支持多模态输入输出。

模型预训练:<2 个月,600 万美元

测试完毕,我们继续掰开论文细节。先来看最受关注的预训练部分:

官方介绍,通过在算法、框架和硬體方面的协同优化,DeepSeek V3 的训练成本变得非常经济。

预训练阶段,在每万亿 token 上训练 DeepSeek V3 仅需要 18 万 GPU 小时,就是说,在官方 2048 卡集群上,3.7 天就能完成这一训练过程。

研发团队用了不到 2 个月的时间就完成了 DeepSeek V3 的预训练,耗费了 266.4 万 GPU 小时,再加上上下文长度扩展的 11.9 万 GPU 小时,和后训练的 5000 GPU 小时,总训练成本为 278.8 万 GPU 小时。

假设 GPU 租赁价格为每 GPU 小时 2 美元,那成本换算过来就是 557.6 万美元。

所以,具体是什么样的协同优化?

官方标注了几个重点:

首先,架构方面,DeepSeek V3 采用了创新的负载均衡策略和训练目标。

研发团队在 DeepSeek-V2 架构的基础上,提出了一种无辅助损失的负载均衡策略,能最大限度减少负载均衡而导致的性能下降。

具体而言,该策略为 MoE 中的每个专家引入了一个偏置项(bias term),并将其添加到相应的亲和度分数中,以确定 top-K 路由。

研发团队还证明,多 Token 预测目标(Multi-Token Prediction,MTP)有利于提高模型性能,可以用于推理加速的推测解码。

预训练方面,DeepSeek V3 采用 FP8 训练。研发团队设计了一个 FP8 混合精度训练框架,首次验证了 FP8 训练在极大规模模型上的可行性和有效性。

论文中还提到了跨节点 MoE 训练中的通信瓶颈问题。解决策略包括,设计 DualPipe 高效流水线并行算法:在单个前向和后向块对内,重叠计算和通信。

这种重叠能确保随着模型的进一步扩大,只要保持恒定的计算和通信比率,就仍然可以跨节点使用细粒度专家,实现接近于 0 的 all-to-all 通信开销。

另外,研发团队还开发了高效的跨节点 all-to-all 通信内核等。

后训练方面,DeepSeek V3 引入了一种创新方法,将推理能力从长思维链模型(DeepSeek R1)中,蒸馏到标准模型上。这在显著提高推理性能的同时,保持了 DeepSeek V3 的输出风格和长度控制。

其他值得关注的细节还包括,DeepSeek V3 的 MoE 由 256 个路由专家和 1 个共享专家组成。在 256 个路由专家中,每个 token 会激活 8 个专家,并确保每个 token 最多被发送到 4 个节点。

DeepSeek V3 还引入了冗余专家(redundant experts)的部署策略,即复制高负载专家并冗余部署。这主要是为了在推理阶段,实现 MoE 不同专家之间的负载均衡。

最后,来看部分实验结果。

大海捞针实验:

可以看到,在各项基准测试中,DeepSeek V3 在开源模型中达到 SOTA。

贾扬清谈 DeepSeek 团队:其成就根植于多年专业知识

新版本模型引爆热议,更多有关 DeepSeek 及其背后团队的信息也被关注到。

其中,贾扬清还透露了与 DeepSeek 团队早年的相处细节。

当时是 2019 年,他正打算向团队推荐一个 AI 云解决方案,并试图说服这群人:

不需要复杂的云虚拟化,只需要容器和高效的调度器。

需要真正快速、相互连接的专用网络,如 RoCE 或 Infiniband。

需要像 NFS 这样的通用存储,不需要太复杂,但必须快速。

要让 AI 开发者满意,而不是系统可靠性工程师(SREs)满意。

有意思的是,团队表示这些东西他们早已实践了多年,并转而让他帮忙向一些大学实验室捐赠算力资源。

当然最后也确实帮上忙了,而贾扬清也再次感叹:

DeepSeek 团队的伟大成就在某种程度上植根于多年的专业知识,这些专业知识部分被许多人忽视了。

最最后,除了本次官方公布的测试结果,Imsys 匿名竞技场也出来提前预热了。

家人们,快来用你最难的提示考考 DeepSeek V3。(后续发布竞技场榜单)

体验地址:

chat.deepseek.com

技术报告地址:

https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

抱抱脸开源地址:

https://huggingface.co/deepseek-ai/DeepSeek-V3

参考链接:

https://mp.weixin.qq.com/s/iFZOQsUNkpkXPDvOkE99wQ

—  完  —

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們