五天五连炸！回顾DeepSeek“开源周”技术全家桶：用軟體“重新定义”算力！

今天小编分享的互联网经验：五天五连炸！回顾DeepSeek“开源周”技术全家桶：用軟體“重新定义”算力！，欢迎阅读。

本文作者：李笑寅

来源：硬 AI

"OpenAI 不 Open，DeepSeek 真 Deep"。

本周，" 开源周 " 活动如火如荼地展开，DeepSeek 每天不定时上新 " 黑科技 "，让全球程式员直呼：这波简直在大气层！

从计算到通信再到存储，DeepSeek" 五连炸 " 几乎覆盖了 AI 开发的全链条，在完全没有更新现有硬體的情况下最大程度地 " 榨干 " 算力，进而实现训练效率的飞跃，堪称 " 最强辅助 "，十分强大，无比慷慨。

我们梳理了 DeepSeek 这些天来释出的技术组件，惊喜地发现，它们似乎恰巧构建成了一套精密协同的系统。

如果用" 中央厨房 " 来比喻这套系统，那么每当大模型这名厨师要开始 " 做饭 " 时，每个环节能展开精密协作，经由 " 拿菜 - 订单处理 - 传菜 - 烹饪 " 的流程后 " 高效出大餐 "。

Day1：FlashMLA ——配菜机器人

FlashMLA 是 DeepSeek 专门针对英伟达 H800 这一代高端加速卡做的深度优化，旨在优化 GPU 解码，处理变长序列，提高计算效率。

简单来说，FlashMLA 的最大优势在于，面对长短不一的文本序列能动态调配算力资源。

就像厨房里能根据订单动态分配食材的智能机器人，面对不同规格的订单（文本 / 语音的长短数据），FlashMLA 能自动调节切菜速度（GPU 资源分配），" 短订单 " 秒速完成，长订单则启动壓力鍋模式，节省处理时间。

根据基准测试，FlashMLA 能在 H800 显卡上飙出580 万亿次 / 秒的算力，相当于 1 秒写完《三体》全集，还把显存占用砍到了传统方案的1/5。

Day2：DeepEP ——传输调度台

DeepEP 是全球首个专为混合专家模型（MoE）和专家并行（EP）定制的开源高性能通信库，旨在解决大规模 AI 模型训练与推理中的通信瓶颈问题。

在 AI 中央厨房中，DeepEP 如同新型的传输调度台，相较于传统对讲机（旧通信協定）容易导致指令混乱的弊端，在面对复杂任务时，DeepEP 能通过 FP8 压缩技术，简化传达任务需求，还能实时更新菜单。

当需要跨厨房（伺服器节点）传递食材（参数）时，RDMA 技术更像是一条 " 传送带 "，将食材直送灶台（GPU）。

性能数据也很给力：基于 H800 的 GPU，DeepEP 可以通过 NVLink 技术实现单节点内 GPU 间极速通信，带宽高达约 150GB/s，相当于 1 秒传完 30 部高清电影。

Day3：DeepGEMM ——智能灶台

DeepGEMM 是一款专注于 FP8 高效通用矩阵乘法（GEMM）的库，主要满足普通矩阵计算以及混合专家（MoE）分组场景下的计算需求。

还是拿中央厨房举例，DeepGEMM 可以看成是一个万能灶台，一能做到动态火候控制，煎牛排用猛火（密集计算用 FP8 精度），煲汤转文火（MoE 门控网络用 BF16 精度）；二能通过 JIT 技术，让 1 平米灶台同时处理 10 道菜。

不同于 CUDA 库这个传统灶台，做佛跳墙要 3 小时，通过精度动态切换等一系列骚操作，DeepGEMM 只需 1 小时就能搞定，还省一半燃气（显存）。

值得注意的是，DeepGEMM 采用了轻量级即时编译（JIT）模块，支持运行时动态编译内核，无需提前完成编译和安装。

也就是说，DeepGEMM 仅凭 300 行 CUDA 代码，运算速度就能干翻传统千万行工程库。有观点戏称：这 DeepSeek 简直比英伟达都懂 GPU。

Day4：DualPipe & EPLB ——后厨流水线指挥官

DualPipe 和 EPLB 是面向大规模 AI 模型训练的两项核心技术，分别聚焦于分布式训练效率优化和专家并行负载均衡，均为 V3/R1 而设计。

实际上，训练大模型最怕遇到 " 流水线摸鱼 "，计算单元等数据时的发呆时间一般被称作 " 气泡 "，而 DualPipe 和 EPLB 就是专为减少 " 气泡 " 而设计的。

在中央厨房中，DualPipe 是一条 " 双向传送带 "，一边让洗碗工 " 反向传播 "，一边让配菜员 " 前向计算 " 在两条平行传送带上工作，相当于 " 一边做饭一边洗碗 "，解决了 " 等盘子洗好才能上菜 " 的尴尬。

EPLB 则充当 " 智能排班表 " 的角色，可以克隆大厨（冗余专家）到空闲灶台（GPU），确保法餐主厨不会累晕在情人节套餐高峰期（负载均衡）。

Day5：3FS 檔案系统——中央冷库 + 闪电配送

最后压轴的 Fire-Flyer 檔案系统（3FS），是专为高性能计算打造的高性能分布式檔案系统，旨在应对 AI 训练和推理工作负载中的挑战，解决 " 高吞吐写入 " 与 " 低延迟读取 " 难兼顾的痛点。

对中央厨房而言，3FS 更多起到后台储藏的作用，主要的技术优势在于两点。

一是光速存取：6.6TB/s 的吞吐量，相当于每分钟搬空 300 个冰柜（传统硬碟）的食材（数据）。

二是保鲜黑科技：通过磁碟+RDMA 技术的结合，确保北京分店和上海分店看到的牛排永远是同一块，也就是所谓的 " 数据强一致性 "。

打响 AI" 开源盛世 " 第一枪，继续推翻象牙塔

不管是传输调度台，还是配菜机器人，DeepSeek 此次开源的技术组件，设计初衷都在于进一步降低算力成本、优化训练效率。

有分析认为，这波开源最硬核的意义在于：通过軟體栈的系统性优化（从檔案系统到通信協定），可在现有硬體基础上实现倍数级效率飞跃。

这意味着，AI 性能提升不再单纯依赖芯片制程的突破。而不堆硬體、优化軟體、" 猛榨 " 算力，也正是 DeepSeek 能实现超低成本 " 超车 " 一众海外顶尖大模型的秘诀所在。

有网友表示，OpenAI 应该把它们的網域名 " 献给 "DeepSeek，因为后者才真正做到了开源。

还有网友表示，开源 AI 不稀奇，稀奇的是 DeepSeek 这种 " 车库精神和 AGI 野心的结合 "：

还有人奉上梗图，以表尊重：

针对此次的 " 开源周 " 活动，我们也让 DeepSeek 也评论了一下，这是它的回答：

正如 DeepSeek 此前的宣言：

" 这个领網域没有高高在上的象牙塔，只有纯粹的车库创业精神与社区共筑的创新力量。"

" 毫无保留地分享我们微小但真诚的进展。"

而一个更大胆的猜想也正随之浮现：随着 DeepSeek 不断用技术优化突破硬體瓶颈，会不会重新定义算力之于 AI 的意义？

这场始于中国车库的技术狂欢，仍在继续改写全球 AI 规则。