DeepSeek 开源周第二天——解码 DeepEP：MoE 模型通信加速的秘密

今天小编分享的教育经验：DeepSeek 开源周第二天——解码 DeepEP：MoE 模型通信加速的秘密，欢迎阅读。

以下文章来源于涌现聚点，作者 chouti

作者 | chouti

来源 | 涌现聚点 管理智慧

咨询合作 | 13699120588

文章仅代表作者本人观点

在人工智能的浩瀚星空中，混合专家模型 ( Mixture-of-Experts,MoE ) 犹如一颗冉冉升起的新星，以其独特的架构和强大的性能，吸引着无数目光。然而，如同每年春运期间的北京火车站，数百万旅客拖着沉重的行李，在拥挤的人潮中艰难前行，每个人都希望能尽快登上回家的列车，MoE 模型在分布式训练和推理过程中，也面临着数据洪流带来的通信瓶颈。数据在专家之间传递，就像旅客在拥挤的站台间穿梭，如果没有高效的调度和畅通的道路，再快的引擎也只能徒劳空转。

2025 年 2 月 25 日，DeepSeek 在开源周的第二天，向 AGI 社区投下了一颗重磅炸弹——正式开源了 DeepEP，一款专为 MoE 模型量身打造的通信库（GitHub 链接 [ 1 ] ）。DeepEP 的横空出世，能否疏通 MoE 模型通信的 " 堵车 " 现场？它又将如何加速 AGI 的发展进程？

开篇：一图胜千言，MoE 模型通信的 " 堵车 " 现场

不妨想象一下，一个拥有数千个专家的高速运转的 MoE 模型，就像一座拥有无数个车道的超级城市，又像是每年春运期间的北京火车站，数百万旅客拖着沉重的行李，在拥挤的人潮中艰难前行，每个人都希望能尽快登上回家的列车。每个专家都如同一个独立的处理器，负责处理特定的任务。数据需要在这些专家之间频繁交换，才能完成复杂的计算。

然而，如果没有高效的 " 交通管理系统 "，数据交换就会变得异常拥堵。Dispatch 和 Combine 环节，这两个 MoE 模型中的关键步骤，就像城市交通的 " 咽喉要道 "，或者火车站的检票口，如果不能高效疏通，就会导致整个模型运行效率低下。

未经优化的 MoE 模型，通信延迟常常占据了整个训练时间的相当比例。就像一位 AI 工程师曾经匿名吐槽的：" 模型规模扩大带来的收益，几乎都被通信延迟给抵消了！" 这就好比，你手握一张高铁票，却因为检票口拥堵，眼睁睁地看着火车从眼前呼啸而过，那种焦虑和无奈，简直让人崩溃！

为了更直观地理解 MoE 模型通信的复杂性，可以参考下图：

MoE 模型架构图，标明 Dispatch 和 Combine 环节，并用箭头表示数据流动，用 " 堵塞 " 的颜色或符号突出通信瓶颈

DeepSeek 官方数据也印证了这一说法：在未经优化的 MoE 模型中，通信延迟占据了前向传播时间的 30-40%（DeepEPGitHub 页面 [ 2 ] ）。当专家数量增至 256 时，这个比例甚至可能升至 60% 以上！

更令人扼腕的是，这种通信瓶颈还会带来许多隐性成本。例如，一些大型语言模型团队就不得不面对这样的困境：为了解决通信问题，不得不花费大量时间和精力进行优化，导致模型迭代速度减缓，最终影响了模型的性能提升。要知道，在 AGI 竞赛中，时间就是生命，效率就是金钱！

DeepEP：疏通 " 堵车 " 的秘密武器

面对 MoE 模型通信的 " 堵车 " 难题，DeepEP 挺身而出，成为了疏通 " 堵车 " 的秘密武器。它就像一位经验丰富的 " 交通指挥官 "，凭借着一系列独门绝技，誓要让数据传输畅通无阻。

核心技术一：All-to-All 通信内核的 " 高速公路 "

DeepEP 的核心在于其 All-to-All 通信内核，它就像一张四通八达的 " 高速公路网 "，连接着 MoE 模型中的每一个专家。它的设计目标非常明确：尽可能减少数据交换的延迟。

传统的点对点通信方式，就像城市中的普通道路，数据需要经过多次 " 中转 "，才能到达目的地。而 All-to-All 通信方式，就像一张 " 高速公路网 "，每个专家都可以直接与其他任何专家进行数据交换，无需中间环节，极大地提高了通信效率。

为了更清晰地展示 All-to-All 通信的优势，可以参考下图：

对比传统通信方式和 All-to-All 通信方式，突出其优势

DeepEP 的 All-to-All 通信内核在不同规模 MoE 模型上的性能表现如何呢？DeepSeek 官方文档中提供的性能数据表明，在 H800GPU 上，DeepEP 的 All-to-All 通信内核可以达到 ~158GB/s 的带宽（DeepEPGitHub 页面 [ 3 ] ）。想象一下，这相当于在 1 秒钟内传输 20 部高清电影！数据传输的效率，简直可以用 " 飞 " 来形容。

更令人惊喜的是，DeepEP 在 DeepSeek-V3 模型训练中也得到了应用，并取得了显著的加速效果。DeepSeek 官方数据显示，DeepEP 将 DeepSeek-V3 模型的训练效率提升了 30% 以上（DeepSeek 开源周 Day2 深入探讨 DeepEP [ 4 ] ）。这意味着，原本需要 10 天才能完成的训练任务，现在只需要 7 天就能完成！训练时间的缩短，意味着更快的迭代速度，更低的训练成本，以及更强的竞争力。对于那些争分夺秒的 AI 团队来说，这无疑是一个巨大的福音。

核心技术二：NVLink&RDMA 的 " 双引擎 " 加速

仅仅拥有 " 高速公路 " 还不够，还需要强劲的 " 引擎 " 才能驱动数据快速流动。DeepEP 充分利用 NVLink 和 RDMA 技术，就像为 " 高速公路 " 装上了 " 双引擎 "，实现了节点内和节点间通信的加速。

NVLink 是 NVIDIAGPU 之间的高速互联技术，具有高带宽、低延迟的特点。RDMA 是一种远程直接内存访问技术，允许计算机直接访问另一台计算机的内存，无需经过 CPU 的中转。

DeepEP 如何根据不同的网络环境选择合适的通信方式呢？答案是：节点内使用 NVLink，节点间使用 RDMA。这样，既能充分利用 NVLink 的高带宽和低延迟，又能实现跨节点的快速数据交换。这就好比，在城市里开车，NVLink 就像是市内高速公路，RDMA 就像是连接不同城市的高速公路，两者协同合作，才能实现高效的数据传输。

核心技术三：FP8& 通信 - 计算重叠的 " 精打细算 "

为了进一步提升通信效率，DeepEP 还采用了 FP8 等低精度计算和通信 - 计算重叠技术，可谓是 " 精打细算 " 到了极致。

FP8 是一种低精度浮点数格式，可以减少内存占用和计算开销。通信 - 计算重叠技术，则允许通信和计算并行执行，从而避免了 GPU 资源的浪费。这就好比，在工厂里，流水线上的工人可以同时进行多个任务，从而提高生产效率。

还记得 DeepSeek-V3 模型训练吗？在那个案例中，采用 FP8 格式后，通信数据量缩减至原来的 1/4，训练成本也随之降低了 37%（DeepSeek 开源周 Day2 深入探讨 DeepEP [ 5 ] ）。这就好比，原本需要 100 块钱才能完成的任务，现在只需要 63 块钱就能搞定！对于那些追求极致性价比的团队来说，这无疑是一个极具吸引力的选择。

DeepEP 的 " 独门秘籍 "：深入 PTX 指令优化

如果说 All-to-All 通信内核、NVLink&RDMA 加速、FP8& 通信 - 计算重叠是 DeepEP 的 " 常规武器 "，那么深入 PTX 指令优化，则可以称得上是 DeepEP 的 " 独门秘籍 "。这就像一位精通硬體的程式员，直接修改了 GPU 的底层代码，从而实现了性能的飞跃。

PTX 是一种低级并行线程执行的虚拟机器和指令集架构。DeepEP 为了追求极致性能，使用了未文档化的 PTX 指令，例如 ld.global.nc.L1::no_allocate.L2::256B。

这是一种大胆的尝试，但也并非毫无风险。这种指令会绕过某些缓存机制，可能导致数据一致性问题。就像在高速公路上超速行驶，虽然可以更快到达目的地，但也增加了发生事故的风险。

那么，DeepEP 如何进行安全保障呢？DeepEP 采取了严格的代码审查和测试验证措施，以确保这些指令的正确性和安全性。尽管如此，DeepEP 仍然建议开发者在非 Hopper 架构上谨慎使用这些指令，或者禁用该优化（可以通过設定 DISABLE_AGGRESSIVE_PTX_INSTRS=1）。毕竟，在追求性能的同时，安全和稳定才是基石。

那么，这种优化到底能带来多大的性能提升呢？根据 DeepSeek 官方的测试数据，使用 PTX 指令优化后，DeepEP 的性能可以提升 20% 以上。这意味着，原本需要 1 个小时才能完成的计算任务，现在只需要 48 分钟就能完成！这对于需要大量计算资源的 MoE 模型来说，无疑是一个巨大的福音。想象一下，如果将这项技术应用到 AGI 的训练中，将会带来多么巨大的变革！

DeepEP 的 " 未来之路 "：社区共建，无限可能

DeepEP 的开源，为 AGI 社区带来了新的活力。它的开源協定（MITLicense）允许开发者自由使用、修改和分发 DeepEP 的代码。这意味着，你可以自由地探索 DeepEP 的奥秘，并将其应用到你的项目中。

DeepEP 的 GitHub 仓库（GitHub 链接 [ 6 ] ）提供了详细的文档和示例代码，方便开发者快速上手。

DeepEP 的未来发展方向是什么呢？或许，我们可以期待以下几个方面：

支持更多硬體平台：例如 AMDGPU、CPU 等，让更多的开发者能够使用 DeepEP。

优化低延迟内核：扩展应用场景，例如实时推理、边缘计算等，让 DeepEP 在更多领網域发挥作用。

提供更易用的部署方案：例如 Docker 镜像、Kubernetes 部署等，降低 DeepEP 的使用门槛。

加强安全保障：例如漏洞扫描、安全审计等，确保 DeepEP 的安全可靠。

DeepEP 的开源，不仅仅是 DeepSeek 的一次技术贡献，更是对整个 AGI 社区的一次慷慨馈赠。相信在社区的共同努力下，DeepEP 将会变得越来越完善，为 AGI 的发展贡献更大的力量。

结尾：DeepEP，MoE 模型通信加速的 " 希望之光 "

DeepEP 的出现，为 MoE 模型的通信加速带来了新的希望。它的技术创新和开源精神，值得我们肯定和期待。

DeepEP 的核心优势和价值体现在以下几个方面：