DeepSeek 開源周第二天——解碼 DeepEP：MoE 模型通信加速的秘密

今天小編分享的教育經驗：DeepSeek 開源周第二天——解碼 DeepEP：MoE 模型通信加速的秘密，歡迎閱讀。

以下文章來源于湧現聚點，作者 chouti

作者 | chouti

來源 | 湧現聚點 管理智慧

咨詢合作 | 13699120588

文章僅代表作者本人觀點

在人工智能的浩瀚星空中，混合專家模型 ( Mixture-of-Experts,MoE ) 猶如一顆冉冉升起的新星，以其獨特的架構和強大的性能，吸引着無數目光。然而，如同每年春運期間的北京火車站，數百萬旅客拖着沉重的行李，在擁擠的人潮中艱難前行，每個人都希望能盡快登上回家的列車，MoE 模型在分布式訓練和推理過程中，也面臨着數據洪流帶來的通信瓶頸。數據在專家之間傳遞，就像旅客在擁擠的站台間穿梭，如果沒有高效的調度和暢通的道路，再快的引擎也只能徒勞空轉。

2025 年 2 月 25 日，DeepSeek 在開源周的第二天，向 AGI 社區投下了一顆重磅炸彈——正式開源了 DeepEP，一款專為 MoE 模型量身打造的通信庫（GitHub 鏈接 [ 1 ] ）。DeepEP 的橫空出世，能否疏通 MoE 模型通信的 " 堵車 " 現場？它又将如何加速 AGI 的發展進程？

開篇：一圖勝千言，MoE 模型通信的 " 堵車 " 現場

不妨想象一下，一個擁有數千個專家的高速運轉的 MoE 模型，就像一座擁有無數個車道的超級城市，又像是每年春運期間的北京火車站，數百萬旅客拖着沉重的行李，在擁擠的人潮中艱難前行，每個人都希望能盡快登上回家的列車。每個專家都如同一個獨立的處理器，負責處理特定的任務。數據需要在這些專家之間頻繁交換，才能完成復雜的計算。

然而，如果沒有高效的 " 交通管理系統 "，數據交換就會變得異常擁堵。Dispatch 和 Combine 環節，這兩個 MoE 模型中的關鍵步驟，就像城市交通的 " 咽喉要道 "，或者火車站的檢票口，如果不能高效疏通，就會導致整個模型運行效率低下。

未經優化的 MoE 模型，通信延遲常常占據了整個訓練時間的相當比例。就像一位 AI 工程師曾經匿名吐槽的：" 模型規模擴大帶來的收益，幾乎都被通信延遲給抵消了！" 這就好比，你手握一張高鐵票，卻因為檢票口擁堵，眼睜睜地看着火車從眼前呼嘯而過，那種焦慮和無奈，簡直讓人崩潰！

為了更直觀地理解 MoE 模型通信的復雜性，可以參考下圖：

MoE 模型架構圖，标明 Dispatch 和 Combine 環節，并用箭頭表示數據流動，用 " 堵塞 " 的顏色或符号突出通信瓶頸

DeepSeek 官方數據也印證了這一說法：在未經優化的 MoE 模型中，通信延遲占據了前向傳播時間的 30-40%（DeepEPGitHub 頁面 [ 2 ] ）。當專家數量增至 256 時，這個比例甚至可能升至 60% 以上！

更令人扼腕的是，這種通信瓶頸還會帶來許多隐性成本。例如，一些大型語言模型團隊就不得不面對這樣的困境：為了解決通信問題，不得不花費大量時間和精力進行優化，導致模型迭代速度減緩，最終影響了模型的性能提升。要知道，在 AGI 競賽中，時間就是生命，效率就是金錢！

DeepEP：疏通 " 堵車 " 的秘密武器

面對 MoE 模型通信的 " 堵車 " 難題，DeepEP 挺身而出，成為了疏通 " 堵車 " 的秘密武器。它就像一位經驗豐富的 " 交通指揮官 "，憑借着一系列獨門絕技，誓要讓數據傳輸暢通無阻。

核心技術一：All-to-All 通信内核的 " 高速公路 "

DeepEP 的核心在于其 All-to-All 通信内核，它就像一張四通八達的 " 高速公路網 "，連接着 MoE 模型中的每一個專家。它的設計目标非常明确：盡可能減少數據交換的延遲。

傳統的點對點通信方式，就像城市中的普通道路，數據需要經過多次 " 中轉 "，才能到達目的地。而 All-to-All 通信方式，就像一張 " 高速公路網 "，每個專家都可以直接與其他任何專家進行數據交換，無需中間環節，極大地提高了通信效率。

為了更清晰地展示 All-to-All 通信的優勢，可以參考下圖：

對比傳統通信方式和 All-to-All 通信方式，突出其優勢

DeepEP 的 All-to-All 通信内核在不同規模 MoE 模型上的性能表現如何呢？DeepSeek 官方文檔中提供的性能數據表明，在 H800GPU 上，DeepEP 的 All-to-All 通信内核可以達到 ~158GB/s 的帶寬（DeepEPGitHub 頁面 [ 3 ] ）。想象一下，這相當于在 1 秒鍾内傳輸 20 部高清電影！數據傳輸的效率，簡直可以用 " 飛 " 來形容。

更令人驚喜的是，DeepEP 在 DeepSeek-V3 模型訓練中也得到了應用，并取得了顯著的加速效果。DeepSeek 官方數據顯示，DeepEP 将 DeepSeek-V3 模型的訓練效率提升了 30% 以上（DeepSeek 開源周 Day2 深入探讨 DeepEP [ 4 ] ）。這意味着，原本需要 10 天才能完成的訓練任務，現在只需要 7 天就能完成！訓練時間的縮短，意味着更快的迭代速度，更低的訓練成本，以及更強的競争力。對于那些争分奪秒的 AI 團隊來說，這無疑是一個巨大的福音。

核心技術二：NVLink&RDMA 的 " 雙引擎 " 加速

僅僅擁有 " 高速公路 " 還不夠，還需要強勁的 " 引擎 " 才能驅動數據快速流動。DeepEP 充分利用 NVLink 和 RDMA 技術，就像為 " 高速公路 " 裝上了 " 雙引擎 "，實現了節點内和節點間通信的加速。

NVLink 是 NVIDIAGPU 之間的高速互聯技術，具有高帶寬、低延遲的特點。RDMA 是一種遠程直接内存訪問技術，允許計算機直接訪問另一台計算機的内存，無需經過 CPU 的中轉。

DeepEP 如何根據不同的網絡環境選擇合适的通信方式呢？答案是：節點内使用 NVLink，節點間使用 RDMA。這樣，既能充分利用 NVLink 的高帶寬和低延遲，又能實現跨節點的快速數據交換。這就好比，在城市裡開車，NVLink 就像是市内高速公路，RDMA 就像是連接不同城市的高速公路，兩者協同合作，才能實現高效的數據傳輸。

核心技術三：FP8& 通信 - 計算重疊的 " 精打細算 "

為了進一步提升通信效率，DeepEP 還采用了 FP8 等低精度計算和通信 - 計算重疊技術，可謂是 " 精打細算 " 到了極致。

FP8 是一種低精度浮點數格式，可以減少内存占用和計算開銷。通信 - 計算重疊技術，則允許通信和計算并行執行，從而避免了 GPU 資源的浪費。這就好比，在工廠裡，流水線上的工人可以同時進行多個任務，從而提高生產效率。

還記得 DeepSeek-V3 模型訓練嗎？在那個案例中，采用 FP8 格式後，通信數據量縮減至原來的 1/4，訓練成本也随之降低了 37%（DeepSeek 開源周 Day2 深入探讨 DeepEP [ 5 ] ）。這就好比，原本需要 100 塊錢才能完成的任務，現在只需要 63 塊錢就能搞定！對于那些追求極致性價比的團隊來說，這無疑是一個極具吸引力的選擇。

DeepEP 的 " 獨門秘籍 "：深入 PTX 指令優化

如果說 All-to-All 通信内核、NVLink&RDMA 加速、FP8& 通信 - 計算重疊是 DeepEP 的 " 常規武器 "，那麼深入 PTX 指令優化，則可以稱得上是 DeepEP 的 " 獨門秘籍 "。這就像一位精通硬體的程式員，直接修改了 GPU 的底層代碼，從而實現了性能的飛躍。

PTX 是一種低級并行線程執行的虛拟機器和指令集架構。DeepEP 為了追求極致性能，使用了未文檔化的 PTX 指令，例如 ld.global.nc.L1::no_allocate.L2::256B。

這是一種大膽的嘗試，但也并非毫無風險。這種指令會繞過某些緩存機制，可能導致數據一致性問題。就像在高速公路上超速行駛，雖然可以更快到達目的地，但也增加了發生事故的風險。

那麼，DeepEP 如何進行安全保障呢？DeepEP 采取了嚴格的代碼審查和測試驗證措施，以确保這些指令的正确性和安全性。盡管如此，DeepEP 仍然建議開發者在非 Hopper 架構上謹慎使用這些指令，或者禁用該優化（可以通過設定 DISABLE_AGGRESSIVE_PTX_INSTRS=1）。畢竟，在追求性能的同時，安全和穩定才是基石。

那麼，這種優化到底能帶來多大的性能提升呢？根據 DeepSeek 官方的測試數據，使用 PTX 指令優化後，DeepEP 的性能可以提升 20% 以上。這意味着，原本需要 1 個小時才能完成的計算任務，現在只需要 48 分鍾就能完成！這對于需要大量計算資源的 MoE 模型來說，無疑是一個巨大的福音。想象一下，如果将這項技術應用到 AGI 的訓練中，将會帶來多麼巨大的變革！

DeepEP 的 " 未來之路 "：社區共建，無限可能

DeepEP 的開源，為 AGI 社區帶來了新的活力。它的開源協定（MITLicense）允許開發者自由使用、修改和分發 DeepEP 的代碼。這意味着，你可以自由地探索 DeepEP 的奧秘，并将其應用到你的項目中。

DeepEP 的 GitHub 倉庫（GitHub 鏈接 [ 6 ] ）提供了詳細的文檔和示例代碼，方便開發者快速上手。

DeepEP 的未來發展方向是什麼呢？或許，我們可以期待以下幾個方面：

支持更多硬體平台：例如 AMDGPU、CPU 等，讓更多的開發者能夠使用 DeepEP。

優化低延遲内核：擴展應用場景，例如實時推理、邊緣計算等，讓 DeepEP 在更多領網域發揮作用。

提供更易用的部署方案：例如 Docker 鏡像、Kubernetes 部署等，降低 DeepEP 的使用門檻。

加強安全保障：例如漏洞掃描、安全審計等，确保 DeepEP 的安全可靠。

DeepEP 的開源，不僅僅是 DeepSeek 的一次技術貢獻，更是對整個 AGI 社區的一次慷慨饋贈。相信在社區的共同努力下，DeepEP 将會變得越來越完善，為 AGI 的發展貢獻更大的力量。

結尾：DeepEP，MoE 模型通信加速的 " 希望之光 "

DeepEP 的出現，為 MoE 模型的通信加速帶來了新的希望。它的技術創新和開源精神，值得我們肯定和期待。

DeepEP 的核心優勢和價值體現在以下幾個方面：

高性能：All-to-All 通信内核、NVLink&RDMA 加速、FP8& 通信 - 計算重疊，讓數據傳輸效率 " 飛 " 起來。

靈活性：支持多種硬體平台和網絡環境，适應性更強。

開源性：促進社區共建和技術創新，共同推動 AGI 的發展。

MoE 模型和 AGI 的未來發展又将走向何方呢？或許，我們可以大膽預測：

MoE 模型将成為 AGI 的重要組成部分，為 AGI 的發展提供更強大的算力支持。

通信技術将是 AGI 發展的關鍵瓶頸，誰能解決通信難題，誰就能掌握 AGI 的未來。

DeepEP 将在 AGI 基礎設施建設中發揮重要作用，成為 AGI 時代的 " 基石 "。

讓我們一起努力，參與 DeepEP 的社區共建，共同推動 AGI 的發展，迎接一個更加智能、更加美好的未來！就像 DeepSeek 的開源行動一樣，用技術創新點亮 AGI 的希望之光！也許，下一個 AGI 的突破，就将從 DeepEP 的代碼中誕生！

參考資料

[ 1 ]

GitHub 鏈接 :https://github.com/deepseek-ai/DeepEP

[ 2 ]

DeepEPGitHub 頁面 :https://github.com/deepseek-ai/DeepEP

[ 3 ] [ 4 ]

DeepSeek 開源周 Day2 深入探讨 DeepEP:https://medium.com/towards-agi/deepseek-day-2-of-open-source-week-exploring-deepep-9abd7b3d096f

[ 5 ] [ 6 ]