大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科技

DeepSeek開源MoE訓練、推理EP通信庫DeepEP,真太Open了

2025-02-25 简体 HK SG TW

今天小編分享的科技經驗:DeepSeek開源MoE訓練、推理EP通信庫DeepEP,真太Open了,歡迎閱讀。

上周五,DeepSeek 發推說本周将是開源周(OpenSourceWeek),并将連續開源五個軟體庫。

昨天,他們開源了第一個代碼庫 —— FlashMLA。這是一款用于 Hopper GPU 的高效型 MLA 解碼核,僅用了 24 小時就達到了接近 8k 的 star 量(詳情請參見《剛剛,DeepSeek 開源 FlashMLA,推理加速核心技術,Star 量飛漲中》)。

今天 DeepSeek 繼續開源底層架構的創新,今天開源的項目是首個用于 MoE 模型訓練和推理的 EP 通信庫 DeepEP。

在分布式系統中(如多 GPU 訓練環境),所有處理單元之間需要高效地傳遞數據。在 MoE 中,這點尤為重要,因為不同「專家」需要頻繁交換信息。并且 MoE 模型容易在「專家并行」中出現負載不均衡,導致每個「專家」分到的算力不均,不重要的「專家」難以發揮應有的性能。

此次開源的 DeepEP 做到了:

1. 高效優化的 All-to-All 通信

2. 支持 NVLink 和 RDMA 的節點内 / 跨節點通信

3. 訓練及推理預填充階段的高吞吐量計算核心

4. 推理解碼階段的低延遲計算核心

5. 原生支持 FP8 數據分發

6. 靈活控制 GPU 資源,實現計算與通信的高效重疊

高效通信減少了數據傳輸的瓶頸,計算核心的優化提升了處理速度,靈活的資源調度讓計算和通信不互相等待。

MLA 和 MoE 架構改進可以說是 DeepSeek 的兩大重要創新點。昨天是對 MLA 解碼内核的優化,今天就公開了另一張王牌 MoE 如何高效通信和并行處理,DeepSeek 可真是太 Open 了!

項目鏈接:https://github.com/deepseek-ai/DeepEP

至于火到了什麼程度?

機器之心文章還沒寫完,DeepEP 的 Star 量已超 1000 了:

該項目開源後,有人評價說:DeepSeek 為 MoE 模型所達到的優化水平令人印象深刻,這類模型因其規模和復雜性而充滿挑戰性。DeepEP 能夠利用 NVLink 和 RDMA 等尖端硬體技術,并支持 fp8 精度,以如此精确的方式處理這些挑戰,簡直是突破性的成就。

還有人說,「NVLink 和 RDMA 支持對大規模 MoE 模型來說是革命性的突破。看來 DeepSeek 再次在 AI 基礎設施的可能性方面推動了技術邊界。」

之前,有人曾質疑 DeepSeek-R1 只是通過模型蒸餾來實現其性能,而非真正的技術創新。還有人懷疑 DeepSeek 低報了訓練所需的 GPU 數量。開源周發布的這些内容可以從某些角度證明,DeepSeek 确實通過技術創新實現了真正的訓練效率提升和成本降低。

DeepEP 是什麼?

DeepEP 是一個專為混合專家系統(MoE)和專家并行(EP)定制的通信庫。它提供高吞吐量和低延遲的 all-to-all GPU 内核, 這些内核也被稱為 MoE 分發和合并。該庫還支持低精度操作,包括 FP8。

為了與 DeepSeek-V3 論文中提出的 group-limited gating 算法保持一致,DeepEP 提供了一套針對非對稱網域帶寬 forwarding 進行優化的内核,例如從 NVLink 網域到 RDMA 網域的數據 forwarding。這些内核提供高吞吐量,适用于訓練和推理預填充(prefilling)任務。此外,它們還支持 SM(流式多處理器,Streaming Multiprocessors)數量控制。

對于對延遲敏感的推理解碼,DeepEP 包含一套使用純 RDMA 的低延遲内核,以最小化延遲。該庫還引入了一種 hook-based 的通信 - 計算重疊方法,不占用任何 SM 資源。

注意:本庫中的實現可能與 DeepSeek-V3 論文有一些細微差異。

DeepEP 性能如何?

具有 NVLink 和 RDMA forwarding 的常規内核

DeepSeek 在 H800 上測試常規内核(NVLink 最大帶寬約 160 GB/s),每個 H800 連接到一個 CX7 InfiniBand 400 Gb/s RDMA 網卡(最大帶寬約 50 GB/s)。他們遵循 DeepSeek-V3/R1 預訓練設定(每批次 4096 個 token,7168 隐藏維度,top-4 組,top-8 專家,FP8 分發和 BF16 合并)。

具有純 RDMA 的低延遲内核

DeepSeek 在 H800 上測試低延遲内核,每個 H800 連接到一個 CX7 InfiniBand 400 Gb/s RDMA 網卡(最大帶寬約 50 GB/s)。他們遵循典型的 DeepSeek-V3/R1 生產設定(每批次 128 個 token,7168 隐藏維度,top-8 專家,FP8 分發和 BF16 合并)。

注意事項

為了極致性能,DeepSeek 發現并使用了一個未記錄在文檔中的 PTX 指令:ld.global.nc.L1::no_allocate.L2::256B。這個指令會導致一個未定義的行為:使用非一致性只讀 PTX 修飾符「.nc」訪問易變的 GPU 内存。但在 Hopper 架構上,通過「.L1::no_allocate」已測試确保了正确性,且性能會大幅提升。如果你發現内核在某些其他平台上不 work,你可以在 setup.py 中添加 DISABLE_AGGRESSIVE_PTX_INSTRS=1 來禁用此功能,或提交 issue。

為了在你的集群上獲得更好的性能,DeepSeek 建議運行所有測試并使用最佳的自動調優配置。默認配置是針對 DeepSeek 内部集群優化的。

更多信息請參見 GitHub 代碼庫。

結尾必須再強調一句:Real OPENAI has born!

最後,你覺得第三天會發布什麼呢?24 小時後答案就會揭曉。

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們