五天五連炸！回顧DeepSeek“開源周”技術全家桶：用軟體“重新定義”算力！

今天小編分享的互聯網經驗：五天五連炸！回顧DeepSeek“開源周”技術全家桶：用軟體“重新定義”算力！，歡迎閱讀。

本文作者：李笑寅

來源：硬 AI

"OpenAI 不 Open，DeepSeek 真 Deep"。

本周，" 開源周 " 活動如火如荼地展開，DeepSeek 每天不定時上新 " 黑科技 "，讓全球程式員直呼：這波簡直在大氣層！

從計算到通信再到存儲，DeepSeek" 五連炸 " 幾乎覆蓋了 AI 開發的全鏈條，在完全沒有更新現有硬體的情況下最大程度地 " 榨幹 " 算力，進而實現訓練效率的飛躍，堪稱 " 最強輔助 "，十分強大，無比慷慨。

我們梳理了 DeepSeek 這些天來釋出的技術組件，驚喜地發現，它們似乎恰巧構建成了一套精密協同的系統。

如果用" 中央廚房 " 來比喻這套系統，那麼每當大模型這名廚師要開始 " 做飯 " 時，每個環節能展開精密協作，經由 " 拿菜 - 訂單處理 - 傳菜 - 烹饪 " 的流程後 " 高效出大餐 "。

Day1：FlashMLA ——配菜機器人

FlashMLA 是 DeepSeek 專門針對英偉達 H800 這一代高端加速卡做的深度優化，旨在優化 GPU 解碼，處理變長序列，提高計算效率。

簡單來說，FlashMLA 的最大優勢在于，面對長短不一的文本序列能動态調配算力資源。

就像廚房裡能根據訂單動态分配食材的智能機器人，面對不同規格的訂單（文本 / 語音的長短數據），FlashMLA 能自動調節切菜速度（GPU 資源分配），" 短訂單 " 秒速完成，長訂單則啟動壓力鍋模式，節省處理時間。

根據基準測試，FlashMLA 能在 H800 顯卡上飙出580 萬億次 / 秒的算力，相當于 1 秒寫完《三體》全集，還把顯存占用砍到了傳統方案的1/5。

Day2：DeepEP ——傳輸調度台

DeepEP 是全球首個專為混合專家模型（MoE）和專家并行（EP）定制的開源高性能通信庫，旨在解決大規模 AI 模型訓練與推理中的通信瓶頸問題。

在 AI 中央廚房中，DeepEP 如同新型的傳輸調度台，相較于傳統對講機（舊通信協定）容易導致指令混亂的弊端，在面對復雜任務時，DeepEP 能通過 FP8 壓縮技術，簡化傳達任務需求，還能實時更新菜單。

當需要跨廚房（伺服器節點）傳遞食材（參數）時，RDMA 技術更像是一條 " 傳送帶 "，将食材直送灶台（GPU）。

性能數據也很給力：基于 H800 的 GPU，DeepEP 可以通過 NVLink 技術實現單節點内 GPU 間極速通信，帶寬高達約 150GB/s，相當于 1 秒傳完 30 部高清電影。

Day3：DeepGEMM ——智能灶台

DeepGEMM 是一款專注于 FP8 高效通用矩陣乘法（GEMM）的庫，主要滿足普通矩陣計算以及混合專家（MoE）分組場景下的計算需求。

還是拿中央廚房舉例，DeepGEMM 可以看成是一個萬能灶台，一能做到動态火候控制，煎牛排用猛火（密集計算用 FP8 精度），煲湯轉文火（MoE 門控網絡用 BF16 精度）；二能通過 JIT 技術，讓 1 平米灶台同時處理 10 道菜。

不同于 CUDA 庫這個傳統灶台，做佛跳牆要 3 小時，通過精度動态切換等一系列騷操作，DeepGEMM 只需 1 小時就能搞定，還省一半燃氣（顯存）。

值得注意的是，DeepGEMM 采用了輕量級即時編譯（JIT）模塊，支持運行時動态編譯内核，無需提前完成編譯和安裝。

也就是說，DeepGEMM 僅憑 300 行 CUDA 代碼，運算速度就能幹翻傳統千萬行工程庫。有觀點戲稱：這 DeepSeek 簡直比英偉達都懂 GPU。

Day4：DualPipe & EPLB ——後廚流水線指揮官

DualPipe 和 EPLB 是面向大規模 AI 模型訓練的兩項核心技術，分别聚焦于分布式訓練效率優化和專家并行負載均衡，均為 V3/R1 而設計。

實際上，訓練大模型最怕遇到 " 流水線摸魚 "，計算單元等數據時的發呆時間一般被稱作 " 氣泡 "，而 DualPipe 和 EPLB 就是專為減少 " 氣泡 " 而設計的。

在中央廚房中，DualPipe 是一條 " 雙向傳送帶 "，一邊讓洗碗工 " 反向傳播 "，一邊讓配菜員 " 前向計算 " 在兩條平行傳送帶上工作，相當于 " 一邊做飯一邊洗碗 "，解決了 " 等盤子洗好才能上菜 " 的尴尬。

EPLB 則充當 " 智能排班表 " 的角色，可以克隆大廚（冗餘專家）到空閒灶台（GPU），确保法餐主廚不會累暈在情人節套餐高峰期（負載均衡）。

Day5：3FS 檔案系統——中央冷庫 + 閃電配送

最後壓軸的 Fire-Flyer 檔案系統（3FS），是專為高性能計算打造的高性能分布式檔案系統，旨在應對 AI 訓練和推理工作負載中的挑戰，解決 " 高吞吐寫入 " 與 " 低延遲讀取 " 難兼顧的痛點。

對中央廚房而言，3FS 更多起到後台儲藏的作用，主要的技術優勢在于兩點。

一是光速存取：6.6TB/s 的吞吐量，相當于每分鍾搬空 300 個冰櫃（傳統硬碟）的食材（數據）。

二是保鮮黑科技：通過磁碟+RDMA 技術的結合，确保北京分店和上海分店看到的牛排永遠是同一塊，也就是所謂的 " 數據強一致性 "。

打響 AI" 開源盛世 " 第一槍，繼續推翻象牙塔

不管是傳輸調度台，還是配菜機器人，DeepSeek 此次開源的技術組件，設計初衷都在于進一步降低算力成本、優化訓練效率。

有分析認為，這波開源最硬核的意義在于：通過軟體棧的系統性優化（從檔案系統到通信協定），可在現有硬體基礎上實現倍數級效率飛躍。

這意味着，AI 性能提升不再單純依賴芯片制程的突破。而不堆硬體、優化軟體、" 猛榨 " 算力，也正是 DeepSeek 能實現超低成本 " 超車 " 一眾海外頂尖大模型的秘訣所在。

有網友表示，OpenAI 應該把它們的網域名 " 獻給 "DeepSeek，因為後者才真正做到了開源。

還有網友表示，開源 AI 不稀奇，稀奇的是 DeepSeek 這種 " 車庫精神和 AGI 野心的結合 "：

還有人奉上梗圖，以表尊重：

針對此次的 " 開源周 " 活動，我們也讓 DeepSeek 也評論了一下，這是它的回答：

正如 DeepSeek 此前的宣言：

" 這個領網域沒有高高在上的象牙塔，只有純粹的車庫創業精神與社區共築的創新力量。"

" 毫無保留地分享我們微小但真誠的進展。"

而一個更大膽的猜想也正随之浮現：随着 DeepSeek 不斷用技術優化突破硬體瓶頸，會不會重新定義算力之于 AI 的意義？

這場始于中國車庫的技術狂歡，仍在繼續改寫全球 AI 規則。