今天小編分享的互聯網經驗:五天五連炸!回顧DeepSeek“開源周”技術全家桶:用軟體“重新定義”算力!,歡迎閱讀。
本文作者:李笑寅
來源:硬 AI
"OpenAI 不 Open,DeepSeek 真 Deep"。
本周," 開源周 " 活動如火如荼地展開,DeepSeek 每天不定時上新 " 黑科技 ",讓全球程式員直呼:這波簡直在大氣層!
從計算到通信再到存儲,DeepSeek" 五連炸 " 幾乎覆蓋了 AI 開發的全鏈條,在完全沒有更新現有硬體的情況下最大程度地 " 榨幹 " 算力,進而實現訓練效率的飛躍,堪稱 " 最強輔助 ",十分強大,無比慷慨。
我們梳理了 DeepSeek 這些天來釋出的技術組件,驚喜地發現,它們似乎恰巧構建成了一套精密協同的系統。
如果用" 中央廚房 " 來比喻這套系統,那麼每當大模型這名廚師要開始 " 做飯 " 時,每個環節能展開精密協作,經由 " 拿菜 - 訂單處理 - 傳菜 - 烹饪 " 的流程後 " 高效出大餐 "。
Day1:FlashMLA ——配菜機器人
FlashMLA 是 DeepSeek 專門針對英偉達 H800 這一代高端加速卡做的深度優化,旨在優化 GPU 解碼,處理變長序列,提高計算效率。
簡單來說,FlashMLA 的最大優勢在于,面對長短不一的文本序列能動态調配算力資源。
就像廚房裡能根據訂單動态分配食材的智能機器人,面對不同規格的訂單(文本 / 語音的長短數據),FlashMLA 能自動調節切菜速度(GPU 資源分配)," 短訂單 " 秒速完成,長訂單則啟動壓力鍋模式,節省處理時間。
根據基準測試,FlashMLA 能在 H800 顯卡上飙出580 萬億次 / 秒的算力,相當于 1 秒寫完《三體》全集,還把顯存占用砍到了傳統方案的1/5。
Day2:DeepEP ——傳輸調度台
DeepEP 是全球首個專為混合專家模型(MoE)和專家并行(EP)定制的開源高性能通信庫,旨在解決大規模 AI 模型訓練與推理中的通信瓶頸問題。
在 AI 中央廚房中,DeepEP 如同新型的傳輸調度台,相較于傳統對講機(舊通信協定)容易導致指令混亂的弊端,在面對復雜任務時,DeepEP 能通過 FP8 壓縮技術,簡化傳達任務需求,還能實時更新菜單。
當需要跨廚房(伺服器節點)傳遞食材(參數)時,RDMA 技術更像是一條 " 傳送帶 ",将食材直送灶台(GPU)。
性能數據也很給力:基于 H800 的 GPU,DeepEP 可以通過 NVLink 技術實現單節點内 GPU 間極速通信,帶寬高達約 150GB/s,相當于 1 秒傳完 30 部高清電影。
Day3:DeepGEMM ——智能灶台
DeepGEMM 是一款專注于 FP8 高效通用矩陣乘法(GEMM)的庫,主要滿足普通矩陣計算以及混合專家(MoE)分組場景下的計算需求。
還是拿中央廚房舉例,DeepGEMM 可以看成是一個萬能灶台,一能做到動态火候控制,煎牛排用猛火(密集計算用 FP8 精度),煲湯轉文火(MoE 門控網絡用 BF16 精度);二能通過 JIT 技術,讓 1 平米灶台同時處理 10 道菜。
不同于 CUDA 庫這個傳統灶台,做佛跳牆要 3 小時,通過精度動态切換等一系列騷操作,DeepGEMM 只需 1 小時就能搞定,還省一半燃氣(顯存)。
值得注意的是,DeepGEMM 采用了輕量級即時編譯(JIT)模塊,支持運行時動态編譯内核,無需提前完成編譯和安裝。
也就是說,DeepGEMM 僅憑 300 行 CUDA 代碼,運算速度就能幹翻傳統千萬行工程庫。有觀點戲稱:這 DeepSeek 簡直比英偉達都懂 GPU。
Day4:DualPipe & EPLB ——後廚流水線指揮官
DualPipe 和 EPLB 是面向大規模 AI 模型訓練的兩項核心技術,分别聚焦于分布式訓練效率優化和專家并行負載均衡,均為 V3/R1 而設計。
實際上,訓練大模型最怕遇到 " 流水線摸魚 ",計算單元等數據時的發呆時間一般被稱作 " 氣泡 ",而 DualPipe 和 EPLB 就是專為減少 " 氣泡 " 而設計的。
在中央廚房中,DualPipe 是一條 " 雙向傳送帶 ",一邊讓洗碗工 " 反向傳播 ",一邊讓配菜員 " 前向計算 " 在兩條平行傳送帶上工作,相當于 " 一邊做飯一邊洗碗 ",解決了 " 等盤子洗好才能上菜 " 的尴尬。
EPLB 則充當 " 智能排班表 " 的角色,可以克隆大廚(冗餘專家)到空閒灶台(GPU),确保法餐主廚不會累暈在情人節套餐高峰期(負載均衡)。
Day5:3FS 檔案系統——中央冷庫 + 閃電配送
最後壓軸的 Fire-Flyer 檔案系統(3FS),是專為高性能計算打造的高性能分布式檔案系統,旨在應對 AI 訓練和推理工作負載中的挑戰,解決 " 高吞吐寫入 " 與 " 低延遲讀取 " 難兼顧的痛點。
對中央廚房而言,3FS 更多起到後台儲藏的作用,主要的技術優勢在于兩點。
一是光速存取:6.6TB/s 的吞吐量,相當于每分鍾搬空 300 個冰櫃(傳統硬碟)的食材(數據)。
二是保鮮黑科技:通過 磁碟+RDMA 技術的結合,确保北京分店和上海分店看到的牛排永遠是同一塊,也就是所謂的 " 數據強一致性 "。
打響 AI" 開源盛世 " 第一槍,繼續推翻象牙塔
不管是傳輸調度台,還是配菜機器人,DeepSeek 此次開源的技術組件,設計初衷都在于進一步降低算力成本、優化訓練效率。
有分析認為,這波開源最硬核的意義在于:通過軟體棧的系統性優化(從檔案系統到通信協定),可在現有硬體基礎上實現倍數級效率飛躍。
這意味着,AI 性能提升不再單純依賴芯片制程的突破。而不堆硬體、優化軟體、" 猛榨 " 算力,也正是 DeepSeek 能實現超低成本 " 超車 " 一眾海外頂尖大模型的秘訣所在。
有網友表示,OpenAI 應該把它們的網域名 " 獻給 "DeepSeek,因為後者才真正做到了開源。
還有網友表示,開源 AI 不稀奇,稀奇的是 DeepSeek 這種 " 車庫精神和 AGI 野心的結合 ":
還有人奉上梗圖,以表尊重:
針對此次的 " 開源周 " 活動,我們也讓 DeepSeek 也評論了一下,這是它的回答:
正如 DeepSeek 此前的宣言:
" 這個領網域沒有高高在上的象牙塔,只有純粹的車庫創業精神與社區共築的創新力量。"
" 毫無保留地分享我們微小但真誠的進展。"
而一個更大膽的猜想也正随之浮現:随着 DeepSeek 不斷用技術優化突破硬體瓶頸,會不會重新定義算力之于 AI 的意義?
這場始于中國車庫的技術狂歡,仍在繼續改寫全球 AI 規則。