今天小編分享的科技經驗:DeepSeek連開三源,解開訓練省錢之謎,歡迎閲讀。
"DeepSeek 有效地駁斥了頻繁出現的在訓練方面‘他們撒謊了’的言論。"
舊金山人工智能行業解決方案提供商 Dragonscale Industries 的首席技術官 Stephen Pimentel 在 X 上如是評論 DeepSeek" 開源周 "。
" 是的。以及關于 5 萬張 H100 的虛假傳聞(也被駁斥了)…… " 全球咨詢公司 DGA Group 合夥人、中美技術問題專家 Paul Triolo 也附和道。
DeepSeek" 開源周 " 從 2 月 24 日至 2 月 28 日,共持續 5 天。會陸續開源 5 個項目。
過去三天的開源項目分别是:
l Day1:FlashMLA,針對英偉達 Hopper 架構 GPU 的高效 MLA(多頭潛在注意力)解碼内核;
l Day2:DeepEP,首個用于 MoE(混合專家)模型訓練和推理的開源 EP(專家并行)通信庫;
l Day3: DeepGEMM,支持稠密和 MoE 模型的 FP8 計算庫,可為 V3/R1 的訓練和推理提供強大支持。
剛進行到第三天," 開源周 " 已經讓懷疑 DeepSeek 在訓練成本上 " 撒謊 " 的人噤聲了。因為每個開源項目都在向世界展示 DeepSeek 極致壓榨英偉達芯片的功力。
還有什麼比 " 貼臉開大 " 更能打敗質疑的呢?
我們先來看看 DeepSeek 最新開源的 DeepGEMM,只能説,在壓榨英偉達芯片、AI 性能效率提高這方面,DeepSeek 已經出神入化。
這是當初團隊專門給 V3 模型用的,現在就這麼水靈靈地開源了,要不怎麼説 DeepSeek 的誠意實在感人呢。
在 GitHub 上發布不到 10 個小時,就已經有 2.6 千個星星了。要知道一般來説,在 GitHub 上獲得幾千星星就已經算很成功了。
"DeepGEMM 像是數學領網域的超級英雄,快過超速計算器,強過多項式方程。我嘗試使用 DeepGEMM 時,現在我的 GPU 在計算時以每秒超過 1350 TFLOPS(萬億次浮點運算)的速度運轉,好像已經準備好參加 AI 奧運會了!" 一位開發者興奮地在 X 上表示。
DeepSeek 新開源的 DeepGEMM 究竟是什麼、意味着什麼?
DeepSeek 官方介紹 DeepGEMM 是一個支持密集型和 MoE 模型的 FP8 GEMM 庫:
l 無重度依賴,像教程一樣簡潔;
l 完全 JIT(即時編譯)
l 核心邏輯約 300 行代碼,在大多數矩陣尺寸下優于經過專家調優的内核
l 同時支持密集布局和兩種 MoE 布局
一句話定義:DeepGEMM 是一款專注于 FP8 高效通用矩陣乘法(GEMM)的庫,主要滿足普通矩陣計算以及混合專家(MoE)分組場景下的計算需求。
利用該庫,能夠動态優化資源分配,從而顯著提升算力效率。
在深度學習中,FP8(8 位浮點數)可以減少存儲和計算的開銷,但是缺點(特點)也有,那就是精度比較低。如果説高精度格式是無損壓縮,那 FP8 就是有損壓縮。大幅減少存儲空間但需要特殊的處理方法來維持質量。而由于精度低,就可能產生量化誤差,影響模型訓練的穩定性。
在報告中 DeepSeek 介紹:" 目前,DeepGEMM 僅支持英偉達 Hopper 張量核心。為了解決 FP8 張量核心積累的精度問題,它采用了 CUDA 核心的兩級積累(提升)方法。"
而 DeepSeek 為了讓 FP8 這種速度快但精度偏低的計算方式變得更準确,利用了 CUDA 核心做了兩次累加,先用 FP8 做大批量乘法,然後再做高精度匯總,以此防止誤差累積。既大幅減少空間,同時又保有精度,效率也就由此提升。
JIT(即時編譯)和 Hooper 張量核心也是絕配。
Hopper 張量核心是專門為高效執行深度學習任務而設計的硬體單元,而 JIT 則意味着允許程式在運行時根據當前硬體的實際情況,動态地編譯和優化代碼。比如,JIT 編譯器可以根據具體的 GPU 架構、内存布局、計算資源等實時信息來生成最适合的指令集,從而充分發揮硬體性能。
最最最驚人的是,這一切,都被 DeepSeek 塞進了約 300 行代碼當中。
DeepSeek 自己也説:" 雖然它借鑑了一些 CUTLASS 和 CuTe 的概念,但避免了對它們模板或代數的過度依賴。相反,該庫設計簡單,只有一個核心内核函數,代碼大約有 300 行左右。這使得它成為一個簡潔且易于學習的資源,适用于學習 Hopper FP8 矩陣乘法和優化技術。"
CUTLASS 是英偉達自家的 CUDA 架構,專門給英偉達 GPU 來加速矩陣計算。畢竟官方出品,它的确非常好用。但它同時也很大很沉,如果手裏的卡不太行,那還真不一定跑得了。
吃不上的饅頭再想也沒用啊,而 DeepSeek 的極致壓榨哲學就在這裏閃爍光芒了。優化更激進、更聚焦,也更輕。
輕的同時表現也很好,在報告中,DeepSeek 表示,DeepGEMM 比英偉達 CLUTLASS 3.6 的速度提升了 2.7 倍。
還記得 DeepSeek 在春節時大火,人們使用後都在為其 " 科技浪漫 " 風觸動不已。
如今看來,DeepSeek 的 " 科技浪漫 " 絕不僅僅在最終呈現給用户的文字當中,DeepGEMM 就像一把鋒利的小刀,在英偉達芯片上雕出漂亮的小花,線條簡潔又優雅。
不僅是 DeepGEMM,DeepSeek 前兩個開源項目也将其 " 科技美學 " 體現得淋漓盡致。
第一天,DeepSeek 開源了 FlashMLA。
用 DeepSeek 的話説,這是 " 用于 Hopper GPU 的高效 MLA 解碼内核,針對可變長度序列進行了優化。"
略過技術細節,我們來看看 FlashMLA 如何發揮作用。
首先,在大型語言模型推理時,高效的序列解碼對于減少延遲和提高吞吐量至關重要。FlashMLA 針對變長序列和分頁 KV 緩存的優化,使其非常适合此類任務。
其次,像聊天機器人、翻譯服務或語音助手等應用需要低延遲響應。FlashMLA 的高内存帶寬和計算吞吐量确保這些應用能夠快速高效地返回結果。
以及,在需要同時處理多個序列的場景(如批量推理)中,FlashMLA 能夠高效地處理變長序列并進行内存管理,從而确保最佳性能。
最後,研究人員在進行新的 AI 模型或算法實驗時,可以使用 FlashMLA 加速實驗和原型開發,尤其是在處理大規模模型和數據集時。
還是兩個字:壓榨。在報告當中,DeepSeek 表示,這個工具專門針對英偉達 H800 做優化——在 H800 SXM5 平台上,如内存受限最高可以達到 3000GB/s,如計算受限可達峰值 580 TFLOPS。
第二天,DeepSeek 開源了 DeepEP。
用 DeepSeek 的話説,這是 " 首個用于 MoE 模型訓練和推理的開源 EP 通信庫 "。
MoE 即混合專家(Mixture of Experts),這種架構利用多個 " 專家 " 子模型來處理不同的任務。和使用單一大模型處理所有任務不同,MoE 根據輸入選擇性地激活一部分專家,從而使模型更高效。
順帶一提,MoE 和前文提到的 MLA(多頭潛在注意力)正是 DeepSeek 所使用的降低成本的關鍵先進技術。
而 DeepEP 當中的 EP 則是指專家并行(Expert Parallelism),是 MoE 中的一種技術,讓多個 " 專家 " 子模型并行工作。
DeepEP 這個庫,可以在加速和改善計算機(或 GPU)之間在處理復雜機器學習任務時的通信,特别是在涉及混合專家(MoE)模型時。這些模型使用多個 " 專家 "(專門的子模型)來處理問題的不同部分,而 DeepEP 确保數據在這些專家之間快速而高效地傳遞。
就像是機器學習系統中一個聰明的交通管理員,确保所有 " 專家 " 能夠按時收到數據并協同工作,避免延遲,使系統更加高效和快速。
假設你有一個大型數據集,并且想讓不同的模型(或專家)處理數據的不同部分,DeepEP 會将數據在合适的時機發送給正确的專家,讓他們無需等待或造成延遲。如果你在多個 GPU(強大的處理器)上訓練機器學習模型,你需要在這些 GPU 之間傳遞數據。DeepEP 優化了數據在它們之間的傳輸方式,确保數據流動迅速而順暢。
即便你不是一個開發者,對以上内容并不完全理解,也能從中讀出兩個字來:高效。
這正是 DeepSeek 開源周所展現的核心實力——這家公司究竟是怎樣最大化利用有限的資源的。
自從 DeepSeek 開啓開源周,就不怎麼見到此前對其發出質疑的人再有什麼評論了。
正如本文開頭引用 Pimentel 的辣評:"DeepSeek 有效地駁斥了頻繁出現的在訓練方面‘他們撒謊了’的言論。"
在去年 12 月關于 V3 的技術報告中,DeepSeek 表示該模型使用了大約 2000 塊英偉達 H800 進行訓練,成本約為 600 萬美元。這個成本遠低于規模更大的競争對手,後者動辄就是幾十億、上萬億美元的投入,OpenAI 甚至在 DeepSeek 的 R1 模型走紅前,剛剛和甲骨文、軟銀攜手宣布了 5000 億美元的合資項目。
這也引發了對 DeepSeek 在開發成本方面誤導公眾的指控。
持有懷疑态度的包括但不限于 Anthropic 創始人達裏奧 · 阿莫迪(Dario Amodei)、Oculus VR 的創始人帕爾默 · 盧基(Palmer Luckey)。Oculus 已經被 Meta 收購。
盧基就稱,DeepSeek 的預算是 " 虛假的 ",而阿莫迪幹脆撰寫檄文呼籲美國加強芯片出口管制,指責 DeepSeek" 偷偷 " 用了大量更先進的芯片。
這些批評聲并不相信 DeepSeek 自己的表态—— DeepSeek 在其技術報告中表示,高效訓練的秘訣是多種創新的結合,從 MoE 混合專家架構到 MLA 多頭潛在注意力技術。
如今,DeepSeek 開源周零幀起手,就從這些技術的深度優化方面做開源。
Bindu Reddy 在 X 上表達振奮的心情:"DeepSeek 正在圍繞 MoE 模型訓練和推理開源極高效的技術。感謝 DeepSeek,推動 AGI 的發展,造福全人類。"Reddy 曾在谷歌擔任產品經理、在 AWS 擔任人工智能垂直領網域總經理并,後創辦 Abacus AI,是開源路線的信仰者。
有媒體評論道:" 對于熱愛人工智能的人來説,FlashMLA 就像一股清新的空氣。它不僅關乎速度,還為創造力和協作開辟了新途徑。"
在 Github 相關開源項目的交流區,不僅有技術交流,也有不少贊美之聲,甚至有中文的 " 到此一遊 " 打卡貼。在中文互聯網上,人們已經開始把 DeepSeek 稱為 " 源神 "。
DeepSeek 有自己的難題嗎?當然有,比如商業化這個老大難問題,DeepSeek 或許也得面對。但在那之前,它先将壓力給到了對手。
同樣是在 Github 的交流區,不少人想起了 OpenAI,将 DeepSeek 稱為 " 真正的 OpenAI"。OpenAI 已經走上閉源之路好幾年,甚至被戲稱為 "CloseAI",直到 DeepSeek 出現,OpenAI 的 CEO 山姆 · 奧特曼(Sam Altman)才終于松口,稱在開源 / 閉源的問題上,自己或許站在了歷史錯誤的一邊。
一周前,他曾經在 X 上發起投票,詢問粉絲希望 OpenAI 的下一個開源項目是什麼類型的。
不過到目前為止,這一切都還在承諾中,并未見之于世。
另一邊,馬斯克的 xAI,仍然在新一代發布時,開源上一代大模型。剛剛發布了 Grok 3,宣布會開源 Grok 2。
與此同時,DeepSeek 的開源周,讓更多人擔心起英偉達,這個在 AI 浪潮中最大的受益者之一。
有人看着 DeepSeek 的開源項目一個接一個發布,在 X 上表示:" 這是第三天看到我的英偉達股票正在火上烤。"
北京時間 2 月 27 日,既是 DeepSeek 開源周的第四天,是 OpenAI 放出開源信号的第九天,也是英偉達财報發布的日子。
OpenAI 的開源項目會來嗎?英偉達的股價能穩住嗎?DeepSeek 還将開源什麼?人工智能戰場上,總是不缺少令人期待答案的問号。