大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科技

DeepSeek連開三源,解開訓練省錢之謎

2025-02-27 简体 HK SG TW

今天小編分享的科技經驗:DeepSeek連開三源,解開訓練省錢之謎,歡迎閱讀。

"DeepSeek 有效地駁斥了頻繁出現的在訓練方面‘他們撒謊了’的言論。"

舊金山人工智能行業解決方案提供商 Dragonscale Industries 的首席技術官 Stephen Pimentel 在 X 上如是評論 DeepSeek" 開源周 "。

" 是的。以及關于 5 萬張 H100 的虛假傳聞(也被駁斥了)…… " 全球咨詢公司 DGA Group 合夥人、中美技術問題專家 Paul Triolo 也附和道。

DeepSeek" 開源周 " 從 2 月 24 日至 2 月 28 日,共持續 5 天。會陸續開源 5 個項目。

過去三天的開源項目分别是:

l Day1:FlashMLA,針對英偉達 Hopper 架構 GPU 的高效 MLA(多頭潛在注意力)解碼内核;

l Day2:DeepEP,首個用于 MoE(混合專家)模型訓練和推理的開源 EP(專家并行)通信庫;

l Day3: DeepGEMM,支持稠密和 MoE 模型的 FP8 計算庫,可為 V3/R1 的訓練和推理提供強大支持。

剛進行到第三天," 開源周 " 已經讓懷疑 DeepSeek 在訓練成本上 " 撒謊 " 的人噤聲了。因為每個開源項目都在向世界展示 DeepSeek 極致壓榨英偉達芯片的功力。

還有什麼比 " 貼臉開大 " 更能打敗質疑的呢?

我們先來看看 DeepSeek 最新開源的 DeepGEMM,只能說,在壓榨英偉達芯片、AI 性能效率提高這方面,DeepSeek 已經出神入化。

這是當初團隊專門給 V3 模型用的,現在就這麼水靈靈地開源了,要不怎麼說 DeepSeek 的誠意實在感人呢。

在 GitHub 上發布不到 10 個小時,就已經有 2.6 千個星星了。要知道一般來說,在 GitHub 上獲得幾千星星就已經算很成功了。

"DeepGEMM 像是數學領網域的超級英雄,快過超速計算器,強過多項式方程。我嘗試使用 DeepGEMM 時,現在我的 GPU 在計算時以每秒超過 1350 TFLOPS(萬億次浮點運算)的速度運轉,好像已經準備好參加 AI 奧運會了!" 一位開發者興奮地在 X 上表示。

DeepSeek 新開源的 DeepGEMM 究竟是什麼、意味着什麼?

DeepSeek 官方介紹 DeepGEMM 是一個支持密集型和 MoE 模型的 FP8 GEMM 庫:

l 無重度依賴,像教程一樣簡潔;

l 完全 JIT(即時編譯)

l 核心邏輯約 300 行代碼,在大多數矩陣尺寸下優于經過專家調優的内核

l 同時支持密集布局和兩種 MoE 布局

一句話定義:DeepGEMM 是一款專注于 FP8 高效通用矩陣乘法(GEMM)的庫,主要滿足普通矩陣計算以及混合專家(MoE)分組場景下的計算需求。

利用該庫,能夠動态優化資源分配,從而顯著提升算力效率。

在深度學習中,FP8(8 位浮點數)可以減少存儲和計算的開銷,但是缺點(特點)也有,那就是精度比較低。如果說高精度格式是無損壓縮,那 FP8 就是有損壓縮。大幅減少存儲空間但需要特殊的處理方法來維持質量。而由于精度低,就可能產生量化誤差,影響模型訓練的穩定性。

在報告中 DeepSeek 介紹:" 目前,DeepGEMM 僅支持英偉達 Hopper 張量核心。為了解決 FP8 張量核心積累的精度問題,它采用了 CUDA 核心的兩級積累(提升)方法。"

而 DeepSeek 為了讓 FP8 這種速度快但精度偏低的計算方式變得更準确,利用了 CUDA 核心做了兩次累加,先用 FP8 做大批量乘法,然後再做高精度匯總,以此防止誤差累積。既大幅減少空間,同時又保有精度,效率也就由此提升。

JIT(即時編譯)和 Hooper 張量核心也是絕配。

Hopper 張量核心是專門為高效執行深度學習任務而設計的硬體單元,而 JIT 則意味着允許程式在運行時根據當前硬體的實際情況,動态地編譯和優化代碼。比如,JIT 編譯器可以根據具體的 GPU 架構、内存布局、計算資源等實時信息來生成最适合的指令集,從而充分發揮硬體性能。

最最最驚人的是,這一切,都被 DeepSeek 塞進了約 300 行代碼當中。

DeepSeek 自己也說:" 雖然它借鑑了一些 CUTLASS 和 CuTe 的概念,但避免了對它們模板或代數的過度依賴。相反,該庫設計簡單,只有一個核心内核函數,代碼大約有 300 行左右。這使得它成為一個簡潔且易于學習的資源,适用于學習 Hopper FP8 矩陣乘法和優化技術。"

CUTLASS 是英偉達自家的 CUDA 架構,專門給英偉達 GPU 來加速矩陣計算。畢竟官方出品,它的确非常好用。但它同時也很大很沉,如果手裡的卡不太行,那還真不一定跑得了。

吃不上的饅頭再想也沒用啊,而 DeepSeek 的極致壓榨哲學就在這裡閃爍光芒了。優化更激進、更聚焦,也更輕。

輕的同時表現也很好,在報告中,DeepSeek 表示,DeepGEMM 比英偉達 CLUTLASS 3.6 的速度提升了 2.7 倍。

還記得 DeepSeek 在春節時大火,人們使用後都在為其 " 科技浪漫 " 風觸動不已。

如今看來,DeepSeek 的 " 科技浪漫 " 絕不僅僅在最終呈現給用戶的文字當中,DeepGEMM 就像一把鋒利的小刀,在英偉達芯片上雕出漂亮的小花,線條簡潔又優雅。

不僅是 DeepGEMM,DeepSeek 前兩個開源項目也将其 " 科技美學 " 體現得淋漓盡致。

第一天,DeepSeek 開源了 FlashMLA。

用 DeepSeek 的話說,這是 " 用于 Hopper GPU 的高效 MLA 解碼内核,針對可變長度序列進行了優化。"

略過技術細節,我們來看看 FlashMLA 如何發揮作用。

首先,在大型語言模型推理時,高效的序列解碼對于減少延遲和提高吞吐量至關重要。FlashMLA 針對變長序列和分頁 KV 緩存的優化,使其非常适合此類任務。

其次,像聊天機器人、翻譯服務或語音助手等應用需要低延遲響應。FlashMLA 的高内存帶寬和計算吞吐量确保這些應用能夠快速高效地返回結果。

以及,在需要同時處理多個序列的場景(如批量推理)中,FlashMLA 能夠高效地處理變長序列并進行内存管理,從而确保最佳性能。

最後,研究人員在進行新的 AI 模型或算法實驗時,可以使用 FlashMLA 加速實驗和原型開發,尤其是在處理大規模模型和數據集時。

還是兩個字:壓榨。在報告當中,DeepSeek 表示,這個工具專門針對英偉達 H800 做優化——在 H800 SXM5 平台上,如内存受限最高可以達到 3000GB/s,如計算受限可達峰值 580 TFLOPS。

第二天,DeepSeek 開源了 DeepEP。

用 DeepSeek 的話說,這是 " 首個用于 MoE 模型訓練和推理的開源 EP 通信庫 "。

MoE 即混合專家(Mixture of Experts),這種架構利用多個 " 專家 " 子模型來處理不同的任務。和使用單一大模型處理所有任務不同,MoE 根據輸入選擇性地激活一部分專家,從而使模型更高效。

順帶一提,MoE 和前文提到的 MLA(多頭潛在注意力)正是 DeepSeek 所使用的降低成本的關鍵先進技術。

而 DeepEP 當中的 EP 則是指專家并行(Expert Parallelism),是 MoE 中的一種技術,讓多個 " 專家 " 子模型并行工作。

DeepEP 這個庫,可以在加速和改善計算機(或 GPU)之間在處理復雜機器學習任務時的通信,特别是在涉及混合專家(MoE)模型時。這些模型使用多個 " 專家 "(專門的子模型)來處理問題的不同部分,而 DeepEP 确保數據在這些專家之間快速而高效地傳遞。

就像是機器學習系統中一個聰明的交通管理員,确保所有 " 專家 " 能夠按時收到數據并協同工作,避免延遲,使系統更加高效和快速。

假設你有一個大型數據集,并且想讓不同的模型(或專家)處理數據的不同部分,DeepEP 會将數據在合适的時機發送給正确的專家,讓他們無需等待或造成延遲。如果你在多個 GPU(強大的處理器)上訓練機器學習模型,你需要在這些 GPU 之間傳遞數據。DeepEP 優化了數據在它們之間的傳輸方式,确保數據流動迅速而順暢。

即便你不是一個開發者,對以上内容并不完全理解,也能從中讀出兩個字來:高效。

這正是 DeepSeek 開源周所展現的核心實力——這家公司究竟是怎樣最大化利用有限的資源的。

自從 DeepSeek 開啟開源周,就不怎麼見到此前對其發出質疑的人再有什麼評論了。

正如本文開頭引用 Pimentel 的辣評:"DeepSeek 有效地駁斥了頻繁出現的在訓練方面‘他們撒謊了’的言論。"

在去年 12 月關于 V3 的技術報告中,DeepSeek 表示該模型使用了大約 2000 塊英偉達 H800 進行訓練,成本約為 600 萬美元。這個成本遠低于規模更大的競争對手,後者動辄就是幾十億、上萬億美元的投入,OpenAI 甚至在 DeepSeek 的 R1 模型走紅前,剛剛和甲骨文、軟銀攜手宣布了 5000 億美元的合資項目。

這也引發了對 DeepSeek 在開發成本方面誤導公眾的指控。

持有懷疑态度的包括但不限于 Anthropic 創始人達裡奧 · 阿莫迪(Dario Amodei)、Oculus VR 的創始人帕爾默 · 盧基(Palmer Luckey)。Oculus 已經被 Meta 收購。

盧基就稱,DeepSeek 的預算是 " 虛假的 ",而阿莫迪幹脆撰寫檄文呼籲美國加強芯片出口管制,指責 DeepSeek" 偷偷 " 用了大量更先進的芯片。

這些批評聲并不相信 DeepSeek 自己的表态—— DeepSeek 在其技術報告中表示,高效訓練的秘訣是多種創新的結合,從 MoE 混合專家架構到 MLA 多頭潛在注意力技術。

如今,DeepSeek 開源周零幀起手,就從這些技術的深度優化方面做開源。

Bindu Reddy 在 X 上表達振奮的心情:"DeepSeek 正在圍繞 MoE 模型訓練和推理開源極高效的技術。感謝 DeepSeek,推動 AGI 的發展,造福全人類。"Reddy 曾在谷歌擔任產品經理、在 AWS 擔任人工智能垂直領網域總經理并,後創辦 Abacus AI,是開源路線的信仰者。

有媒體評論道:" 對于熱愛人工智能的人來說,FlashMLA 就像一股清新的空氣。它不僅關乎速度,還為創造力和協作開辟了新途徑。"

在 Github 相關開源項目的交流區,不僅有技術交流,也有不少贊美之聲,甚至有中文的 " 到此一遊 " 打卡貼。在中文互聯網上,人們已經開始把 DeepSeek 稱為 " 源神 "。

DeepSeek 有自己的難題嗎?當然有,比如商業化這個老大難問題,DeepSeek 或許也得面對。但在那之前,它先将壓力給到了對手。

同樣是在 Github 的交流區,不少人想起了 OpenAI,将 DeepSeek 稱為 " 真正的 OpenAI"。OpenAI 已經走上閉源之路好幾年,甚至被戲稱為 "CloseAI",直到 DeepSeek 出現,OpenAI 的 CEO 山姆 · 奧特曼(Sam Altman)才終于松口,稱在開源 / 閉源的問題上,自己或許站在了歷史錯誤的一邊。

一周前,他曾經在 X 上發起投票,詢問粉絲希望 OpenAI 的下一個開源項目是什麼類型的。

不過到目前為止,這一切都還在承諾中,并未見之于世。

另一邊,馬斯克的 xAI,仍然在新一代發布時,開源上一代大模型。剛剛發布了 Grok 3,宣布會開源 Grok 2。

與此同時,DeepSeek 的開源周,讓更多人擔心起英偉達,這個在 AI 浪潮中最大的受益者之一。

有人看着 DeepSeek 的開源項目一個接一個發布,在 X 上表示:" 這是第三天看到我的英偉達股票正在火上烤。"

北京時間 2 月 27 日,既是 DeepSeek 開源周的第四天,是 OpenAI 放出開源信号的第九天,也是英偉達财報發布的日子。

OpenAI 的開源項目會來嗎?英偉達的股價能穩住嗎?DeepSeek 還将開源什麼?人工智能戰場上,總是不缺少令人期待答案的問号。

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們