今天小編分享的科學經驗:國產之光DeepSeek把AI大佬全炸出來了!671B大模型訓練只需此前算力1/10,細節全公開,歡迎閱讀。
DeepSeek 新版模型正式發布,技術大佬們都轉瘋了!
延續便宜大碗特點的基礎之上,DeepSeek V3 發布即完全開源,直接用了 53 頁論文把訓練細節和盤托出的那種。
怎麼說呢,QLoRA 一作的一個詞評價就是:優雅。
具體來說,DeepSeek V3 是一個參數量為671B的 MoE 模型,激活 37B,在14.8T高質量 token 上進行了預訓練。
在多項測評上,DeepSeek V3 達到了開源 SOTA,超越 Llama 3.1 405B,能和 GPT-4o、Claude 3.5 Sonnet 等 TOP 模型正面掰掰手腕——
而其價格比 Claude 3.5 Haiku 還便宜,僅為 Claude 3.5 Sonnet 的 9%。
更重要的是,大家夥兒還第一時間在論文中發現了關鍵細節:
DeepSeek V3 整個訓練過程僅用了不到280 萬個 GPU 小時,相比之下,Llama 3 405B 的訓練時長是3080 萬 GPU 小時(p.s. GPU 型号也不同)。
直觀地從錢上來對比就是,訓練 671B 的 DeepSeek V3 的成本是 557.6 萬美元(約合 4070 萬人民币),而只是訓練一個 7B 的 Llama 2,就要花費 76 萬美元(約合 555 萬人民币)。
OpenAI 創始成員 Karpathy 對此贊道:
DeepSeek V3 讓在有限算力預算上進行模型預訓練這件事變得容易。
DeepSeek V3 看起來比 Llama 3 405B 更強,訓練消耗的算力卻僅為後者的 1/11。
Meta 科學家田淵棟也驚嘆 DeepSeek V3 的訓練看上去是 " 黑科技 ":
這是非常偉大的工作。
全網熱烈實測中
先來看官方說法,新模型這次主要有以下幾個特點:
首先從模型能力來看,其評測跑分不僅超越了 Qwen2.5-72B 和 Llama-3.1-405B 等開源模型,甚至還和一些頂尖閉源模型(如 GPT-4o 以及 Claude-3.5-Sonnet)不分伯仲。
從實際響應來看,其生成速度提升了3 倍,每秒生成 60 個 tokens。
在又快又好的同時,DeepSeek V3 的API 價格也被打下來了。
每百萬輸入 tokens 0.5 元(緩存命中)/ 2 元(緩存未命中),每百萬輸出 tokens 8 元
單論價格,正如一開始提到的,它幾乎是 Claude 3.5 Sonnet 的 1/53(後者每百萬輸入 3 美元、輸出 15 美元)。
而如果要平衡性能和成本,它成了 DeepSeek 官方繪圖中唯一闖進 " 最佳性價比 " 三角區的模型。
對了,DeepSeek 這次還搞了一個45 天優惠價格體驗期,也就是在 2025 年 2 月 8 日之前,所有用戶使用 DeepSeek V3 API 的價格分别下降了 80%(輸入命中)、50%(輸入未命中),75%(輸出)。
每百萬輸入 tokens 0.1 元(緩存命中)/ 1 元(緩存未命中),每百萬輸出 tokens 2 元
最後,官方此次一同開源了原生 FP8 權重,并提供了從 FP8 到 BF16 的轉換腳本。
具體而言,SGLang 和 LMDeploy 這兩個框架已支持 FP8 推理,另外兩個框架 TensorRT-LLM 和 MindIE 則支持 BF16 推理(适合需要更高精度的場景)。
目前普通用戶可以通過官網(chat.deepseek.com)與 DeepSeek V3 展開對話,API 也已同步更新,接口配置無需改動。
知名 AI 博主 AK 親測,只需幾行代碼就能将它部署到 Gradio。
Okk,話說到這裡,我們直接來看一些實測效果吧。
首位全職提示詞工程師出新題,DeepSeek V3 完全答對
這第一關,來自首位全職提示詞工程師 Riley Goodside。
新題為 "Which version is this?",考察模型對自身版本的理解。接受考驗的選手除了 DeepSeek V3,還有 Claude、Gemini、ChatGPT 和 Grok。
先說結論,按 Riley 的說法,這幾位的回答主打" 各不相同 ",不過 DeepSeek V3 完全答對了。
Claude 3.5 Sonnet 也對其版本了如指掌——不僅說對了版本号(許多用戶非官方地稱這個版本為 3.5.1 或 3.6),還給出了發布月份。
(不過 Claude 3.5 Haiku 出錯了,誤識别為 Claude 3 Haiku。)
不過後面幾位選手就開始各種出錯了,尤其是 ChatGPT 和 Grok。
ChatGPT 要麼給出模糊答案(基于 GPT-4 架構),要麼直接自信給出錯誤版本,總之處于比較懵圈的狀态。
而 Grok 更是獨特,理論倒是一套一套,但就是不說自己的版本。(除非直接問它是哪個 Grok 模型)
除此之外,一些網友還進行了更多測試。
更多網友整活
比如這位 Tom 小哥驚訝表示,DeepSeek V3 無需開發者詳細解釋,就能 " 詭異 " 理解整個項目。
突然感覺機器裡好像有鬼
他唯一做的,就是告訴 DeepSeek V3 最終目标是什麼。
當然,老規矩還是要測一下數草莓中的 "r" 以及 "9.9 和 9.11 哪個大 " 這種行業難題。 ( doge)
很欣慰,這次它都答對了,而且答案和分析過程都沒問題。
最後,還有人直接将 4 個 M4 Mac mini 堆疊在一起來運行 DeepSeek V3 了……
唯一值得遺憾的是,當前版本的 DeepSeek V3暫不支持多模态輸入輸出。
模型預訓練:<2 個月,600 萬美元
測試完畢,我們繼續掰開論文細節。先來看最受關注的預訓練部分:
官方介紹,通過在算法、框架和硬體方面的協同優化,DeepSeek V3 的訓練成本變得非常經濟。
預訓練階段,在每萬億 token 上訓練 DeepSeek V3 僅需要 18 萬 GPU 小時,就是說,在官方 2048 卡集群上,3.7 天就能完成這一訓練過程。
研發團隊用了不到 2 個月的時間就完成了 DeepSeek V3 的預訓練,耗費了 266.4 萬 GPU 小時,再加上上下文長度擴展的 11.9 萬 GPU 小時,和後訓練的 5000 GPU 小時,總訓練成本為 278.8 萬 GPU 小時。
假設 GPU 租賃價格為每 GPU 小時 2 美元,那成本換算過來就是 557.6 萬美元。
所以,具體是什麼樣的協同優化?
官方标注了幾個重點:
首先,架構方面,DeepSeek V3 采用了創新的負載均衡策略和訓練目标。
研發團隊在 DeepSeek-V2 架構的基礎上,提出了一種無輔助損失的負載均衡策略,能最大限度減少負載均衡而導致的性能下降。
具體而言,該策略為 MoE 中的每個專家引入了一個偏置項(bias term),并将其添加到相應的親和度分數中,以确定 top-K 路由。
研發團隊還證明,多 Token 預測目标(Multi-Token Prediction,MTP)有利于提高模型性能,可以用于推理加速的推測解碼。
預訓練方面,DeepSeek V3 采用 FP8 訓練。研發團隊設計了一個 FP8 混合精度訓練框架,首次驗證了 FP8 訓練在極大規模模型上的可行性和有效性。
論文中還提到了跨節點 MoE 訓練中的通信瓶頸問題。解決策略包括,設計 DualPipe 高效流水線并行算法:在單個前向和後向塊對内,重疊計算和通信。
這種重疊能确保随着模型的進一步擴大,只要保持恒定的計算和通信比率,就仍然可以跨節點使用細粒度專家,實現接近于 0 的 all-to-all 通信開銷。
另外,研發團隊還開發了高效的跨節點 all-to-all 通信内核等。
後訓練方面,DeepSeek V3 引入了一種創新方法,将推理能力從長思維鏈模型(DeepSeek R1)中,蒸餾到标準模型上。這在顯著提高推理性能的同時,保持了 DeepSeek V3 的輸出風格和長度控制。
其他值得關注的細節還包括,DeepSeek V3 的 MoE 由 256 個路由專家和 1 個共享專家組成。在 256 個路由專家中,每個 token 會激活 8 個專家,并确保每個 token 最多被發送到 4 個節點。
DeepSeek V3 還引入了冗餘專家(redundant experts)的部署策略,即復制高負載專家并冗餘部署。這主要是為了在推理階段,實現 MoE 不同專家之間的負載均衡。
最後,來看部分實驗結果。
大海撈針實驗:
可以看到,在各項基準測試中,DeepSeek V3 在開源模型中達到 SOTA。
賈揚清談 DeepSeek 團隊:其成就根植于多年專業知識
新版本模型引爆熱議,更多有關 DeepSeek 及其背後團隊的信息也被關注到。
其中,賈揚清還透露了與 DeepSeek 團隊早年的相處細節。
當時是 2019 年,他正打算向團隊推薦一個 AI 雲解決方案,并試圖說服這群人:
不需要復雜的雲虛拟化,只需要容器和高效的調度器。
需要真正快速、相互連接的專用網絡,如 RoCE 或 Infiniband。
需要像 NFS 這樣的通用存儲,不需要太復雜,但必須快速。
要讓 AI 開發者滿意,而不是系統可靠性工程師(SREs)滿意。
有意思的是,團隊表示這些東西他們早已實踐了多年,并轉而讓他幫忙向一些大學實驗室捐贈算力資源。
當然最後也确實幫上忙了,而賈揚清也再次感嘆:
DeepSeek 團隊的偉大成就在某種程度上植根于多年的專業知識,這些專業知識部分被許多人忽視了。
最最後,除了本次官方公布的測試結果,Imsys 匿名競技場也出來提前預熱了。
家人們,快來用你最難的提示考考 DeepSeek V3。(後續發布競技場榜單)
體驗地址:
chat.deepseek.com
技術報告地址:
https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
抱抱臉開源地址:
https://huggingface.co/deepseek-ai/DeepSeek-V3
參考鏈接:
https://mp.weixin.qq.com/s/iFZOQsUNkpkXPDvOkE99wQ
— 完 —
點這裡關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>