DeepSeek甩出了一張“王炸”

今天小編分享的财經經驗：DeepSeek甩出了一張“王炸”，歡迎閱讀。

出品｜虎嗅科技組

作者｜餘楊

編輯｜苗正卿

頭圖｜《賭神》劇照

12 月 26 日消息，國產大模型 DeepSeek 推出 DeepSeek-V3，一個強大的混合專家（Mixture-of-Experts, MoE）語言模型。主要的技術迭代是 671B 的 MoE，37B 的激活參數，在 14.8 萬億個高質量 token 上進行了預訓練。

AI 圈表示，" 聖誕節真的來了 "。

翻譯翻譯，首先，從訓練時間看，正如 DeepSeek 在發布報告中指出的那樣，" 盡管其表現出色，DeepSeek-V3 的完整訓練僅需 2.788M H800 GPU 小時。"

打個比方，如果對标 Llama 3 系列模型，其計算預算為 3930 萬 H100 GPU Hours —— 大約可以訓練 DeepSeek-V3 十五次。

從成本上看，如果我們假設 H800 GPU 的租金為每 GPU 小時 2 美元，DeepSeek-V3 的總訓練成本僅為 557.6 萬美元。

不僅如此，在最新發布的技術報告裡，經過與 DeepSeek-V2.5、Qwen2.5-72B-Inst、Llama-3.1-405B-Inst、GPT-4o-0513 和 Claude-3.5-Sonnet-1022 幾個模型的跑分， DeepSeek-V3 在多個性能基準測試中表現出色。在 MATH500、AIME2024 和 Codeforces 三個維度更是遙遙領先，數學和編程能力極強，一度超過 GPT-4o 和 Claude 3.5 Sonnet 這兩大領先的閉源模型。雖然在某些語言理解和軟體工程任務中稍有遜色，但也是 TOP2 傑出人士選手。

DeepSeek 自言，這得益于采用了 Multi-head Latent Attention ( MLA ) 和 DeepSeek MoE 架構，實現了高效的推理和經濟高效的訓練。又引入了輔助損失自由負載平衡策略和多 token 預測訓練目标，提升了模型性能。同時，在 14.8 萬億個高質量 token 上進行了預訓練時，通過監督微調和強化學習階段充分挖掘了其潛力。

綜合評估顯示，DeepSeek-V3 優于其他開源模型，性能接近領先的閉源模型。并且，訓練過程非常穩定，沒有遇到不可恢復的損失峰值或回滾。相比之下，在同一天，ChatGPT 再次宕機，修復時間尚未确定。

Meta AI 研究科學家田淵棟在 X 上對 DeepSeek-V3 " 極有限的預算 " 和 " 強勁的表現 " 深感驚喜。

曾為 Glean 和 Google Search 的創始團隊成員的 VC Deedy 更是将 DeepSeek-V3 贊為 " 世界上最好的開源大模型 "。

DeepSeek-V3 的基礎模型以英語和中文為主的多語言語料庫上進行預訓練，因此主要在一系列以英語和中文為主的基準測試上評估其性能，同時也在一個多語言基準測試上進行評估。而基于其内部集成的 HAI-LLM 框架，具體跑分如下：

如上可以看到 V3 在英語、編程、數學、中文、多語言幾個維度的表現。

英語（English）：DeepSeek-V3 Base 在大多數測試中表現最佳，例如在 BBH ( EM ) 、MMLU ( EM ) 、MMLU-Redux ( EM ) 、DROP ( F1 ) 、ARC-Easy ( EM ) 、ARC-Challenge ( EM ) 、HellaSwag ( EM ) 、PIQA ( EM ) 、WinoGrande ( EM ) 、TriviaQA ( EM ) 和 AGIEval ( EM ) 等測試中。在 Pile-test ( BPB ) 基準測試中，DeepSeek-V3 Base 的得分為 0.548，也略高于其他模型。

代碼（Code）：DeepSeek-V3 Base 在 HumanEval ( Pass@1 ) 、MBPP ( Pass@1 ) 、LiveCodeBench-Base ( Pass@1 ) 、CRUXEval-I ( EM ) 和 CRUXEval-O ( EM ) 等測試中表現突出。

數學（Math）：DeepSeek-V3 Base 在 GSM8K ( EM ) 、MATH ( EM ) 、MGSM ( EM ) 和 CMath ( EM ) 等測試中表現優異。

中文（Chinese）：DeepSeek-V3 Base 在 CLUEWSC ( EM ) 、C-Eval ( EM ) 、CMMLU ( EM ) 、CMRC ( EM ) 、C3 ( EM ) 和 CCPM ( EM ) 等測試中表現良好。

多語言（Multilingual）：DeepSeek-V3 Base 在 MMMLU-non-English ( EM ) 測試中表現最佳。

由于 DeepSeek" 大方 " 開源，Open AI 水靈靈地被網友 cue 進行橫向對比，有一種被 push 的支配感。

不少玩家還在 X 上分享了自己的使用體驗，認為 DeepSeek-V3 很 " 聰明 "，并對 Deepseek 團隊表示極大的尊重。

DeepSeek 是一家創新型科技公司，長久以來專注于開發先進的大語言模型（LLM）和相關技術，由知名私募巨頭幻方量化孕育而生，作為大廠外唯一一家儲備萬張 A100 芯片的公司，幻方量化為 DeepSeek 的技術研發提供了強大的硬體支持。

早在通過開源大模型如 DeepSeek Coder 等，DeepSeek 就展示了在人工智能技術領網域的實力。DeepSeek V2 模型的發布，更是提供了一種史無前例的性價比，推動了中國大模型價格戰的發展，并因其創新的 MLA 架構和 DeepSeekMoESparse 結構而受到業界的廣泛關注。

DeepSeek 被矽谷譽為 " 來自東方的神秘力量 "，其 V2 模型論文在當時即被認為可能是今年最好的一篇。半年後，DeepSeek 帶着 V3 再次登場，用行動說明，中國大模型創業者，也可以加入到這場全球技術創新的 AI 競賽中。