今天小編分享的财經經驗:DeepSeek甩出了一張“王炸”,歡迎閱讀。
出品|虎嗅科技組
作者|餘楊
編輯|苗正卿
頭圖|《賭神》劇照
12 月 26 日消息,國產大模型 DeepSeek 推出 DeepSeek-V3,一個強大的混合專家(Mixture-of-Experts, MoE)語言模型。主要的技術迭代是 671B 的 MoE,37B 的激活參數,在 14.8 萬億個高質量 token 上進行了預訓練。
AI 圈表示," 聖誕節真的來了 "。
翻譯翻譯,首先,從訓練時間看,正如 DeepSeek 在發布報告中指出的那樣," 盡管其表現出色,DeepSeek-V3 的完整訓練僅需 2.788M H800 GPU 小時。"
打個比方,如果對标 Llama 3 系列模型,其計算預算為 3930 萬 H100 GPU Hours —— 大約可以訓練 DeepSeek-V3 十五次。
從成本上看,如果我們假設 H800 GPU 的租金為每 GPU 小時 2 美元,DeepSeek-V3 的總訓練成本僅為 557.6 萬美元。
不僅如此,在最新發布的技術報告裡,經過與 DeepSeek-V2.5、Qwen2.5-72B-Inst、Llama-3.1-405B-Inst、GPT-4o-0513 和 Claude-3.5-Sonnet-1022 幾個模型的跑分, DeepSeek-V3 在多個性能基準測試中表現出色。在 MATH500、AIME2024 和 Codeforces 三個維度更是遙遙領先,數學和編程能力極強,一度超過 GPT-4o 和 Claude 3.5 Sonnet 這兩大領先的閉源模型。雖然在某些語言理解和軟體工程任務中稍有遜色,但也是 TOP2 傑出人士選手。
DeepSeek 自言,這得益于采用了 Multi-head Latent Attention ( MLA ) 和 DeepSeek MoE 架構,實現了高效的推理和經濟高效的訓練。又引入了輔助損失自由負載平衡策略和多 token 預測訓練目标,提升了模型性能。同時,在 14.8 萬億個高質量 token 上進行了預訓練時,通過監督微調和強化學習階段充分挖掘了其潛力。
綜合評估顯示,DeepSeek-V3 優于其他開源模型,性能接近領先的閉源模型。并且,訓練過程非常穩定,沒有遇到不可恢復的損失峰值或回滾。相比之下,在同一天,ChatGPT 再次宕機,修復時間尚未确定。
Meta AI 研究科學家田淵棟在 X 上對 DeepSeek-V3 " 極有限的預算 " 和 " 強勁的表現 " 深感驚喜。
曾為 Glean 和 Google Search 的創始團隊成員的 VC Deedy 更是将 DeepSeek-V3 贊為 " 世界上最好的開源大模型 "。
DeepSeek-V3 的基礎模型以英語和中文為主的多語言語料庫上進行預訓練,因此主要在一系列以英語和中文為主的基準測試上評估其性能,同時也在一個多語言基準測試上進行評估。而基于其内部集成的 HAI-LLM 框架,具體跑分如下:
如上可以看到 V3 在英語、編程、數學、中文、多語言幾個維度的表現。
英語(English):DeepSeek-V3 Base 在大多數測試中表現最佳,例如在 BBH ( EM ) 、MMLU ( EM ) 、MMLU-Redux ( EM ) 、DROP ( F1 ) 、ARC-Easy ( EM ) 、ARC-Challenge ( EM ) 、HellaSwag ( EM ) 、PIQA ( EM ) 、WinoGrande ( EM ) 、TriviaQA ( EM ) 和 AGIEval ( EM ) 等測試中。在 Pile-test ( BPB ) 基準測試中,DeepSeek-V3 Base 的得分為 0.548,也略高于其他模型。
代碼(Code):DeepSeek-V3 Base 在 HumanEval ( Pass@1 ) 、MBPP ( Pass@1 ) 、LiveCodeBench-Base ( Pass@1 ) 、CRUXEval-I ( EM ) 和 CRUXEval-O ( EM ) 等測試中表現突出。
數學(Math):DeepSeek-V3 Base 在 GSM8K ( EM ) 、MATH ( EM ) 、MGSM ( EM ) 和 CMath ( EM ) 等測試中表現優異。
中文(Chinese):DeepSeek-V3 Base 在 CLUEWSC ( EM ) 、C-Eval ( EM ) 、CMMLU ( EM ) 、CMRC ( EM ) 、C3 ( EM ) 和 CCPM ( EM ) 等測試中表現良好。
多語言(Multilingual):DeepSeek-V3 Base 在 MMMLU-non-English ( EM ) 測試中表現最佳。
由于 DeepSeek" 大方 " 開源,Open AI 水靈靈地被網友 cue 進行橫向對比,有一種被 push 的支配感。
不少玩家還在 X 上分享了自己的使用體驗,認為 DeepSeek-V3 很 " 聰明 ",并對 Deepseek 團隊表示極大的尊重。
DeepSeek 是一家創新型科技公司,長久以來專注于開發先進的大語言模型(LLM)和相關技術,由知名私募巨頭幻方量化孕育而生,作為大廠外唯一一家儲備萬張 A100 芯片的公司,幻方量化為 DeepSeek 的技術研發提供了強大的硬體支持。
早在通過開源大模型如 DeepSeek Coder 等,DeepSeek 就展示了在人工智能技術領網域的實力。DeepSeek V2 模型的發布,更是提供了一種史無前例的性價比,推動了中國大模型價格戰的發展,并因其創新的 MLA 架構和 DeepSeekMoESparse 結構而受到業界的廣泛關注。
DeepSeek 被矽谷譽為 " 來自東方的神秘力量 ",其 V2 模型論文在當時即被認為可能是今年最好的一篇。半年後,DeepSeek 帶着 V3 再次登場,用行動說明,中國大模型創業者,也可以加入到這場全球技術創新的 AI 競賽中。