今天小編分享的互聯網經驗:DeepSeek們的成本,是怎麼計算的?,歡迎閱讀。
文 | 定焦 One(dingjiaoone),作者 | 王璐,編輯 | 魏佳
DeepSeek 徹底讓全球都坐不住了。
昨天,馬斯克攜 " 地球上最聰明的 AI" —— Gork 3 在直播中亮相,自稱其 " 推理能力超越目前所有已知模型 ",在推理 - 測試時間得分上,也好于 DeepSeek R1、OpenAI o1。不久前,國民級應用微信宣布接入 DeepSeek R1,正在灰度測試中,這一王炸組合被外界認為 AI 搜索領網域要變天。
如今,微軟、英偉達、華為雲、騰訊雲等全球多家科技大廠都已接入 DeepSeek。網友也開發出了算命、預測彩票等新奇玩法,其熱度直接轉化成了真金白銀,助推 DeepSeek 估值一路上漲,最高已經達到了千億美金。
DeepSeek 能出圈,除了免費和好用之外,還因為其僅以 557.6 萬美元的 GPU 成本,就訓練出了與 OpenAI o1 能力不相上下的 DeepSeek R1 模型。畢竟,在過去幾年的 " 百模大戰 " 中,國内外 AI 大模型公司都砸了幾十億甚至上百億美元。Gork 3 成為 " 全球最聰明 AI" 的代價也是高昂的,馬斯克稱 Gork 3 訓練累計消耗 20 萬塊英偉達 GPU(單塊成本大約在 3 萬美元),而業内人士估計 DeepSeek 僅在 1 萬多張。
但也有人在成本上卷 DeepSeek。近日李飛飛團隊稱,僅花費不到 50 美元的雲計算費用,就訓練出了一款推理模型 S1,其在數學和編碼能力測試中的表現媲美 OpenAI 的 o1 和 DeepSeek 的 R1。但需要注意的是,S1 是中型模型,與 DeepSeek R1 的上千億參數級别存在差距。
即便如此,從 50 美元到上百億美元的巨大訓練成本差異,還是讓大家好奇,一方面想知道 DeepSeek 的能力有多強,為什麼各家都在試圖趕上甚至超過它,另一方面,訓練一個大模型究竟需要多少錢?它涉及哪些環節?未來,是否還有可能進一步降低訓練成本?
被 " 以偏概全 " 的 DeepSeek
在從業者看來,在解答這些問題前,得先捋清幾個概念。
首先是對 DeepSeek 的理解 " 以偏概全 "。大家驚嘆的是它眾多大模型之中的一個——推理大模型 DeepSeek-R1,但它還有其他的大模型,不同大模型產品之間的功能不一樣。而 557.6 萬美元,是其通用大模型 DeepSeek-V3 訓練過程中的 GPU 花費,可以理解為淨算力成本。
簡單對比下:
通用大模型:
接收明确指令,拆解步驟,用戶要把任務描述清楚,包括回答順序,比如用戶需要提示是先做總結再給出标題,還是相反。
回復速度較快,基于概率預測(快速反應),通過大量數據預測答案。
推理大模型:
接收簡單明了、聚焦目标的任務,用戶要什麼直接說,它可以自己做規劃。
回復速度較慢,基于鏈式思維(慢速思考),推理問題步驟得到答案。
兩者主要的技術差别在于訓練數據,通用大模型是問題 + 答案,推理大模型是問題 + 思考過程 + 答案。
第二,由于 Deepseek 的推理大模型 DeepSeek-R1 關注度更高,很多人錯誤地認為推理大模型一定比通用大模型高級。
需要肯定的是,推理大模型屬于前沿模型類型,是大模型預訓練範式撞牆後,OpenAI 推出的在推理階段增加算力的新範式。相比通用大模型,推理大模型更燒錢,訓練時間也更長。
但并不意味着,推理大模型一定比通用大模型好用,甚至對于某類問題,推理大模型反而顯得雞肋。
大模型領網域知名專家劉聰對「定焦 One」解釋,比如問某個國家的首都 / 某個地方的省會城市,推理大模型就不如通用大模型好用。
DeepSeek-R1 面對簡單問題時的過度思考
他表示,面對這類比較簡單的問題,推理大模型不僅回答效率低于通用大模型,消耗的算力成本也比較昂貴,甚至會出現過度思考等情況,最後可能給出錯誤答案。
他建議,完成數學難題、挑戰性編碼等復雜任務時使用推理模型,總結、翻譯、基礎問答等簡單任務,通用模型使用效果更佳。
第三是 DeepSeek 的真正實力到底如何。
綜合權威榜單和從業者的說法,「定焦 One」分别在推理大模型和通用大模型領網域,給 DeepSeek 排了個位。
推理大模型第一梯隊主要有四家:國外 OpenAI 的 o 系列模型 ( 如 o3-mini ) 、Google 的 Gemini 2.0;國内的 DeepSeek-R1、阿裡的 QwQ。
不止一位從業者認為,雖然外界都在讨論 DeepSeek-R1 作為國内頂尖的模型,能力趕超 OpenAI,但從技術角度看,相比 OpenAI 最新的 o3,還有一定的差距。
它更重要的意義是,大大縮小了國内外頂尖水平之間的差距。" 如果說之前的差距是 2-3 代,DeepSeek-R1 出現後已經縮小到了 0.5 代。"AI 行業資深從業者江樹表示。
他結合自身使用經驗,介紹了四家的優缺點:
在通用大模型領網域,根據 LM Arena(用于評估和比較大型語言模型(LLM)性能的開源平台)榜單,排在第一梯隊的有五家:國外 Google 的 Gemini(閉源)、OpenAI 的 ChatGPT、Anthropic 的 Claude;國内的 DeepSeek、阿裡的 Qwen。
江樹也列舉出了使用它們的體驗。
不難發現,盡管 DeepSeek-R1 震驚了全球科技圈,其價值毋庸置疑,但每家大模型產品都有自身的優劣勢,DeepSeek 也不是所有大模型都完美無缺。比如劉聰就發現,DeepSeek 最新發布的專注于影像理解和生成任務的多模态大模型 Janus-Pro,使用效果一般。
訓練大模型,要花多少錢?
回到訓練大模型的成本問題,一個大模型究竟是如何誕生的?
劉聰表示,大模型誕生主要分為預訓練 - 後訓練兩個階段,如果把大模型比作小孩,預訓練和後訓練要做的是,讓小孩從出生時的只會哭,到懂得大人講的内容,再到主動和大人講話。
預訓練主要指訓練語料。比如将大量的文本語料投給模型,讓小孩完成知識攝取,但此刻他只是學了知識還不會用。
後訓練則要告訴小孩,如何去用學了的知識,包含兩種方法,模型微調(SFT)和強化學習(RLHF)。
劉聰表示,無論是通用大模型還是推理大模型、國内還是國外,大家遵循的都是這一流程。江樹也告訴「定焦 One」,各家都用的是 Transformer 模型,因此在最底層的模型構成和訓練步驟上,無本質區别。
多位從業者表示,各家大模型的訓練成本差别很大,主要集中在硬體、數據、人工三大部分,每一部分也可能采取不同的方式,對應的成本也不同。
劉聰分别舉例,比如硬體是買是租,兩者間的價格相差很大,如果是買,前期的一次性投入很大,但後期會大幅降低,基本只用交電費,如果是租,可能前期投入不大,但這部抽成本始終無法省去。所使用的訓練數據上,是直接購買現成數據,還是自己人工爬,也差别很大。每次的訓練成本也不太一樣,像第一次要寫爬蟲、做數據篩選,但下一個版本由于可使用上個版本的重復操作,成本會有所降低。以及在最終展現模型前,中間迭代了多少版本,也決定着成本高低,但大模型公司對此諱莫如深。
總之,每個環節都涉及很多高額的隐形成本。
外界曾按照 GPU 估算,在頂尖模型中,GPT-4 的訓練成本大約為 7800 萬美元,Llama3.1 超 6000 萬美元,Claude3.5 約為 1 億美元。但由于這些頂尖大模型都是閉源,以及各家是否存在算力浪費現象,外界很難知曉。直到同梯隊的 DeepSeek 以 557.6 萬美元出現。
需要注意的是,557.6 萬美元是 DeepSeek 技術報告中提到的基座模型 DeepSeek-V3 的訓練成本。" 關于 V3 版本的訓練成本只能代表最後一次成功訓練的成本,前期的研究、架構及算法的試錯等成本都沒有包含在内;而 R1 的具體訓練成本,論文中沒有提到。" 劉聰表示。也就是說,557.6 萬美元僅為模型總成本的一小部分。
半導體市場分析和預測公司 SemiAnalysis 指出,考慮到伺服器資本支出、運營成本等因素,DeepSeek 的總成本在 4 年内可能達到 25.73 億美元。
從業者認為,相較其他大模型公司百億美元的投入,即便按 25.73 億美元計算,DeepSeek 的成本也是低的。
而且,DeepSeek-V3 的訓練過程僅需 2048 張英偉達 GPU、所用 GPU 小時僅為 278.8 萬,相比之下,OpenAI 耗費了上萬張 GPU,Meta 訓練模型 Llama-3.1-405B 所用的 GPU 小時為 3084 萬。
DeepSeek 不僅在模型訓練階段效率更高,在調用推理階段也更高效、成本更低。
從 DeepSeek 給出的各大模型 API 定價(開發者可以通過 API 調用大模型,實現文本生成、對話互動、代碼生成等功能),能看出成本其低于 "OpenAI 們 "。通常認為,高開發成本的 API 通常需要通過較高的定價來回收成本。
DeepSeek-R1 的 API 定價為:每百萬輸入 tokens1 元(緩存命中),每百萬輸出 tokens16 元,反觀 OpenAI 的 o3-mini,輸入(緩存命中)、輸出每百萬 tokens 的定價,分别為 0.55 美元(4 元人民币)、4.4 美元(31 元人民币)。
緩存命中,即從緩存中讀取數據而非重新計算或調用模型生成結果,可以減少數據處理的時間、降低成本。行業通過區分緩存命中和緩存未命中,從而提高 API 定價的競争力,低價也讓中小企業也更容易接入。
近期結束了優惠期的 DeepSeek-V3,雖然從原來的每百萬輸入 tokens0.1 元(緩存命中)、每百萬輸出 tokens2 元,分别上調到了 0.5 元、8 元,價格仍然低于其他主流模型。
雖然大模型總訓練成本很難預估,但從業者一致認為,DeepSeek 可能代表的是目前一流大模型的最低成本,未來各家應該會參照 DeepSeek 往下降。
DeepSeek 的降本啟示
DeepSeek 的錢省在哪了?綜合從業者的說法,從模型結構 - 預訓練 - 後訓練,每個方面都做了優化。
比如為了保證回答的專業性,很多大模型公司采用的是 MoE 模型(混合專家模型),即面對一個復雜難題,大模型會将其拆解為多個子任務,然後将不同子任務交給不同專家解答。雖然很多家大模型公司都曾提到過這一模型,但 DeepSeek 達到了終極專家專業化水平。
秘訣是采用了細粒度專家分割(對專家在同一類别中再進行子任務細分)和共享專家隔離(隔離部分專家減輕知識冗餘),這樣做的好處是,能大幅提高 MoE 參數效率和性能,做到更快更準确給予答案。
有從業者估算,DeepSeekMoE 相當于僅用大約 40% 的計算量,便達到了與 LLaMA2-7B 差不多的效果。
數據處理也是大模型訓練的一道坎,各家都琢磨着如何提高計算效率,同時還能降低内存和帶寬等硬體需求。DeepSeek 找到的方法是,在處理數據時用 FP8 低精度訓練(用于加速深度學習訓練)," 此舉在已知開源模型中比較領先,畢竟大多數大模型使用的是 FP16 或 BF16 混合精度訓練,FP8 的訓練速度比它們快很多。" 劉聰表示。
後訓練中的強化學習上,策略優化是一大難點,可以理解為讓大模型更好地進行過決策,比如 AlphaGo 通過策略優化學會了如何在圍棋中選擇最優的落子策略。
DeepSeek 選擇 GRPO(分組相對策略優化)而非 PPO(近端策略優化)算法,兩者的主要區别在于在進行算法優化時,是否借助價值模型,前者通過組内相對獎勵來估計優勢函數,後者用的是單獨的價值模型。少一個模型,算力要求自然更小,也會節省成本。
以及推理層面上,用多頭潛在注意力機制(MLA)而非傳統的多頭注意力(MHA),顯著降低了顯存占用和計算復雜度,最直接的好處是,API 接口費用下降。
不過,這次 DeepSeek 給劉聰的最大啟發是,可以從不同角度提升大模型推理能力,純模型微調(SFT)和純強化學習(RLHF)都可以做出不錯的推理大模型。
也就是說,目前做推理模型,可以有四種方式:
第一種:純強化學習(DeepSeek-R1-zero)
第二種:SFT+ 強化學習(DeepSeek-R1)
第三種:純 SFT(DeepSeek 蒸餾模型)
第四種:純提示詞(低成本小模型)
" 之前圈内都是标注 SFT+ 強化學習,大家都沒有想到,原來做純 SFT 和純做強化學習,也能得到很好的效果。" 劉聰表示。
DeepSeek 的降本不僅給從業者帶來了技術上的啟發,也影響着 AI 公司的發展路徑。
英諾天使基金合夥人王晟介紹,AI 產業在跑通 AGI 方向上往往有兩種不同的路徑選擇:一個是 " 算力軍備 " 範式,堆技術堆錢堆算力,先把大模型性能拉至一個高點,再考慮產業落地;另外一個是 " 算法效率 " 範式,一開始就以產業落地為目标,通過架構創新和工程化能力,推出低成本高性能模型。
"DeepSeek 的一系列模型證明了,在天花板漲不動的情況下,把重點放在優化效率而非能力增長上的範式具有可行性。" 王晟稱。
從業者們相信,未來随着算法的進化,大模型的訓練成本還會進一步降低。
方舟投資管理公司的創始人兼 CEO" 木頭姐 " 曾指出,在 DeepSeek 之前,人工智能訓練成本每年下降 75%,推理成本甚至下降 85% 到 90%。王晟也曾表示,年初發布的模型到年底再發布同樣的模型,成本都會有大幅度下降,甚至有可能降至 1/10。
獨立研究機構 SemiAnalysis 在最近一篇分析報告中指出,推理成本的下降是人工智能不斷進步的标志之一。原來需要超級計算機、多張 GPU 才能完成的 GPT-3 大模型性能,現在一些安裝在筆記型電腦上的小模型也能實現同樣效果。而且成本也下降了很多,Anthropic 首席執行官 Dario 認為,算法定價成朝着 GPT-3 質量發展,成本已經降低 1200 倍。
未來,大模型的降本速度還會越來越快。