今天小編分享的互聯網經驗:DeepSeek來了,萬卡還是AI入場券嗎?,歡迎閱讀。
文 | 半導體產業縱橫
人工智能的極限就是拼卡的極限。頂級 AI 公司為這場 " 暴力美學 " 競賽設定了單點集群萬卡的門檻。
OpenAI 的單點集群 5 萬張卡,谷歌 2.6 萬張卡,Meta2.45 萬張卡。摩爾線程創始人兼 CEO 張建中曾在發布會上表示,"AI 主戰場,萬卡是最低标配。"
而随着 DeepSeek 的橫空出世,一場關于 AI 規則重寫的大戲正在上演。
01 萬卡集群還是 AI 入場券嗎?
2020 年,微軟率先構建了萬卡智算中心用來其 AI 布局,随後各大科技巨頭競相投入萬卡集群的智算中心建設,例如亞馬遜、谷歌、Meta、特斯拉、xAI,國内科技公司字節跳動、百度、螞蟻、華為、科大訊飛、小米都建設了萬卡集群,騰訊、阿裡已經卷向十萬卡集群。
搭建萬卡集群的智算中心需要耗費巨大的财力,單是 GPU 的采購成本就高達幾十億元。盡管造價高昂,但 " 萬卡集群 " 智算中心使得訓練復雜的大模型成為可能,因此被業界視作 AI 競賽的 " 入場券 "。
長江證券在其研報中指出," 模型大小和訓練數據量大小成為決定模型能力的關鍵因素。在同等模型參數和數據集下,集群訓練時間有望顯著縮短。更大、更先進的集群能及時對市場趨勢作出反應,快速進行迭代訓練。整體上超萬卡的集群将有助于壓縮大模型訓練時間,實現模型能力的快速迭代,并及時對市場趨勢作出應對,實現大模型技術上的追趕和領先。"
而 DeepSeek-V3 在訓練時僅僅使用了 2048 個 H800 GPU,但是在多個标準測試中卻獲得了很不錯的消息,在數學基準測試 GSM8K 和 MATH、算法類代碼 LiveCodeBench 等測試中超越此前的大模型拔得頭籌。這不由引發了一個思考,DeepSeek 支持千卡級集群訓練,那麼萬卡智算中心還是 AI 入場券嗎?
首先,我們必須要承認萬卡集群在大模型訓練端仍有必要性,其次,大模型私有化部署已成業内共識,企業私有部署小型數據中心市場将會爆發。
DeepSeek 出現之後,眾多公司都在争相接入,做自己的本地部署。企業建設 " 自己的小型智算中心 ",部署 1~10 台伺服器(百卡之内),或 10 來 20 台伺服器(百卡規模),也可以實現高效的 AI 業務。這無疑讓 AI 入場券發生了變化," 暴力堆卡 " 不再是唯一進場方式,更多的企業可以通過算法優化參與到這場 AI 熱潮中。
以華為和瑞金醫院合作發布的臨床級多模态互動式病理大模型 RuiPath 為例,僅僅使用了 16 張算力卡,就學習了 300 餘本病理診斷書籍,在病理醫生整理的常用問題測試中問答準确率可到 90%。
高通技術認為,當前先進的 AI 小模型已具有卓越性能。模型蒸餾和新穎的 AI 網絡架構等新技術能夠在不影響質量的情況下簡化開發流程,讓新模型的表現超越一年前推出的僅能在雲端運行的更大模型。
除此之外,企業部署小型智算中心也為四大運營商和鐵塔公司帶來了新的機遇。小型數據中心的部署需要穩定的場地、電力、網絡等基礎設施,而運營商和鐵塔公司的物理機房資源是現成的,以中國鐵塔為例,目前擁有 210 萬站址資源、能源設施和近百萬處機房,并有 22 萬 " 通信塔 " 已更新為 " 數字塔 "。另外,小型數據中心靠近數據產生源頭,可實現數據的快速處理和分析,對于邊緣算力的需求增加,目前中國鐵塔算力正從集中式向 " 雲邊端 " 分布式範式轉變,每個數據中心每日新增數據量數十 T,預計 2025 年每數據中心接入約二十萬站,未來數據規模将達數十 PB 級别。
根據 Gartner 預測,2025 年 75% 的企業數據将在邊緣側處理,邊緣數據中心數量将超過傳統數據中心的 3 倍。
02 數據中心芯片變革:訓練降速,推理崛起
DeepSeek 采用純強化學習訓練路徑,擺脫了對監督學習微調階段的依賴,同時采用全新的 GRPO 算法讓模型群體相互學習,将内存消耗降低至傳統 PPO 算法的三分之一,可在更少硬體資源下完成訓練;FP8 混合精度訓練,内存占用減少 50%,計算吞吐量提升 30%;其數據蒸餾技術,将無效數據比例從行業平均 15% 降至 3% 以下;NVLink+InfiniBand 雙通道傳輸技術使得集群内部的 GPU 通信效率提升了 65%。
DeepSeek 這些創新性的方法降低了訓練成本,使得數據中心芯片發生變革,未來訓練端的高端 GPU 需求增速可能放緩,而推理端的算力需求将長期呈增長趨勢。
對此,各大研究機構的判斷不謀而合。其中,Gartner 預測 2025 年推理的集群算力規模将超過訓練,IDC 預測到 2025 年用于推理的工作負載的芯片将達到 60.8%。TrendForce 集邦咨詢分析師龔明德指出:"DeepSeek 的驅動将促使雲服務商更積極投入低成本的自有 ASIC 方案,并從 AI 訓練重心轉向 AI 推理。預計到 2028 年,推理芯片占比将提升至五成。"
顧名思義,訓練芯片是應用在 AI 模型的訓練階段,需要通過大量标記過的數據來訓練系統以适應特定功能,因此更強調計算性能和存儲能力,而推理芯片在模型訓練完成後,負責使用新數據進行預測和推斷,更注重部門能耗算力、時延和成本的綜合指标。
與英偉達市占率 98% 的訓練芯片市場不同,推理芯片市場還未成熟,更加百花齊放。此前在網上掀起一陣熱潮的美國人工智能芯片公司 Groq,其成立于 2016 年,到目前為止已經獲得了 5 輪融資,2024 年 8 月 Groq 完成 6.4 億美元的最新一輪融資後,估值達到 28 億美元。Groq 專為大語言量身定制的新型 AI 加速芯片 LPU,性能表現比常規的 GPU 和 TPU 提升 10 到 100 倍,推理速度達到了英偉達 GPU 的 10 倍。
在國外市場,博通和 Marvell 是主要的推理芯片供應商。其中,博通與谷歌合作設計了六代 TPU,預計将在 2026、2027 年推出的第七代 TPU,同時其與 Meta 在 AI 基礎設施方面的合作可能會達到數十億美元;Marvell 則是與亞馬遜、谷歌和微軟合作,目前正在生產亞馬遜 5nm Tranium 芯片和谷歌 5nm Axion Arm CPU 芯片,同時預計在 2025 年啟動亞馬遜 Inferentia 芯片項目,2026 年啟動微軟 Maia 芯片項目。
在國内市場,各大科技公司也在積極布局 AI 推理芯片市場。
達摩院推出的含光 800 AI 芯片,單芯片性能是谷歌 TPU v3 的 8.5 倍、英偉達 T4 的 12 倍。
百度昆侖系列 AI 芯片,率先支持 8bit 推理,百舸 DeepSeek 一體機搭載昆侖芯 P800,推理延遲低,平均 50 毫秒以内,其中昆侖 3A 超越英偉達 A800。
寒武紀的思元 590 智能芯片,幾乎支持所有主流模型,單卡算力超過英偉達 A100,集群算力接近 A100 水平,千卡互聯的集群會再損失一些性能。
目前,大模型推理階段面臨很多優化挑戰,首先就是 KV Cache 管理,推理過程會產生大量中間結果用于降低計算量。如何管理這些數據很關鍵,例如采用頁面式管理,但頁面大小是固定還是根據負載特征動态調整,都需要仔細設計。其次是多卡協同:當模型較大時需要多 GPU 配合,例如在 8 個 GPU 上進行大模型推理,如何優化卡間并行也是一大挑戰。最重要的就是算法優化:如何從量化等角度進行優化,充分發揮底層算力性能。
03 算法補性能:芯片競争開始卷 " 軟硬協同 "
DeepSeek 之所以能夠以 2048 個 H800 芯片驚豔世界,其中的重要原因之一是其對硬體進行了極致工程化改造,通過自定義 CUDA 内核和算子融合技術,将 H800 GPU 的 MFU(模型 FLOP 利用率)提升至 23%,遠超行業平均 15% 的水平,在相同硬體條件下可完成更多計算任務,提升訓練效率,并且在 GPU 集群上實現了 98.7% 的持續利用率。
這種創新性的用算法補性能方式,被復旦大學復雜體系多尺度研究院院長、上海人工智能實驗室領軍科學家、國際著名計算生物學家馬劍鵬教授稱為 " 中國 AI 的換道超車 "。同時,這種方式也将倒逼芯片廠商從 " 拼制程 " 轉向 " 算法适配性 " 設計,預留更多接口支持動态算法迭代,如可編程 NPU 架構。
眾所周知,AI 用例正在不斷演進,要在功能完全固定的硬體上部署這些用例顯然是不切實際的。而可編程 NPU 架構提供豐富編程接口和開發工具,支持多種編程語言和框架,開發者可方便地根據新算法需求進行編程和配置。同時,支持根據不同算法需求動态重構計算資源,如計算單元、存儲單元等等。
最重要的是,芯片研發成本高,預留接口支持動态算法迭代可使芯片在較長時間内保持競争力,面對新算法無需重新設計硬體,而是通過軟體更新等方式來适配新算法,再也不懼算法更新迭代。
DeepSeek V3 中使用了相比 CUDA 更底層的 PTX 來優化硬體算法,繞過了 CUDA 的高層 API,直接操作 PTX 指令集進行更細粒度的硬體優化,能在一定程度上擺脫對 CUDA 高層框架的依賴,為開發者提供了不依賴 CUDA 進行 GPU 資源優化的途徑。同時,DeepSeek GPU 代碼使用了 OpenAI 提出的 Triton 編程語言來編寫,而 Triton 的底層可調用 CUDA,也可調用其他 GPU 語言,為适配更多類型的算力芯片奠定了基礎。
因而,我們會看到很多報道中都寫道,"DeepSeek 突破英偉達 CUDA 技術壁壘 "。事實上,DeepSeek 的這一舉動證明芯片競争從一開始的粗暴卷硬體進入到更新的 " 軟硬協同 " 内卷之中。而開源框架與國產芯片結合會是突破口,DeepSeek 既能在英偉達芯片上運行,也能在華為昇騰、AMD 等非主流芯片上高效運行。
更為深遠的影響是 AI 芯片領網域不再是英偉達 " 一家獨大 ",更多的芯片公司可以參與進來。而處在英偉達上遊的存儲芯片公司,例如三星電子、SK 海力士等可能也要被迫進行轉型。
此前,三星電子、SK 海力士等半導體巨頭的發展戰略一直是采用以通用存儲器為重點的量產模式,其業務也很大程度上依賴于對英特爾、英偉達和 AMD 等主要客戶的批量供應,此前美銀分析預測 SK 海力士可能獲得 2025 年英偉達 Blackwell GPU 的 60% 以上訂單。
DeepSeek 發布使得科技公司對英偉達高端芯片需求會減少,但是市場對于 AI 芯片的總需求卻不一定會減少。正如經濟學家傑文斯所言:技術進步雖然提高了資源的使用效率,但需求的增加常常會導致總消耗量反而增加。
亞馬遜首席執行官安迪・賈西曾表示,DeepSeek 技術突破反而會推動人工智能整體需求的增長。人工智能推理等技術成本的下降,并不意味着企業會減少在技術上的投入。相反,成本降低讓企業能夠開發此前因預算受限而擱置的創新項目,最終反而加大了整體技術支出。
這無疑是三星電子、SK 海力士轉型的巨大機會,擺脫對英偉達的依賴,擁抱更廣闊的市場。HBM 需求從高端 GPU 轉向定制化存儲方案,為 AI 服務提供多樣化的產品陣容。