今天小編分享的科技經驗:DeepSeek掀起算力革命,英偉達挑戰加劇,ASIC芯片悄然崛起,歡迎閲讀。
文 | 錦緞,作者 | 由我、蘇揚,編輯 | 鄭可君
DeepSeek 帶動推理需求爆發,英偉達的 " 算力霸權 " 被撕開一道口子,一個新世界的大門逐漸打開——由 ASIC 芯片主導的算力革命,正從靜默走向喧嚣。
日前,芯流智庫援引知情人士的消息,稱 DeepSeek 正在籌備 AI 芯片自研。相比這個後起之秀,國内大廠如阿裏、百度、字節們更早就跨過了 " 自研 " 的大門。
大洋彼岸,OpenAI 自研芯片的新進展也在年初釋出,外媒披露博通為其定制的首款芯片幾個月内将在台積電流片。
此前更是一度傳出 Sam Altman 計劃籌集 70000 億美元打造 " 芯片帝國 ",設計與制造通吃。此外,谷歌、亞馬遜、微軟、Meta 也都先後加入了這場 " 自研熱潮 "。
一個明顯的信号是——無論 DeepSeek、OpenAI,還是中國公司和硅谷大廠,誰都不希望在算力時代掉隊。而 ASIC 芯片,可能會成為他們跨越新世界大門的入場券。
這會不會 " 殺死 " 英偉達?或者,會不會 " 再造 " 第二個英偉達?現在還沒有答案。
不過可以明确的是,這場轟轟烈烈的 " 自研浪潮 ",其上遊的產業鏈企業已經 " 春江水暖鴨先知 ",例如給各家大廠提供設計定制服務的博通,業績已經 " 起飛 ":2024 年 AI 業務收入同比 240%,達到 37 億美元;2025Q1AI 業務營收 41 億美元,同比增 77%;其中 80% 來自 ASIC 芯片設計。
在博通的眼裏,ASIC 芯片這塊蛋糕,價值超過 900 億美元。
01 從 GPU 到 ASIC,算力經濟學走向分水嶺
低成本是 AI 推理爆發的必要條件,與之相對的是——通用 GPU 芯片成了 AI 爆發的黃金枷鎖。
英偉達的 H100 和 A100 是大模型訓練的絕對王者,甚至連 B200、H200 也讓科技巨頭們趨之若鹜。金融時報此前援引 Omdia 的數據,2024 年,英偉達 Hopper 架構芯片的主要客户包括微軟、Meta、Tesla/xAI 等,其中微軟的訂單量達到 50 萬張。
但是,作為通用 GPU 的絕對統治者,英偉達產品方案其" 硬币的另一面 " 已逐漸顯現:高昂的成本與冗餘的能耗。
成本方面,單個 H100 售價超 3 萬美元,訓練千億參數模型需上萬張 GPU,再加上網絡硬體、存儲和安全等後續的投入,總計超 5 億美元。根據匯豐的數據,最新一代的 GB200 NVL72 方案,單機櫃超過 300 萬美元,NVL36 也在 180 萬美元左右。
可以説,基于通用 GPU 的模型訓練太貴了,只不過是算力不受限制的硅谷,仍然偏向于 " 力大磚飛 " 的叙事,資本支出并未就此減速。就在日前,馬斯克旗下 xAI,不久之前公布的 Grok-3,訓練的伺服器規模,已經達到了 20 萬張 GPU 的規模。
騰訊科技聯合硅兔賽跑推出的《兩萬字詳解最全 2025 AI 關鍵洞察》一文提到,超大規模數據中心運營商預計 2024 年資本支出(CapEx)超過 2000 億美元,到 2025 年這一數字預計将接近 2500 億美元,且主要資源都将傾斜給人工智能。
能耗方面,根據 SemiAnalysis 的測算,10 萬卡 H100 集群,總功耗為 150MW,每年耗費 1.59TWh 的電量,按 0.078 美元 / 千瓦時計算,每年電費高達 1.239 億美元。
對照 OpenAI 公布的數據,推理階段 GPU 的算力利用率僅 30%-50%," 邊算邊等 " 現象顯著,如此低效的性能利用率,在推理時代,确實是大材小用,浪費過于嚴重。
谷歌此前公布的 TPU V4 與 A100 針對不同架構模型的訓練速度
性能領先、價格昂貴,效率不佳,外加生态壁壘,過去一年業内都在喊 " 天下苦英偉達久矣 " ——雲廠商逐漸喪失硬體自主權,疊加供應鏈風險,再加上 AMD 暫時還 " 扶不起來 ",諸多因素倒逼巨頭開始自研 ASIC 專用芯片。
自此,AI 芯片戰場,從技術競賽轉向經濟性博弈。
正如西南證券的研究結論," 當模型架構進入收斂期,算力投入的每一美元都必須產出可量化的經濟收益。"
從北美雲廠商最近反饋的進展看,ASIC 已體現出一定的替代優勢:
● 谷歌:博通為谷歌定制的 TPU v5 芯片在 Llama-3 推理場景中,部門算力成本較 H100 降低 70%。
● 亞馬遜:3nm 制程的 AWS Trainium 3,同等算力下能耗僅為通用 GPU 的 1/3,年節省電費超千萬美元;據了解,亞馬遜 Trainium 芯片 2024 年出貨量已超 50 萬片。
● 微軟:根據 IDC 數據,微軟 Azure 自研 ASIC 後,硬體采購成本占比從 75% 降至 58%,擺脱長期被動的議價困境。
作為北美 ASIC 鏈的最大受益者,博通這一趨勢在數據中愈發顯著。
博通 2024 年 AI 業務收入 37 億美元,同比增 240%,其中 80% 來自 ASIC 設計服務。2025Q1,其 AI 業務營收 41 億美元,同比增 77%,同時預計第二季度 AI 營收 44 億美元,同比增 44%。
早在年報期間,博通指引 2027 年 ASIC 收入将大爆發,給市場畫了 3 年之後 ASIC 芯片将有望達到 900 億美元的市場規模這個大餅。Q1 電話會期間,公司再次重申了這一點。
憑借這個大的產業趨勢,博通也成為全球繼英偉達、台積電之後,第三家市值破 1 萬億美元的半導體公司,同時也帶動了海外對于 Marvell、AIchip 等公司的關注。
圖:市面主流 GPU 與 ASIC 算力成本對比 資料來源:西南證券
不過,有一點需要強調——"ASIC 雖好,但也不會殺死 GPU"。
微軟、谷歌、Meta 都在下場自研,但同時又都在搶英偉達 B200 的首發,這其實説明了雙方之間不是直接的競争關系。
更客觀的結論應該是,GPU 仍将主導高性能的訓練市場,推理場景中由于 GPU 的通用性仍将是最主要的芯片,但在未來接近 4000 億美元的 AI 芯片藍海市場中,ASIC 的滲透路徑已清晰可見。
IDC 預測,2024-2026 年推理場景中,ASIC 占比從 15% 提升至 40%,即最高 1600 億美元。
這場變革的終局或許是:ASIC 接管 80% 的推理市場,GPU 退守訓練和圖形領網域。真正的赢家将是那些既懂硅片、又懂場景的 " 雙栖玩家 ",英偉達顯然是其中一員,看好 ASIC 斷然不是唱空英偉達。
而新世界的指南,是去尋找除英偉達之外的雙栖玩家,如何掘金 ASIC 新紀元。
02 ASIC 的 " 手術刀 ":非核心模塊,通通砍掉
錦緞在《DeepSeek 的隐喻:GPU 失其鹿,ASIC、SoC 們共逐之》一文中詳解過 SoC,而 CPU、GPU 用户早已耳熟能詳,FPGA 應用市場小眾,最為陌生的當屬 ASIC。
圖:算力芯片對比 資料來源:中泰證券
那麼,都説 ASIC 利好 AI 推理,究竟它是一個什麼樣的芯片?
從架構上來説,GPU 這樣的通用芯片,其局限在于 " 以一敵百 " 的設計——需要兼顧圖形渲染、科學計算、不同的模型架構等多元需求,導致大量晶體管資源浪費在非核心功能模塊。
英偉達 GPU 最大的特點,就是有眾多 " 小核 ",這些 " 小核 " 可以類比成獵鷹火箭多台發動機,開發者可以憑借 CUDA 多年積累的算子庫,平穩、高效且靈活地調用這些小核用于并行計算。
但如果下遊模型相對确定,計算任務就是相對确定的,不需要那麼多小核來保持靈活性,ASIC 最底層的原理正是如此,所以也被稱為全定制化高算力芯片。
通過 " 手術刀式 " 精準裁剪,僅保留與目标場景強相關的硬體單元,釋放出驚人的效率,這在谷歌、亞馬遜都已經在產品上得到了驗證。
谷歌 TPU v5e AI 加速器實拍
對于 GPU 來説,調用它們最好的工具是英偉達的 CUDA,而對于 ASIC 芯片,調用它們的是雲廠商自研的算法,這對于軟體起家的大廠來説,并不是什麼難事:
● 谷歌 TPU v4 中,95% 的晶體管資源用于矩陣乘法單元和向量處理單元,專為神經網絡計算優化,而 GPU 中類似單元的占比不足 60%。
● 不同于傳統馮 · 諾依曼架構的 " 計算 - 存儲 " 分離模式,ASIC 可圍繞算法特征定制數據流。例如在博通為 Meta 定制的推薦系統芯片中,計算單元直接嵌入存儲控制器周圍,數據移動距離縮短 70%,延遲降低至 GPU 的 1/8。
● 針對 AI 模型中 50%-90% 的權重稀疏特性,亞馬遜 Trainium2 芯片嵌入稀疏計算引擎,可跳過零值計算環節,理論性能提升 300%。
當算法趨于固定,對于确定性的垂直場景,ASIC 就是具有天然的優勢,ASIC 設計的終極目标是讓芯片本身成為算法的 " 物理化身 "。
在過去的歷史和正在發生的現實中,我們都能夠找到 ASIC 成功的力證,比如礦機芯片。
早期,行業都是用英偉達的 GPU 挖礦,後期随着挖礦難度提升,電力消耗超過挖礦收益(非常類似現在的推理需求),挖礦專用 ASIC 芯片爆發。雖然通用性遠不如 GPU,但礦機 ASIC 将并行度極致化。
例如,比特大陸的比特币礦機 ASIC,同時部署數萬個 SHA-256 哈希計算單元,實現單一算法下的超線性加速,算力密度達到 GPU 的 1000 倍以上。不僅專用能力大幅提升,而且能耗實現了系統級節省。
此外,使用 ASIC 可精簡外圍電路(如不再需要 PCIe 接口的復雜協定棧),主機板面積減少 40%,整機成本下降 25%。
低成本、高效率,支持硬體與場景深度咬合,這些 ASIC 技術内核,天然适配 AI 產業從 " 暴力堆算力 " 到 " 精細化效率革命 " 的轉型需求。
随着推理時代的到來,ASIC 成本優勢将重演礦機的歷史,實現規模效應下的 " 死亡交叉 " ——盡管初期研發成本高昂(單芯片設計費用約 5000 萬美元),但其邊際成本下降曲線遠陡于通用 GPU。
以谷歌 TPU v4 為例,當出貨量從 10 萬片增至 100 萬片時,單顆成本從 3800 美元驟降至 1200 美元,降幅接近 70%,而 GPU 的成本降幅通常不超過 30%。根據產業鏈最新信息,谷歌 TPU v6 預計 2025 年出貨 160 萬片,單片算力較前代提升 3 倍,ASIC 的性價比,還在快速提升。
這又引申出一個新的話題,是否所有人都可以湧入自研 ASIC 大潮中去?這取決于自研成本與需求量。
按照 7nm 工藝的 ASIC 推理加速卡來計算,涉及 IP 授權費用、人力成本、設計工具、掩模板在内的一次流片費用等,量級可能就在億元的級别,還不包括後期的量產成本。在這方面,大廠更具有資金優勢。
目前,像谷歌、亞馬遜這樣的雲廠商,因為有成熟的客户體系,能夠形成研發、銷售閉環,自研上擁有先天的優勢。
Meta 這種企業,自研的邏輯則在于内部本身就有天量級的算力需求。今年初,扎克伯格就曾透露,計劃在 2025 年上線約 1GW 的計算能力,并在年底前擁有超過 130 萬張 GPU。
03 " 新地圖 " 價值遠不止 1000 億美元
僅僅是挖礦需求就帶來了近 100 億美元的市場,所以當博通 2024 年底喊出 AI ASIC 市場空間 700-900 億美元的時候,我們并不意外,甚至認為可能這個數字都保守了。
現在,ASIC 芯片的產業趨勢不應當再被質疑,重點應該是如何掌握 " 新地圖 " 的博弈法則。
近千億美元的 AI ASIC 市場中,已經形成清晰的三大梯隊—— " 制定規則的 ASIC 芯片設計者和制造者 " 、" 產業鏈配套 "、" 垂直場景下的 Fabless"。
第一梯隊,是制定規則的 ASIC 芯片設計者和制造者,他們可以制造單價超過 1 萬美元的 ASIC 芯片,并與下遊的雲廠商合作商用,代表玩家有博通、Marvell、AIchip,以及不管是什麼先進芯片都會受益的代工王者——台積電。
第二梯隊,產業鏈配套,已經被市場關注到的配套邏輯包括先進封裝與更下遊的產業鏈。
● 先進封裝:台積電 CoWoS 產能的 35% 已轉向 ASIC 客户,國產對應的中芯國際、長電科技、通富微電等。
● 雲廠商英偉達硬體方案解耦帶來的新硬體機會:如 AEC 銅纜,亞馬遜自研單顆 ASIC 需配 3 根 AEC,若 2027 年 ASIC 出貨 700 萬顆,對應市場超 50 億美元,其他還包括伺服器、PCB 均是受益于相似邏輯。
第三梯隊,是正在醖釀的垂直場景的 Fabless。ASIC 的本質是需求驅動型市場,誰能最先捕捉到場景痛點,誰就掌握定價權。ASIC 的基因就是定制化,與垂直場景天然适配。以智駕芯片為例,作為典型的 ASIC 芯片,随着比亞迪等 All in 智駕,這類產品開始進入爆發期。
映射全球 ASIC 產業鏈三大梯隊對應的機會,可以看作是國產的 " 三把秘鑰 "。
受制于禁令的限制,國產 GPU 與英偉達的差距仍然巨大,生态建設也是一個漫長的路程,但是對于 ASIC,我們甚至與海外在同一起跑線上,再結合垂直場景,中國不少 Fabless 能夠做出更有能效比的產品,前面提及的礦機 ASIC、智駕 ASIC 以及阿裏平頭哥的含光、百度的昆侖芯這些 AI ASIC。
與之配套的芯片制造,主要依賴中芯國際,中興旗下的中興微等則是新入場的 " 玩家 ",不排除未來他們将與國内廠商合作,上演一場 " 誰将是中國博通 " 的戲碼。
左圖為英偉達主要上遊供應商,來源 Fubon Research ,右圖 GB200 NV72L 機櫃的總長接近 2 英裏的 NVlink Spine 銅纜
產業鏈配套部分難度相對較低,對應的伺服器、光模塊、交換機、PCB、銅纜,由于技術難度低,國内企業本來競争力就比較強。與此同時,這些產業鏈企業與國產算力屬于 " 共生 " 關系,ASIC 芯片產業鏈也不會缺席。
應用場景上,除了反復提及的智駕芯片和 AI 推理加速卡,其他國產設計公司的機會,取決于什麼場景能爆發,對應哪些公司又能把握住機遇。
04 結語
當 AI 從大力出奇迹的訓練軍備競賽,躍進推理追求能效的深水區,算力戰争的下半場注定屬于那些能将技術狂想,轉化為經濟賬本的公司。
ASIC 芯片的逆襲,不僅是一場技術革命,更是一本關于效率、成本和話語權的商業啓示錄。
在這場新的牌局中,中國選手的籌碼正在悄然增加——機會永遠留給準備好的人。