今天小编分享的科技经验:DeepSeek掀起算力革命,英伟达挑战加剧,ASIC芯片悄然崛起,欢迎阅读。
文 | 锦缎,作者 | 由我、苏扬,编辑 | 郑可君
DeepSeek 带动推理需求爆发,英伟达的 " 算力霸权 " 被撕开一道口子,一个新世界的大门逐渐打开——由 ASIC 芯片主导的算力革命,正从静默走向喧嚣。
日前,芯流智库援引知情人士的消息,称 DeepSeek 正在筹备 AI 芯片自研。相比这个后起之秀,国内大厂如阿里、百度、字节们更早就跨过了 " 自研 " 的大门。
大洋彼岸,OpenAI 自研芯片的新进展也在年初释出,外媒披露博通为其定制的首款芯片几个月内将在台积电流片。
此前更是一度传出 Sam Altman 计划筹集 70000 亿美元打造 " 芯片帝国 ",设计与制造通吃。此外,谷歌、亚马逊、微软、Meta 也都先后加入了这场 " 自研热潮 "。
一个明显的信号是——无论 DeepSeek、OpenAI,还是中国公司和硅谷大厂,谁都不希望在算力时代掉队。而 ASIC 芯片,可能会成为他们跨越新世界大门的入场券。
这会不会 " 杀死 " 英伟达?或者,会不会 " 再造 " 第二个英伟达?现在还没有答案。
不过可以明确的是,这场轰轰烈烈的 " 自研浪潮 ",其上游的产业链企业已经 " 春江水暖鸭先知 ",例如给各家大厂提供设计定制服务的博通,业绩已经 " 起飞 ":2024 年 AI 业务收入同比 240%,达到 37 亿美元;2025Q1AI 业务营收 41 亿美元,同比增 77%;其中 80% 来自 ASIC 芯片设计。
在博通的眼里,ASIC 芯片这块蛋糕,价值超过 900 亿美元。
01 从 GPU 到 ASIC,算力经济学走向分水岭
低成本是 AI 推理爆发的必要条件,与之相对的是——通用 GPU 芯片成了 AI 爆发的黄金枷锁。
英伟达的 H100 和 A100 是大模型训练的绝对王者,甚至连 B200、H200 也让科技巨头们趋之若鹜。金融时报此前援引 Omdia 的数据,2024 年,英伟达 Hopper 架构芯片的主要客户包括微软、Meta、Tesla/xAI 等,其中微软的订单量达到 50 万张。
但是,作为通用 GPU 的绝对统治者,英伟达产品方案其" 硬币的另一面 " 已逐渐显现:高昂的成本与冗余的能耗。
成本方面,单个 H100 售价超 3 万美元,训练千亿参数模型需上万张 GPU,再加上网络硬體、存储和安全等后续的投入,总计超 5 亿美元。根据汇丰的数据,最新一代的 GB200 NVL72 方案,单机柜超过 300 万美元,NVL36 也在 180 万美元左右。
可以说,基于通用 GPU 的模型训练太贵了,只不过是算力不受限制的硅谷,仍然偏向于 " 力大砖飞 " 的叙事,资本支出并未就此减速。就在日前,马斯克旗下 xAI,不久之前公布的 Grok-3,训练的伺服器规模,已经达到了 20 万张 GPU 的规模。
腾讯科技联合硅兔赛跑推出的《两万字详解最全 2025 AI 关键洞察》一文提到,超大规模数据中心运营商预计 2024 年资本支出(CapEx)超过 2000 亿美元,到 2025 年这一数字预计将接近 2500 亿美元,且主要资源都将倾斜给人工智能。
能耗方面,根据 SemiAnalysis 的测算,10 万卡 H100 集群,总功耗为 150MW,每年耗费 1.59TWh 的电量,按 0.078 美元 / 千瓦时计算,每年电费高达 1.239 亿美元。
对照 OpenAI 公布的数据,推理阶段 GPU 的算力利用率仅 30%-50%," 边算边等 " 现象显著,如此低效的性能利用率,在推理时代,确实是大材小用,浪费过于严重。
谷歌此前公布的 TPU V4 与 A100 针对不同架构模型的训练速度
性能领先、价格昂贵,效率不佳,外加生态壁垒,过去一年业内都在喊 " 天下苦英伟达久矣 " ——云厂商逐渐丧失硬體自主权,叠加供应链风险,再加上 AMD 暂时还 " 扶不起来 ",诸多因素倒逼巨头开始自研 ASIC 专用芯片。
自此,AI 芯片战场,从技术竞赛转向经济性博弈。
正如西南证券的研究结论," 当模型架构进入收敛期,算力投入的每一美元都必须产出可量化的经济收益。"
从北美云厂商最近反馈的进展看,ASIC 已体现出一定的替代优势:
● 谷歌:博通为谷歌定制的 TPU v5 芯片在 Llama-3 推理场景中,部門算力成本较 H100 降低 70%。
● 亚马逊:3nm 制程的 AWS Trainium 3,同等算力下能耗仅为通用 GPU 的 1/3,年节省电费超千万美元;据了解,亚马逊 Trainium 芯片 2024 年出货量已超 50 万片。
● 微软:根据 IDC 数据,微软 Azure 自研 ASIC 后,硬體采购成本占比从 75% 降至 58%,摆脱长期被动的议价困境。
作为北美 ASIC 链的最大受益者,博通这一趋势在数据中愈发显著。
博通 2024 年 AI 业务收入 37 亿美元,同比增 240%,其中 80% 来自 ASIC 设计服务。2025Q1,其 AI 业务营收 41 亿美元,同比增 77%,同时预计第二季度 AI 营收 44 亿美元,同比增 44%。
早在年报期间,博通指引 2027 年 ASIC 收入将大爆发,给市场画了 3 年之后 ASIC 芯片将有望达到 900 亿美元的市场规模这个大饼。Q1 电话会期间,公司再次重申了这一点。
凭借这个大的产业趋势,博通也成为全球继英伟达、台积电之后,第三家市值破 1 万亿美元的半导体公司,同时也带动了海外对于 Marvell、AIchip 等公司的关注。
图:市面主流 GPU 与 ASIC 算力成本对比 资料来源:西南证券
不过,有一点需要强调——"ASIC 虽好,但也不会杀死 GPU"。
微软、谷歌、Meta 都在下场自研,但同时又都在抢英伟达 B200 的首发,这其实说明了双方之间不是直接的竞争关系。
更客观的结论应该是,GPU 仍将主导高性能的训练市场,推理场景中由于 GPU 的通用性仍将是最主要的芯片,但在未来接近 4000 亿美元的 AI 芯片蓝海市场中,ASIC 的渗透路径已清晰可见。
IDC 预测,2024-2026 年推理场景中,ASIC 占比从 15% 提升至 40%,即最高 1600 亿美元。
这场变革的终局或许是:ASIC 接管 80% 的推理市场,GPU 退守训练和图形领網域。真正的赢家将是那些既懂硅片、又懂场景的 " 双栖玩家 ",英伟达显然是其中一员,看好 ASIC 断然不是唱空英伟达。
而新世界的指南,是去寻找除英伟达之外的双栖玩家,如何掘金 ASIC 新纪元。
02 ASIC 的 " 手术刀 ":非核心模块,通通砍掉
锦缎在《DeepSeek 的隐喻:GPU 失其鹿,ASIC、SoC 们共逐之》一文中详解过 SoC,而 CPU、GPU 用户早已耳熟能详,FPGA 应用市场小众,最为陌生的当属 ASIC。
图:算力芯片对比 资料来源:中泰证券
那么,都说 ASIC 利好 AI 推理,究竟它是一个什么样的芯片?
从架构上来说,GPU 这样的通用芯片,其局限在于 " 以一敌百 " 的设计——需要兼顾图形渲染、科学计算、不同的模型架构等多元需求,导致大量晶体管资源浪费在非核心功能模块。
英伟达 GPU 最大的特点,就是有众多 " 小核 ",这些 " 小核 " 可以类比成猎鹰火箭多台发动机,开发者可以凭借 CUDA 多年积累的算子库,平稳、高效且灵活地调用这些小核用于并行计算。
但如果下游模型相对确定,计算任务就是相对确定的,不需要那么多小核来保持灵活性,ASIC 最底层的原理正是如此,所以也被称为全定制化高算力芯片。
通过 " 手术刀式 " 精准裁剪,仅保留与目标场景强相关的硬體单元,释放出惊人的效率,这在谷歌、亚马逊都已经在产品上得到了验证。
谷歌 TPU v5e AI 加速器实拍
对于 GPU 来说,调用它们最好的工具是英伟达的 CUDA,而对于 ASIC 芯片,调用它们的是云厂商自研的算法,这对于軟體起家的大厂来说,并不是什么难事:
● 谷歌 TPU v4 中,95% 的晶体管资源用于矩阵乘法单元和向量处理单元,专为神经网络计算优化,而 GPU 中类似单元的占比不足 60%。
● 不同于传统冯 · 诺依曼架构的 " 计算 - 存储 " 分离模式,ASIC 可围绕算法特征定制数据流。例如在博通为 Meta 定制的推荐系统芯片中,计算单元直接嵌入存储控制器周围,数据移动距离缩短 70%,延迟降低至 GPU 的 1/8。
● 针对 AI 模型中 50%-90% 的权重稀疏特性,亚马逊 Trainium2 芯片嵌入稀疏计算引擎,可跳过零值计算环节,理论性能提升 300%。
当算法趋于固定,对于确定性的垂直场景,ASIC 就是具有天然的优势,ASIC 设计的终极目标是让芯片本身成为算法的 " 物理化身 "。
在过去的历史和正在发生的现实中,我们都能够找到 ASIC 成功的力证,比如矿机芯片。
早期,行业都是用英伟达的 GPU 挖矿,后期随着挖矿难度提升,电力消耗超过挖矿收益(非常类似现在的推理需求),挖矿专用 ASIC 芯片爆发。虽然通用性远不如 GPU,但矿机 ASIC 将并行度极致化。
例如,比特大陆的比特币矿机 ASIC,同时部署数万个 SHA-256 哈希计算单元,实现单一算法下的超线性加速,算力密度达到 GPU 的 1000 倍以上。不仅专用能力大幅提升,而且能耗实现了系统级节省。
此外,使用 ASIC 可精简外围电路(如不再需要 PCIe 接口的复杂協定栈),主機板面积减少 40%,整机成本下降 25%。
低成本、高效率,支持硬體与场景深度咬合,这些 ASIC 技术内核,天然适配 AI 产业从 " 暴力堆算力 " 到 " 精细化效率革命 " 的转型需求。
随着推理时代的到来,ASIC 成本优势将重演矿机的历史,实现规模效应下的 " 死亡交叉 " ——尽管初期研发成本高昂(单芯片设计费用约 5000 万美元),但其边际成本下降曲线远陡于通用 GPU。
以谷歌 TPU v4 为例,当出货量从 10 万片增至 100 万片时,单颗成本从 3800 美元骤降至 1200 美元,降幅接近 70%,而 GPU 的成本降幅通常不超过 30%。根据产业链最新信息,谷歌 TPU v6 预计 2025 年出货 160 万片,单片算力较前代提升 3 倍,ASIC 的性价比,还在快速提升。
这又引申出一个新的话题,是否所有人都可以涌入自研 ASIC 大潮中去?这取决于自研成本与需求量。
按照 7nm 工艺的 ASIC 推理加速卡来计算,涉及 IP 授权费用、人力成本、设计工具、掩模板在内的一次流片费用等,量级可能就在亿元的级别,还不包括后期的量产成本。在这方面,大厂更具有资金优势。
目前,像谷歌、亚马逊这样的云厂商,因为有成熟的客户体系,能够形成研发、销售闭环,自研上拥有先天的优势。
Meta 这种企业,自研的逻辑则在于内部本身就有天量级的算力需求。今年初,扎克伯格就曾透露,计划在 2025 年上线约 1GW 的计算能力,并在年底前拥有超过 130 万张 GPU。
03 " 新地图 " 价值远不止 1000 亿美元
仅仅是挖矿需求就带来了近 100 亿美元的市场,所以当博通 2024 年底喊出 AI ASIC 市场空间 700-900 亿美元的时候,我们并不意外,甚至认为可能这个数字都保守了。
现在,ASIC 芯片的产业趋势不应当再被质疑,重点应该是如何掌握 " 新地图 " 的博弈法则。
近千亿美元的 AI ASIC 市场中,已经形成清晰的三大梯队—— " 制定规则的 ASIC 芯片设计者和制造者 " 、" 产业链配套 "、" 垂直场景下的 Fabless"。
第一梯队,是制定规则的 ASIC 芯片设计者和制造者,他们可以制造单价超过 1 万美元的 ASIC 芯片,并与下游的云厂商合作商用,代表玩家有博通、Marvell、AIchip,以及不管是什么先进芯片都会受益的代工王者——台积电。
第二梯队,产业链配套,已经被市场关注到的配套逻辑包括先进封装与更下游的产业链。
● 先进封装:台积电 CoWoS 产能的 35% 已转向 ASIC 客户,国产对应的中芯国际、长电科技、通富微电等。
● 云厂商英伟达硬體方案解耦带来的新硬體机会:如 AEC 铜缆,亚马逊自研单颗 ASIC 需配 3 根 AEC,若 2027 年 ASIC 出货 700 万颗,对应市场超 50 亿美元,其他还包括伺服器、PCB 均是受益于相似逻辑。
第三梯队,是正在酝酿的垂直场景的 Fabless。ASIC 的本质是需求驱动型市场,谁能最先捕捉到场景痛点,谁就掌握定价权。ASIC 的基因就是定制化,与垂直场景天然适配。以智驾芯片为例,作为典型的 ASIC 芯片,随着比亚迪等 All in 智驾,这类产品开始进入爆发期。
映射全球 ASIC 产业链三大梯队对应的机会,可以看作是国产的 " 三把秘钥 "。
受制于禁令的限制,国产 GPU 与英伟达的差距仍然巨大,生态建设也是一个漫长的路程,但是对于 ASIC,我们甚至与海外在同一起跑线上,再结合垂直场景,中国不少 Fabless 能够做出更有能效比的产品,前面提及的矿机 ASIC、智驾 ASIC 以及阿里平头哥的含光、百度的昆仑芯这些 AI ASIC。
与之配套的芯片制造,主要依赖中芯国际,中兴旗下的中兴微等则是新入场的 " 玩家 ",不排除未来他们将与国内厂商合作,上演一场 " 谁将是中国博通 " 的戏码。
左图为英伟达主要上游供应商,来源 Fubon Research ,右图 GB200 NV72L 机柜的总长接近 2 英里的 NVlink Spine 铜缆
产业链配套部分难度相对较低,对应的伺服器、光模块、交换机、PCB、铜缆,由于技术难度低,国内企业本来竞争力就比较强。与此同时,这些产业链企业与国产算力属于 " 共生 " 关系,ASIC 芯片产业链也不会缺席。
应用场景上,除了反复提及的智驾芯片和 AI 推理加速卡,其他国产设计公司的机会,取决于什么场景能爆发,对应哪些公司又能把握住机遇。
04 结语
当 AI 从大力出奇迹的训练军备竞赛,跃进推理追求能效的深水区,算力战争的下半场注定属于那些能将技术狂想,转化为经济账本的公司。
ASIC 芯片的逆袭,不仅是一场技术革命,更是一本关于效率、成本和话语权的商业启示录。
在这场新的牌局中,中国选手的筹码正在悄然增加——机会永远留给准备好的人。