今天小编分享的科技经验:AI算力军备竞赛,五大科技巨头屯了多少GPU?,欢迎阅读。
随着人工智能的加速发展,科技巨头之间掀起了一轮轮 AI 算力竞赛。日前,马斯克的 xAI 集群数据曝光,其正在推出基于 10 万个 H100 GPU 的 Colossus 训练集群。Meta 也计划购买 35 万个 H100 GPU,加强 Llama 4 AI 模型的算力。LessWrong 网站对几大 AI 巨头的 GPU/TPU 数量进行估算,预计到 2025 年,微软、谷歌、Meta、亚马逊和 xAI 所拥有 GPU 的等效 H100 数量将超过 1240 万块。这表明科技巨头间的算力 " 军备竞赛 " 仍在延续。
超 1240 万块,巨头继续布局算力版图
最近,LessWrong 网站上发表了一篇博客,根据公开数据对英伟达芯片的产量、几大 AI 巨头的 GPU/TPU 数量进行了估算。其中,微软拥有 75 万 -90 万块等效 H100,明年预计达到 250 万 -310 万块;谷歌拥有 100 万 -150 万块等效 H100,明年预计达到 350 万 -420 万块;Meta 拥有 55 万 -65 万块等效 H100,明年预计达到 190 万 -250 万块;亚马逊拥有 25 万 -40 万块等效 H100,明年预计达到 130 万 -160 万块;xAI 拥有 10 万块等效 H100,明年预计达到 55 万 -100 万块。
可以看出,几大科技巨头都在紧锣密鼓地布局自己的算力版图,开展下一代更先进模型的训练。马斯克此前即透露 Grok 3 将在年底前亮相。他表示,在法律问题数据集上完成训练后,下一代 Grok 3 将是一个强大的私人律师,能全天候提供服务。谷歌 Gemini 2.0 预计在本月正式上线。OpenAI 更是宣布,将开启为期 12 天的 "Shipmas" 新功能、新产品和演示活动,将展示文本转视频 AI 工具 Sora、新的推理模型等。
这些先进模型的训练和推理需要庞大的算力资源。马斯克声称,其 Colossus 集群是 " 世界上最强大的人工智能训练系统 "。集群配备英伟达 HGX H100 伺服器,每台伺服器内含 8 张 H100 GPU,每个机架可容纳 8 台伺服器,8 台伺服器组成 1 个阵列,每个阵列有 512 个 GPU,整个 Colossus 集群内有超过 1500 个 GPU 机架,支持着庞大的算力运行。
Meta 也在使用超过 10 万个 Nvidia H100 GPU 的集群,训练其最新 Llama 4 AI 模型,成为目前规模最大的 AI 训练集群之一。明年 Meta 可能会使用 35 万个 H100 GPU。至于 OpenAI,其背后支持者微软很可能是英伟达近两年的最大客户。据 Omdia Research 分析,2023 年微软和 Meta 是 H100 的最大买家,预计采购量达到 15 万个。而到了 2024 年,微软的 AI 芯片囤货目标更是提升到了惊人的 180 万块,其中大部分来自英伟达。
英伟达继续领先,定制芯片市场值得关注
在 AI 巨头继续大规模部署 AI 算力的情况下,展望 2025 年 AI 芯片市场,英伟达作为全球 AI 芯片市场的领导者,仍将继续保持其强大的市场影响力和技术领先地位。 2024 年 AI 芯片市场占有率:英伟达占据约 75%,其他定制化芯片占 10%-15%,剩余的 10%-15% 由超微、英特尔等企业瓜分。另据 DIGITIMES Research 数据,2024 年高端伺服器 GPU 产值预估将达到 1022 亿美元。
从此前的产品规划来看,英伟达的 AI 芯片 Blackwell 产品发货将从 2025 财年的四季度开始,届时将同时发货 Blackwell 和 Hopper 两大系列的产品。而芯片业则已开始着眼英伟达的下一代 Rubin 芯片。大摩分析师 Charlie Chan 透露,台积电和供应链已在为 Rubin 芯片的推出做准备,推出的时间有可能从 2026 年上半年提前到 2025 年下半年。2025 年下半年将进入流片阶段。下一代 Rubin 芯片将采用 3nm 工艺、CPO(共同封装光学元件)和 HBM4(第六代高频宽内存)等,性能将更加强大。
AMD 作为英伟达的主要竞争对手之一,在 AI 芯片市场也表现出强劲增长势头。下一代 AMD Instinct MI350 系列加速器有望在 2025 年下半年上市。其基于 AMD CDNA 4 架构,推理性能比基于 AMD CDNA 3 的加速器提高 35 倍。
英特尔在 AI 芯片市场也拥有一定份额,但今年推出的 Gaudi 3 表现并不令人满意,尽管 Gaudi 3 在性能上有所提升,可市场份额仍然较小,预计占有率约为 1%。不过,2025 年英特尔寄予厚望的 Intel 18A 将会量产。下一代 AI PC 处理器 Panther Lake 和下一代数据中心处理器 Clearwater Forest 将基于 Intel 18A,也在明年发布。此外,按此前的规划,2025 年英特尔还将推出一款全新的 AI 加速器产品 Falcon Shores。这是 Gaudi 系列的后续产品。2025 年,英特尔能否在 AI 芯片市场有所表现,受到业界关注。
更令人关注的是几大 AI 巨头的定制芯片开发与应用进程。近日,亚马逊 AWS 宣布推出全新的 AI 定制芯片 Trainium3,与上代 Trainium2 相比,采用 3nm 工艺,计算性能增加 2 倍,能效提升 40%。该产品预计于 2025 年底量产。据了解,Adobe、AI 新创公司 Poolside、数据平台服务 Databricks 以及芯片大厂高通都采用 Trainium2 训练其 AI 模型。未来,AI 巨头的定制芯片将是英伟达 GPU 的重要竞争对手。
端侧 AI 需求爆发,各大厂商提前卡位
2025 年的另一个重要趋势是,AI 模型的边缘和推理计算需求将迅速增长。迄今为止,大多数 AI 芯片活动都集中在数据中心方面,端侧手机、PC 的 AI 应用也大多是从云端调用。然而,具有真正端侧 AI 功能的设备预计将于 2025 年推出,边缘 AI 将变得更加普及。
在数据中心领網域 GPU 占据 AI 加速的主导地位,但边缘侧的情况将更加复杂多样,企业需要通过灵活地配置 CPU、GPU 和 NPU,以满足 AI 加速的广泛需求。在英特尔日前举办的新质生产力技术生态大会上,记者看到一款英特尔与新华三共同推出的 AIGC 灵犀一体机,其基于至强处理器与 Gaudi2D 加速卡,可以在私網域灵活布局,进行多模型的高效推理和业务场景的闭环交付,满足边缘侧 AI 应用的多模融合、灵活便捷等多元需求。在 AI PC 方面,英特尔展示的基于 XPU 的 AI 算力优化案例也颇具代表性,显示 AI PC 在游戏、教育教学、工厂制造、商场支付等方面的广泛潜力。
高通在端侧 AI 方面的举措同样值得关注。在骁龙峰会期间,高通推出骁龙 8 至尊版移动平台,面向终端侧生成式 AI,采用新一代 Hexagon NPU,推理性能提升 45%,能效提升 45%,能够支持更复杂的端侧 AI 应用,互動体验更加流畅直观。此外,近年来高通还与腾讯混元、智谱 AI 等大模型厂商建立合作关系,推动端侧 AI 应用的部署和落地。通过合作,高通为大模型在端侧的运行提供算力支持,并优化大模型在端侧的性能表现。
Arm 则在终端领網域引入计算子系统 ( CSS ) 。此前,Arm 已将计算子系统引入基础设施、汽车领網域。Arm 的终端 CSS 中囊括了最新的 Armv9.2 Cortex CPU 集群和 Immortalis 与 Mali GPU、CoreLink 互联系统 IP,以及基于 3nm 工艺生产就绪的 CPU 和 GPU。在軟體工具方面,KleidiAI 和 KleidiCV 库可为端侧人工智能和计算机视觉工作负载提供支持,Arm Performance Studio 可以帮助开发者简化开发流程。
随着端侧 AI 成为新一代智能手机、PC、汽车等智能设备发展的驱动力,有可能将形成一个超过云端的广大市场。