谁在抢GPU？ - 大酷樂

今天小编分享的科技经验：谁在抢GPU？，欢迎阅读。

到底是谁在抢这几十万乃至上百万的显卡呢？

8 月，英伟达发布了二季度财报，财报显示，公司二季度营收 135 亿美元，创季度新高且同比增长超 100%。公司预期三季度该数字将达到 160 亿美元。与此同时，高端芯片的强劲需求将公司毛利率大幅提升至 71.2%，二季度净利润 61.8 亿美元，同比涨幅达到惊人的 843%。

这是什么概念呢？相当于英伟达在三个月时间里多赚了六七十亿美元，而且之后每个季度都有望入账这么多钱，即使放在群英荟萃的硅谷，这样的成绩也足以让大家感到惊讶了。

而营收和盈利背后，是英伟达显卡被疯抢的盛况，即使英伟达今年能预计出货 50 万块 H100 显卡，依旧没有满足 AI 市场的急速扩张的需求，其未来计划将 H100 显卡的产量至少提高两倍，2024 年该显卡的预计出货量会达到 150 万至 200 万颗左右。

那么，到底是谁在抢这几十万乃至上百万的显卡呢？

我们或许可以从最近的新闻里一窥端倪，8 月 29 日，总耗资三亿美元的特斯拉 GPU 集群正式上线，该集群集成了 10000 块英伟达的 H100 GPU，其主要用途就是帮助训练特斯拉的无人驾驶系统 FSD。

作为构筑该集群最重要的一部分，英伟达 H100 于 2022 年末推出，售价约 4 万美元，比前代 A100 快 30 倍，AI 训练速度快 9 倍，根据英伟达的介绍，H100 专为视频训练等图形密集型工作负载而设计，且易于扩展，其拥有 18,432 个 CUDA 核心， 640 个张量核心，80 个流式多处理器 ( SM ) ，与 A100 相比，H100 的高性能计算速度快 5 倍以上。

而由 10,000 块 H100 构筑的 GPU 集群将提供 340 FP64 PFLOPS 的峰值性能，为人工智能应用提供 39.58 INT8 ExaFLOPS 的峰值性能，峰值性能上已经超越了世界第四高性能超级计算机 Leonardo 所提供的 304 FP64 PFLOPS。

而英伟达第二季度的财报，正是像特斯拉这样的公司做出的贡献，他们投入巨资打造超大型 GPU 集群，一出手就是购入上万张显卡，让台积电开足了马力生产都赶不上需求的变化。

微软

时间回到 5 年前，OpenAI 向微软提出了一个大胆的想法——它可以构建一套人工智能系统，永远改变人类与计算机之间的互動方式。

但是这套人工智能系统并非凭空得来，它需要建立在强悍算力的基础之上，而且光有一套在背后提供助力的基础设施还不够，这还不是一锤子买卖，OpenAI 必须能长期稳定地运行这套系统，简而言之，就是要不断地砸钱。

当时，微软 Azure 高性能计算和人工智能产品负责人 Nidhi Chappell 表示：" 我们从研究中了解到的一件事是，模型越大，你拥有的数据越多，你能训练的时间越长，模型的准确性就越好。"

为了力挺 OpenAI 的人工智能，2019 年，微软宣布与 OpenAI 建立合作关系，包括投资 10 亿美元以及在 Azure 中建立一个可以训练和运行高级 AI 模型的计算平台，微软将对 Azure 进行的改进，以构建超级计算技术。

在 Build 2020 活动上，微软宣布了这次合作的结果。微软与 OpenAI 合作，并专门为 OpenAI 构建了一台新的超级计算机，这台新超算包括了超过 28.5 万个 CPU 核心，1 万块 GPU，每个 GPU 伺服器的网络连接能力为 400 gigabits 每秒，按照世界超级计算机 TOP500 的排名，微软打造的这款新型超级计算机位列前五名。

如何让这套集成万块 GPU 的超算集群全力开动起来，成了当初摆在微软面前的难题。

微软 Azure 高性能计算和人工智能产品负责人 Nidhi Chappell 称，技术的关键是学习如何在高吞吐量、低延迟的 InfiniBand 网络上构建、运行和维护数以万计共处一地的 GPU，并相互连接。

微软介绍称，为了帮助训练大型语言模型，计算工作被划分到一个集群中的数千个 GPU 上，在 Allreduce 阶段，GPU 会相互交换信息，而全新的 InfiniBand 网络用于加速这一阶段，这一切都在下一阶段计算前完成，所有 GPU 就像齿轮一样紧密咬合在了一起。

" 由于工作跨越了数千个 GPU，你需要确保你有可靠的基础设施，然后也需要在后端拥有网络，这样你就可以更快地进行通信，并能够连续数周这样做 "，Chappell 说道，" 这不是你买了一大堆 GPU，把它们连在一起，就可以开始工作的。为了获得最佳的性能，需要有很多系统级的优化，而这是经过许多代人的经验总结出来的。"

时间来到今日，这套基础架构现在已成为整个 Azure 云计算结构的标准配置，其中包括针对 AI 工作负载优化的虚拟机组合、连接的计算和存储资源，微软云和人工智能集团执行副总裁 Scott Guthrie 表示，构建这种基础设施释放了 OpenAI 的 ChatGPT 和新的 Microsoft Bing 等产品中的人工智能功能。

在 ChatGPT 全球爆火之后，原来的这套超算已经无法满足越来愈多的 AI 计算需求，今年 3 月，微软发布博文称，Azure 即将迎来重磅更新，加入数万张英伟达最新的 H100 显卡以及更快的 InfiniBand 网络互连技术。

根据微软的介绍，ND H100 v5 虚拟机将成为未来 AI 的支柱，它支持按需大小不等的 8 到数千个 NVIDIA H100 GPU，这些 GPU 通过 NVIDIA Quantum-2 InfiniBand 网络互连。与上一代 ND A100 v4 VM 相比，可以看到人工智能模型的性能显着提高，其中创新技术包括：

8 个 NVIDIA H100 Tensor Core GPU 通过下一代 NVSwitch 和 NVLink 4.0 互联；

每个 GPU 有 400 Gb/s 的 NVIDIA Quantum-2 CX7 InfiniBand，每个虚拟机有 3.2Tb/s 的无阻塞胖树型网络；

NVSwitch 和 NVLink 4.0 在每个虚拟机的 8 个本地 GPU 之间具有 3.6TB/s 的双向带宽；

第四代英特尔至强可扩展处理器；

PCIE Gen5 到 GPU 互连，每个 GPU 有 64GB/s 带宽；

16 通道 4800MHz DDR5 DIMM……

微软表示，ND H100 v5 虚拟机将成为微软向客户提供基础设施的方式，该基础设施包括数以千计的 NVIDIA AI 优化 GPU，这些 GPU 在基于 NVIDIA Quantum InfiniBand 通信的高吞吐量、低延迟网络中连接在一起，其可以根据任何 AI 任务的规模进行扩展。

与特斯拉相比，微软的超算不再局限于单一的特定用途，而是更看重在 AI 训练方面的整体性能，以及面向各类用户的灵活扩展，相信其未来潜力会随着 Open AI 和微软旗下 AI 产品的发展而进一步得到释放。

谷歌

与微软不同，谷歌在组建超算集群这条路上出发得更早，它不光从英伟达处大批量采购显卡，同时还悄悄启动了自研计划，双轨并行成就了今天谷歌的超算。

谷歌的自研始于 2013 年，当时的 Google AI 负责人 Jeff Dean 经过计算后发现，如果有 1 亿安卓用户每天使用手机语音转文字服务 3 分钟，其中消耗的算力就是 Google 所有数据中心总算力的两倍，而全球安卓用户远不止 1 亿。

谷歌最终选择了另辟蹊径，并立下了一个不低的目标：针对机器学习这一目的来构建特定领網域计算架构（Domain-specific Architecture），还要将深度神经网络推理的总体拥有成本（TCO）降低至原来的十分之一。

2014 年，谷歌 TPU（Tensor Processing Unit）开始正式研发，得益于谷歌本身既有的强大科研实力，以及从各个公司招募而来的优秀芯片人才，TPU 的开发异常顺利，仅在 15 个月后就开始在数据中心部署应用，且每瓦性能达到了 GPU 的 30 倍，CPU 的 80 倍。

直到 2016 年的 Google I/O 开发者大会上，首席执行官 Sundar Pichai 才正式向世界展示了 TPU 这一自研成果。Pichai 非常自豪地表示，DeepMind 研发的 AlphaGo 能够击败韩国棋手李世石，底层硬體里的 TPU 功不可没，TPU 就像希腊神话中引发特洛伊战争的女人——海伦，它的出现引起了 " 成千芯片与之竞逐 "。

而在 2023 年，谷歌公布了自研芯片的最新版本—— TPU V4，相较于上一代，性能高出 2.1 倍，在整合 4096 个芯片之后，超算性能提升了 10 倍。

谷歌表示，对于规模相当的系统，TPU v4 可以提供比英伟达 A100 强 1.7 倍的性能，同时在能效上也能提高 1.9 倍。与 TPU v3 一样，每个 TPU v4 包含两个 TensorCore（TC）。每个 TC 包含四个 128x128 矩阵乘法单元（MXU），一个具有 128 个通道（每个通道 16 个 ALU），以及 16 MiB 向量存储器（VMEM）的向量处理单元（VPU）。

谷歌称，客户对机器学习的容量、性能和规模的需求一直在快速增长。为了支持 AI 的下一代基础性进步，我们正式推出了谷歌云机器学习集群，其中就包括预览版的 Cloud TPU v4 Pod，在最高可达 9 exaflops 的峰值聚合性能下，Cloud TPU v4 Pods 集群在算力方面是全世界最大的公开可用的机器学习中心。

让人感到讶异的是，谷歌实施自研战略的后，利用英伟达 GPU 组建的超算集群也丝毫不逊色于其他巨头。

今年 5 月，在年度 Google I/O 开发者大会上，谷歌公布了全新 AI 超级计算机—— A3 ，该超算拥有大约 26,000 块英伟达 H100 GPU，作为参考，世界上最快的公共超级计算机 Frontier 拥有 37,000 块 AMD Instinct 250X GPU。

谷歌表示，A3 超级计算机面向希望训练大型语言模型的客户，是对现有 A2 虚拟机与 Nvidia A100 GPU 提供的计算资源的重大更新，谷歌正在将所有分布在不同地理位置的 A3 计算实例汇集到一台超级计算机中。

"A3 超级计算机的规模可提供高达 26 exaflops 的 AI 性能，这大大减少了训练大型 ML 模型的时间和成本，" 谷歌的董事 Roy Kim 和产品经理 Chris Kleban 在博文中提到。

此外，A3 超算是第一个通过名为 Mount Evans 的基础设施处理单元连接 GPU 实例的虚拟机，该单元由谷歌和英特尔联合开发，IPU 允许 A3 虚拟机解除安裝网络、存储管理和安全功能，并以 200Gbps 的速度传输数据。

"A3 是第一个使用我们定制设计的 200Gbps IPU 的 GPU 实例，GPU 到 GPU 的数据传输绕过 CPU 主机并流经与其他 VM 网络和数据流量不同的接口。与我们的 A2 虚拟机相比，这使网络带宽增加了 10 倍，具有低尾延迟和高带宽稳定性，" 谷歌高管在博客文章中表示。

左手 TPU，右手 H100 的谷歌，在组建超算集群这件事上似乎走在了很多公司的前面，自研面向自身需求，而英伟达 GPU 服务于客户，二者取长补短，让谷歌成为了这个 AI 时代的弄潮儿。

Meta

对于因为元宇宙而改名的 Meta 来说，AI 似乎一直是它深耕的领網域，更是为了它背后的基础设施豪掷万金，力图打造世界第一流的超算集群。

2017 年，当时还叫 FaceBook 的 Meta 打造了第一代 AI 超级计算机，其配备了 22000 个 NVIDIA V100 Tensor Core GPU，每日可处理 35000 项 AI 训练工作。

据 HPCwire 预计，这个基于 V100 GPU 的前身版本，按照 Linpack benchmark 的浮点计算性能应该已经达到了 135 PFlops。在 2021 年 11 月全球超算排行榜中足以排到第三名，其算力已经超越了美国在加州 Livermore 运作的 " 山脊 " ( Sierra ) 超级计算机。

2020 年初，由于已有超算集群越来越难跟上未来大模型训练的需要，Meta 决定从 0 开始设计一个新的超算，进而在大到一个 Exabyte 的数据集上训练出超过一万亿个参数的模型，

2022 年 1 月，Meta 宣布它正在建造的世界最快 AI 超算 AI Research SuperCluster ( RSC ) ，他们选择了三家在 AI 计算和数据中心组件方面最知名的公司：英伟达、Penguin Computing，和 Pure Storage。

Meta 不仅从英伟达处采购了 760 台 DGX 通用训练系统，其中包含共计 6080 块 Ampere 架构 Tesla A100 GPU，还从 Pure Storage 采购了共计 231PB 的闪存阵列、模块和缓存容量，机架搭建、设备安装和数据中心的后续管理工作，则由从 Facebook 时代就在服务该公司的 Penguin Computing 负责。

最终，第一阶段的 RSC 超算包含 6,080 块 GPU，缓存容量 46 PB，主闪存 175 PB。在计算机视觉任务上，新超算的性能比旧系统提高 20 倍，在大型自然语言处理上性能提升 3 倍，而在第二阶段正式完成时，包含总共 2000 个英伟达 DGX A100 系统，使用了 16000 块 GPU，储存容量达到 1 EB，能每秒处理 16 Tbps 的数据。

Meta 在博客文章中表示：" 我们希望 RSC 帮助我们建立全新的 AI 系统，例如可以为多个不同语言的团队提供实时语音翻译，使他们可以在研究项目上无缝协作，甚至一起玩 AR 游戏。"

不过目前来看，Meta 超算 RSC 的算力已经落后于微软和谷歌的 AI 超算，毕竟后者已经开始利用更强大的 H100 GPU 来构筑超算，但 Meta 也表示，RSC 的优势是允许其研究人员使用 Meta 生产系统中的真实示例来训练模型，希望为 AI 研究人员提供最先进的基础设施，使他们能够开发模型并为他们提供培训平台以推进 AI 发展。

而 Meta 也早已建立了新的自研计划，在 2020 年就开发了其第一代基于 7nm 工艺的自研 AI 芯片 MTIA（MTIA v1），可以从 128 MB 内存扩展到高达 128 GB，其专门用于处理与 AI 推荐系统相关的工作，帮助用户找出最佳贴文内容并更快呈现在用户眼前，其计算性能和处理效率都胜过 CPU。另外，在 Meta 设计的基准测试中，MTIA 处理 " 低复杂性 " 和 " 中等复杂度 " 的 AI 模型也比 GPU 更高效。

对于 Meta 来说，目前没有新的超算建造计划可能是不大不小的遗憾，但依靠自研芯片和已有的强大超算，和微软谷歌相比也不逞多让。

AWS

与前几个耳熟能详的公司相比，较少被提及的 AWS（亚马逊云科技）作为全球云计算服务提供商，在组建超算集群的速度和规模上，并不比其他巨头逊色多少。

AWS 和英伟达合作的历史有 12 年之久，在过去十几年的时间当中，AWS 陆续推出了基于英伟达 GPU 的各种 GPU 实例，如 CG1 实例（2010 年）、G2（2013 年）、P2（2016 年）、P3（2017 年）、G3（2017 年）、P3dn（2018 年）、G4（2019 年）、P4（2020 年）、G5（2021 年）和 P4de（2022 年）实例。

在去年发布的 EC2 P4de 实例中，采用 8 个英伟达 A100 GPU，每个具有 80GB 高性能的 HBM2e GPU 内存，而这一实例在去年已经用于 AWS 的超算集群。

今年 5 月，AWS 更进一步，宣布推出 EC2 P5 虚拟机实例，该实例将在 Nvidia H100 GPU 的基础上运行，其采用 8 块英伟达 H100 Tensor Core GPU，具有 640 GB 高带宽 GPU 内存，同时提供第三代 AMD EPYC 处理器、2TB 系统内存和 30TB 本地 NVMe 存储，还提供了 3200 Gbps 的聚合网络带宽并支持 GPUDirect RDMA，从而能够绕过 CPU 进行节点间通信，实现更低的延迟和高效的横向扩展性能。

而且 Amazon EC2 P5 实例可以部署在超大规模集群第二代 Amazon EC2 UltraClusters 中，其由高性能计算、网络和云存储组成，Amazon EC2 UltraClusters 可以使用多达 2 万个 H100 Tensor Core GPU，用户可以部署可扩展到数十亿或数万亿参数的机器学习模型。

英伟达副总裁 Swami Sivasubramanian 表示，与基于英伟达上一代 A100 GPU 的 EC2 P4 模型相比，P5 实例在训练大型语言模型时速度提高了六倍，并且可以将训练成本降低 40%。

此外，AWS 还为超算集群推出了基于 Arm 的 CPU，名为 Graviton3E 的芯片正是 AWS 的 EC2 HPC7g 实例的一部分，AWS 将 HPC7g 实例定位为 " 紧耦合计算和网络密集型 HPC 工作负载的实例类型 "，网络密集型功能集中在 Nitro 系统芯片上，这是一个数据处理器或基础设施处理单元，处理网络，I/O 和安全性，其可与英伟达的 Bluefield 或谷歌与英特尔合作开发的 Mount Evans 相媲美。

目前，Nitro 已成为 AWS 云基础设施的核心，其提供了适合其分布式系统高性能的 I/O，HPC7g 虚拟机可用于从 16 个核心到 64 个 CPU 核心的实例，具有 128GB 内存、Amazon Elastic Block 存储、200Gbps EFA（弹性结构适配器）带宽和 25Gbps 网络带宽。

值得一提的是，另一家公司 RIKEN 已经通过 AWS 的 HPC7g 实例构建了其基于 Arm 的 Fugaku 计算机的云版本，这也是世界上第二快的超级计算机。

生成式 AI 成为了云服务市场新的增长点，同时也推动云服务市场的创新和差异化，作为行业领头羊的 AWS 显然没有忽视这件事，早已在搭建超算集群的路上持续向前奔跑。

特斯拉

至于开头提到的特斯拉，作为自动驾驶的先锋，它早已把超算集群当成是未来的主要方向，除了备受青睐的英伟达显卡外，自研更是它最大的法宝之一。

早在 2021 年 6 月，国际计算机视觉和模式识别会议（CVPR）周末的演讲中，特斯拉人工智能团队的负责人安德烈 · 卡帕西 ( Andrej Karpathy ) 就展示了一台超级计算机，这台超级计算机采用了 5760 个算力为 321TFLOPS 的英伟达 A100 显卡，组成了 720 个节点，总算力突破了 1.8EFLOPS，10PB 的存储空间。

而在 2021 年的特斯拉 AI 日上，特斯拉自研的多芯片模组化（Multi-Chip Modularized）超级计算机正式亮相，其被命名为 Dojo，最初它主要服务于自动驾驶系统的数据标注以及训练，后也被应用于机器人研发，特斯拉的人形机器人就搭载了 Dojo 的 D1 超算芯片。

D1 超算芯片是 Dojo 系统的基础。该芯片采用 7 纳米制造工艺，处理能力为 1024 gigaflops，即每秒 1024 亿次。1500 枚 D1 芯片可组成阵列，而将 25 个阵列放在一块晶圆上，便能形成训练模组 ( Training Tile ) ，这便是 Dojo 超级计算机的单元核心。

到了 2022 年的特斯拉 AI 日上，特斯拉正式公布了由 D1 芯片组成的 Dojo ExaPod，即 Dojo 集群，该集群内含 120 个训练模组 ( Training Tile ) 、3000 个 D1 芯片。其拥有 13TB 静态随机存取记忆体容量以及 1.3TB 高传输频宽记忆体容量，算力高达 1.1EFLOP。

据介绍，Dojo 由 " 图块 " 组成，工作方式与基于 CPU 或基于 GPU 的超级计算机有很大不同。特斯拉称，Dojo 的 D1 芯片模块并不是由很多较小的芯片组合在一起，而是一个具有 354 个内核的大型芯片组成，专门针对 AI 和机器学习，每个 Dojo 机柜可容纳 4248 个内核，10 个机柜的组成的 exapod 可容纳 42480 个内核。因此对于相同的数据中心占用空间来说，Dojo 要比 CPU 或者 GPU 快几个数量级。

Dojo 不仅会帮助加速 FSD 训练，还将负责管理特斯拉汽车的数据处理，根据特斯拉 CEO 马斯克所说，特斯拉会同时应用英伟达 H100 GPU 超算集群和 Dojo 超算集群，此举将为该公司在汽车行业提供无与伦比的计算能力。

单论 H100 超算集群的数量，特斯拉可能还无法和谷歌微软相媲美，但 Dojo 自研芯片无疑是它最大的底气之一，在自动驾驶浪潮来临之际，特斯拉这两大利器，已经足够让它成为目前算力最强大的公司之一，笑傲于数千家车企之中。

新锐企业

在组建超算集群这件事上，巨头们争先恐后，而其他新锐也不甘示弱，甚至由于他们和英伟达的良好关系，这方面反而具备了自身的优势。

成立于 2017 年总部位于纽约的 CoreWeave 就是这样一家新锐企业，此前专注于加密货币 " 挖矿 " 市场的它，在过去几年时间实现了转型，瞄准了人工智能领網域，开始提供基于图形处理单元 ( GPU ) 的云计算服务，今年早些时候，它还获得了英伟达的 1 亿美元投资。

根据官网介绍，CoreWeave 目前可以通过搭建的英伟达 A100 和 A40 GPU 集群提供虚拟化算力，可让用户访问超过 45000 个 GPU，被认为是市场上运行人工智能模型的最佳选择。

而这家公司近期联合英伟达，以及新兴 AI 企业 Inflection AI，开始建造全球最大的 AI 超算集群，该集群由 22,000 个英伟达 H100 GPU 组成，在 16 位精度模式下可以达到 22 exaFLOPS 的运算能力，使用低精度模式，其运算能力还会进一步提高，对照 TOP500 超级计算机列表，这台全新的超算集群将位列第二，仅次于榜首。

而另一家接受英伟达 3 亿美元投资的新锐企业 Lambda Labs 同样不容忽视，这家美国云服务初创公司由 Michael Balaban 和 Stephen Balaban 两兄弟于 2012 年创立，早年业务重点是销售 GPU 驱动的计算机，后转型为 GPU 云伺服器租赁，公司的年收益从千万美元的规模上升至数亿美元的规模。

而 Lambda labs 的规模虽然不大，但其号称能提供全世界价格最低的 NVIDIA A100、H100 算力资源，与 CoreWeave 一样是组建 AI 超算集群的主力之一。

这部分新锐在英伟达的支持下迅速崛起，成为了超算集群中不可忽视的一股力量。

总结

据不完全统计，目前国内已发布的各类大模型数量超过 100 个 , 一场 " 百模大战 " 已经摆好了驾驶，而在大模型训练的背后，最关键就是算力，截至 2022 年底 , 我国算力总规模达 180EFLOPS , 目前居全球第二位，但即便是如此庞大的算力，与目前各类模型训练的需求仍然不成正比，算力缺口反而在今年进一步扩大。

除了美国外，英国政府斥资 9 亿英镑，用于构建一台百亿亿级超级计算机，旨在打造全球最先进的语言模型—— BritGPT；人工智能初创公司 Cerebras Systems 宣布将携手阿联酋集团 G42 打造一个由 9 台互联的超级计算机组成的网络，目前第一台 AI 超级计算机—— "Condor Galaxy 1（CG-1）" 开始部署，AI 算力高达 4 exaFLOPS（每秒 4 百亿亿次）；日本经济产业省将通过其附设的研究机构引进一台新的尖端超级计算机，其计算能力大约是现有机器的 2.5 倍，通过云服务将这台超算提供给开发生成式 AI 的日本国内企业 …… 说是千帆竞逐也不为过

当我们再放眼国内，今年 4 月，腾讯云正式发布新一代 HCC 高性能计算集群，国内首发搭载英伟达最新的 H800 GPU，采用业界最高的 3.2T 互联带宽；2023 年阿里云将推出一款更接近云计算终极形态的算力产品，这款被命名为通用 Universal 实例的产品进一步屏蔽了传统 IT 的硬體参数；百度新建设的阳泉智算中心是亚洲最大单体智算中心，建设规模为 4 EFLOPSAI 算力 …… 几家巨头早已把超算列上了重要日程。

更值得我们关注的是，过去的超算架构主要以 CPU 为主，但这种传统基础设施架构下的算力已经无法满足目前模型训练的需求，只有建设大规模 GPU 超算集群，才能真正意义上解决大模型训练的后顾之忧。

可以看到，老牌巨头中，不管是微软谷歌，还是 Meta AWS，把组建超算集群当作了重要目标之一，他们甚至早在 10 年前就发觉了这种趋势，在这方面均已有所布局，而特斯拉 CoreWeave 这样近年才崛起的新贵，更是全力押注算力，一手自研一手采购，迅速填补自身的算力缺口。

这时候问题就来了，谁能掌握算力，拿下通往未来的第一张船票呢？

参考来源：

集成 10000 个 H100，特斯拉最强集群上线——半导体行业观察

Meta 与 NVIDIA 联合打造大型 AI 研究超级计算机——英伟达

How Microsoft ’ s bet on Azure unlocked an AI revolution ——微软