今天小编分享的互联网经验:Graviton两年内为AWS提供超过50%的CPU算力,打破英特尔对市场节奏的掌控,欢迎阅读。
在超大规模和云计算厂商规模较小、Arm 未能抢占数据中心市场以及 AMD 尚未走上复兴之路的时候,英特尔掌控着新计算引擎进入数据中心的节奏。
局势总是在变化。本周,英特尔的 CEO 帕特 . 基辛格(Pat Gelsinger)宣布离职,相比之下,亚马逊云科技(AWS)在拉斯维加斯举办年度 re:Invent 大会,线下参会人数达到 6 万,而线上人数高度 40 万人。谁在控制超大规模企业和云计算制造商的技术推出步伐,似乎有了新的答案。
对于 AWS 而言,他们也可以控制新技术的发布节奏,因为他们不需要像芯片厂商一样,进行定期的产品迭代。他们不需要像英特尔、AMD 和英伟达那样,把计算引擎卖给 ODM 和 OEM,而是直接向客户出售云上产品。显而易见的是,这是一项更容易的业务。
在 re:Invent 大会上,AWS 以及其母公司亚马逊高管所带来的演讲,让外界对于他们的计算引擎有了新的期待,比如 Graviton5、Inferentia3 及 Trainium3。
Trainium3 使用 3nm 工艺蚀刻,相较于 Trainium2 能效提高 40%、性能翻倍。AWS 的新闻稿中表示,Trainium3 UltraServers 的性能将是 Trainium2 UltraServers 的 4 倍,这意味着它们将从使用 Trainium2 的 16 台设备扩展到使用 Trainium3 的 32 台设备。
AWS CEO 马特 . 加曼(Matt Garman)称,Trainium3 将于 2025 年晚些时候推出,这意味着大概会在 re:Invent 2025 年会议发布这款产品。早在 6 月份,就有一些关于 AWS 高管确认 Trainium3 将突破 1000 瓦的传言,但这点并不出乎外界的意料,英伟达的 Blackwell B200 GPU 的峰值功率是 1200 瓦。
真正出乎外界意料的是,在上个月的 SC24 超级计算会议上,针对 HPC 应用的 Graviton4E 仍未推出,这与 AWS 在 2021 年 11 月推出的普通 Graviton3 和 2022 年 11 月推出的增强版 Graviton3E 的过往速度相比有所差异。2023 年 11 月发布的 Graviton4 可以说是市场上基于 Arm 架构最好的伺服器 CPU 之一,当然也是适用面最广的 CPU。
AWS 的 CPU、人工智能加速器和 DPU 没有任何年度更新的压力,如果仔细观察英伟达和 AMD 的 GPU 路线图,就会发现他们的核心产品仍然是每两年发布一次,第二年会在第一年发布的 GPU 上进行内存更新或性能调整。
AWS 在芯片领網域的迭代周期大概是两年,其间会有一些波动。Graviton1 实际上是一个基于 Nitro 架构的 DPU 卡,可以忽略不计。正如 AWS 公用事业计算高级副总裁彼得 . 德桑蒂斯(Peter DeSantis)在 2018 年发布的主题演讲中所说的,Graviton1 只是 " 进入市场的一个信号 ",主要用于验证客户需求。2019 年推出的 Graviton2, AWS 采用了台积电的现代 7 纳米工艺,并使用了 Arm 的 Ares N1 内核,设计了一款 64 核 CPU,与运行在 AWS 云上的英特尔和 AMD 的 X86 CPU 相比,性价比高出 40%。
2021 年,采用 Arm Zeus V1 内核的 Graviton3 问世,同样是 64 个内核却可以承担更多的任务。2023 年,Graviton4 问世了,这款芯片采用了台积电 4 纳米工艺,在插槽上塞入 96 个 Demeter V2 内核,与 12 个内存带宽为 537.6 GB/ 秒的 DDR5 内存控制器搭配使用。与 Graviton3 相比,Graviton4 的单核性能提高了 30%,内核数量增加了 50%,性能提高了 2 倍。根据我们的定价分析,产品的性价比提高了 13% 到 15%。在实际的基准测试中,Graviton4 带来的性能优化有时能达到 40%。
AWS 处理器投入的资金至少需要两年才可以收回。因此,在 re:Invent 大会上期待任何关于 Graviton5 的新消息都是不现实的。尽管如此,AWS 的高管们还是会吊一下市场的胃口。
AWS 的高管在主题演讲中提供了一些关于 Graviton 的数据。AWS 计算和网络服务副总裁戴夫 . 布朗(Dave Brown)展示了这张图表,它在一定程度上解释了为什么英特尔最近几个季度的财务状况如此糟糕。粗略地说,AWS 的四项核心服务(Redshift Serverless 和 Aurora 数据库、Kafka 的 Managed Streaming 和 ElastiCache 搜索)大约有一半的处理是在 Graviton 上运行的。
布朗称:" 最近,我们达到了一个重要的里程碑,在过去的两年里,我们数据中心超过 50% 的 CPU 算力都来自 Graviton,这比其他所有类型的处理器加起来还要多。"
这正是微软多年前所声称想做成的事情,而这也是 AWS 所期待达成的目标。从长远来看,X86 是一种传统的平台,其价格也是传统的,就像之前的大型计算机和 RISC/Unix。RISC-V 也许最终也会这样颠覆 Arm 架构 ( 开源的 ISA 与可组合的模块似乎是必由之路,就像 Linux 开源系统让 Windows Server 变成传统平台的)。
加曼让我们对 AWS 内部的 Graviton 伺服器群规模有了一个大致的了解:"Graviton 正在疯狂地增长,2019 年,整个 AWS 的业务规模为 350 亿美元,而现在,单单 Graviton 运行的业务规模就与 2019 年整个 AWS 业务规模一样,这是非常快的增长。" 可以估计的是,Graviton 伺服器集群的增长速度比 AWS 整体业务的增长速度还要快,而且幅度可能非常大。这对英特尔的伤害远大于对 AMD 的伤害,因为 AMD 多年来一直拥有比英特尔更好的 X86 伺服器 CPU。
Trainium 系列,是否会成为英伟达和 AMD 之外的选择?
加曼谈论 Trainium3 的唯一原因是,人工智能训练对高性能计算的需求增长得比任何其他计算引擎快得多。面对英伟达在 2025 年加大其 Blackwell B100 和 B200 GPU 的产能,以及 AMD 扩大其 Antares MI300 系列,AWS 如果想让客户将他们的人工智能工作负载移植到 Trainium 上,就必须在市场上展现出大力推行 Trainium 系列的决心。
在明年的 re:Invent 大会之前,希望能够看到 AWS 发布关于 Trainium3 的一些新优化,因为市场上的竞争对手太多,以谷歌和微软为首的一些公司将在 2025 年推出他们旗下的人工智能加速器。
就像 Graviton 系列一样,从现在开始,Trainium 系列的更新周期或许将变为两年一更新。这些产品的研发投入都非常高昂,因此 AWS 要实现财务效益必须将 Trainium 的开发成本摊销到尽可能多的设备上。与 Graviton 一样,我们认为 AWS 的 Trainium 达成这一目标的日子不会太遥远。从长远来看,这对英伟达和 AMD 来说不是好事,特别是如果谷歌、微软、腾讯、百度和阿里巴巴都采取同样的行动。
AWS 还没有愚蠢到试图在 GPU 加速器市场上与英伟达直面抗衡,但与谷歌的 TPU、SambaNova 的 RDU、Groq 的 GroqChip 和 Graphcore 的 IPU 一样,这家云计算商同样认为自己可以构建一个系统阵列来进行人工智能训练和推理,并为云计算客户带来差异化体验和附加值产品,与购买英伟达相比,客户购买 AWS 的产品可以节省成本并且掌握更多的主动权。
正如我们上面所指出的,AWS 高管对 Trainium3 并没有透露太多的信息,但他们对 Trainium2 在 UltraServer 中的使用到非常兴奋。
今年的 re:Invent 大会上,AWS 更多地介绍了使用 Trainium2 加速器的系统架构,并展示了基于这些加速器构建的网络硬體,以扩展和扩展其人工智能集群。下面是德桑蒂斯展示的 Trainium2:
正如我们去年报道的那样,Trainium2 似乎在单个封装上放置两个芯片互连,可能使用 NeuronLink die-to-die 内部互连技术,以在其共享的 HBM 存储器上一致地工作。Trainium2 伺服器有一个节点,该节点带有一对主机处理器并与三个 Nitro DPU 相连,如下所示:
这是计算节点的俯视图,前端有四个 Nitros,后端有两个 Trainium2s,采用无线设计以加快部署速度。
两个交换机托架,一个主机托架和八个计算托架组成了一台 Trainium2 伺服器,该伺服器使用 2TB/ 秒的 NeuronLink 电缆将 16 个 Tranium2 芯片互连成 2D 环面配置,每个设备上 96GB 的 HBM3 主内存都会与其他设备共享。每台 Trainium2 伺服器具有 1.5TB 的 HBM3 内存,总内存带宽为 46TB/ 秒(即每个 Trainium2 卡略低于 3TB/ 秒)。此节点在密集 FP8(一种浮点数表示格式)数据上的性能为 20.8 千万亿次浮点运算,在稀疏 FP8 数据上的性能为 83.3 千万亿次浮点运算。
AWS 将四台伺服器相互连接以搭建 Trainium2 UltraServer,该伺服器在 64 个 AI 加速器中拥有 6TB 的 HBM3 内存容量,内存带宽总计为 184TB/ 秒。该伺服器具有 12.8Tb/ 秒的以太网带宽,可使用 EFAv3 适配器进行互连。UltraServer 伺服器在密集 FP8 数据上的运算速度为 83.2 千万亿次浮点运算,在稀疏 FP8 数据上的运算速度为 332.8 千万亿次浮点运算。下面是德桑蒂斯对 Trn2 UltraServer 实例硬體的展示:
在布满电线的机架顶部,隐藏着一对交换机,它们组成了 3.2TB/ 秒的 EFAv3 以太网网络的端点,该网络将多个 Tranium2 伺服器相互连接,以创建 UltraServer 伺服器,并将伺服器与外部世界连接。
这还不是整个网络架构。如果你想运行大规模的基础模型,需要的加速器将远远不止 64 个。为了将成千上万的加速器连接在一起,可以进行大规模训练,AWS 设计了一种基于以太网的网络结构,名为 10p10u,其目标是在延迟不到 10 微秒的情况下,为整个网络提供每秒数十 PB 的带宽。下面是 10p10u 网络结构机架的样子:
由于原先伺服器内部的电线非常复杂,AWS 研发了一款光纤主干电缆,将需要使用的电线数量压缩为原先的十六分之一。其原理是将数百个光纤连接放在一条较粗的管线中,这样做的好处是让伺服器内部的架构更为简洁。如下图所示,右边的机架使用的是光纤主干电缆,它更简洁小巧。更少的连接和线路管理意味着更少的错误,当你试图快速构建人工智能基础设施时,这一点很重要。
据悉,这种专门用于人工智能工作负载的 10u10p 网络由于其优异的表现正在被大规模采用。德桑蒂斯展示了它与 AWS 创建的老式以太网网络相比的增长速度有多快:
假设这是累积链接数(有效的计算),旧的 Euclid 网络结构(大概是 100Gb/ 秒)在四年内逐渐增加到近 150 万个端口。名为 One Fabric 的网络与 10u10p 网络在 2022 年年中大致同时推出,我们猜测其中 One Fabric 使用 400Gb/ 秒以太网,而 10u10p 基于 800Gb/ 秒以太网。One Fabric 有大约 100 万个链接,而 10u10p 有大约 330 万个链接。
加曼表示,与基于 AWS 云上的 GPU 实例相比,Trn2 实例的性价比将提高 30% 到 40%。当然,AWS 应该加大拉开外部计算引擎与自家计算引擎之间的差距,保持这样的差距是 Trainium 抢占人工智能计算器市场的正确举措。
作为主题演讲的一部分,德桑蒂斯和加曼都谈到了一个代号为 "Project Ranier" 的超级集群,这是 AWS 正在为其人工智能大模型合作伙伴 Anthropic 建造的一个超级集群。截至目前,亚马逊已向 Anthropic 投资 80 亿美元,该集群主要用于训练下一代 Claude 4 基础模型。加曼说,"Project Ranier" 将拥有数十万个 Trainium2 芯片,其性能将是训练 Claude 3 模型时所用机器的 5 倍。
本文由雷峰网编译自:https://www.nextplatform.com/2024/12/03/aws-reaps-the-benefits-of-the-custom-silicon-it-has-sown/