今天小编分享的科学经验:H100最强竞品正式发布!推理快1.6倍,内存高达192GB,来自AMD,欢迎阅读。
这一夜,AI 科技圈热闹非凡:
谷歌搬出 " 蓄谋已久 " 的大杀器 Gemini,号称直接掀翻 GPT-4;
另一边,芯片商AMD也按耐不住,正式发布Instinct MI300X GPU,直接对标英伟达 H100。
Instinct MI300X 是 AMD 有史以来最大的芯片——
包含 1530 亿个晶体管,AI 任务推理性能比 H100 快 1.6 倍,内存容量足足 192GB,是 H100 的两倍以上(2.4x)。
它的出现,无疑为业界提供了颇有竞争力的第二种选择。
消息称,微软、Meta、OpenAI 和 Oracle等一众公司已率先承诺将购买 AMD 的这款 GPU 来替代 H100。
AI 加速芯片的市场,是否就此开始改变?
推理性能比 H100 HGX 快 1.6 倍,最高支持 2900 亿参数
AMD 在 6 月就预告了这款芯片,今天是正式发布,公布参数等细节。
据介绍,Instinct MI300X 是 AMD 使用有史以来最先进的生产技术打造,是 Chiplet 设计方法的 " 代表之作 "。
它的底层是 4 个 6nm I/O 芯片,上面融合了 8 个 HBM3 内存(12Hi 堆栈)和 8 个 5nm CDNA 3 GPU 小芯片(3D 堆栈)。
其中 3D 堆叠 GPU 和 I/O 芯片通过 "3.5D" 封装技术进行连接。
最终成品功耗 750W,包含 304 个计算单元、5.3TB/s 带宽,以及高达 192GB 的 HBM3 内存(相比之下,H100 仅 80GB)。
在实际的生成式 AI 平台应用中,MI300X 被设计为 8 个一组 ,通过 Infinity Fabri 进行互联,各 GPU 之间的吞吐量为 896 GB/s。
同时,这一组合的内存总量达到 1.5TB HBM3(H100 为 640GB),可提供高达 10.4 Petaflops 的计算性能 ( BF16/FP16 ) 。
与英伟达的 H100 HGX 平台 ( BF16/FP16 ) 相比,内存总量增加 2.4 倍,计算能力提高 1.3 倍。
与此同时,AMD 还为 MI300X 配备了 400GbE 网络并支持多种网卡,比英伟达的选择更多。
下面是 AMD 分享的官方性能测试结果(理性参考)。
首先,对于 HPC 工作负载,MI300X 的 FP64 和 FP32 向量矩阵理论峰值吞吐量是 H100 的 2.4 倍;对于 AI 工作负载,其 TF32、FP16、BF16、FP8 和 INT8 理论峰值吞吐量是 H100 的 1.3 倍。
注意,这些预测都不包含稀疏性(尽管 MI300X 确实支持)。
其次,AI 推理任务中,AMD 以 1760 亿参数的 Flash Attention 2 为例,声称 MI300X 在吞吐量(tokens/s)方面比 H100 高出 1.6 倍,同时,在 700 亿参数的 Llama 2 上,聊天延迟更慢,比 H100 快 1.4 倍(基于 2k 序列长度 /128token workload)。
不得不说,MI300X 的大内存容量和带宽确给它带来了这一不小的优势。
相比之下,在训练任务上,MI300X 在 300 亿参数的 MPT 上的性能倒是与 H100 HGX 大致相同。
所以总的来看,MI300X 的优势更在于推理。
此外,还需要强调的是,MI300X 由于内存容量实在更大,因此可以容纳比 H100 多两倍的 300 亿参数训练模型、700 亿参数的推理模型。
以及MI300X 最多可支持 700 亿训练和 2900 亿参数的推理模型,这都比 H100 HGX 多一倍。
最后,大伙最关心的价格——苏妈没说,但表示 " 肯定、必须低于英伟达 "。
目前,AMD 已经向 HPE、戴尔、联想、SuperMicro 等原始设备制造商发货,正式发售时间定于下季度,也就是明年。
说到2024 年,AI 加速芯片市场将无比热闹:
除了 AMD 的 MI300X,英特尔也将更新其 Gaudi 架构 GPU,以及英伟达 H200也要在 2024 年 Q2 问世。
Tomshardware 表示,H200 在内存容量和带宽方面大概率会更上一层楼,计算性能则预计将和 MI300X 差不多。
最后,在发布会上,苏妈也预测,2027 年 AI 芯片总市场将达到 4000 亿美元。而她认为,AMD 有信心从中分走一块还不错的蛋糕(get a nice piece of that)。
全球首款数据中心 APU 也来了
本场发布会上,和 Instinct MI300X 一共亮相的还有Instinct MI300A。
前者专供生成式 AI 领網域,后者则主要用于HPC 计算。
据悉,MI300A 是全球首个数据中心 APU,CPU 和 GPU 结合在同一个封装之中,对标的是英伟达 Grace Hopper Superchips ,后者 CPU 和 GPU 位于独立的封装中,再串联到一起。
具体而言,MI300A 采用和 MI300X 相同的基本设计和方法,但包含 3 个 5nm 核心计算芯片(CCD),每个配备 8 个 Zen 4 CPU,所以一共 24 线程 CPU 核心,外加 228 个 CDNA 3 计算单元。
内存容量上,相比 MI300X 中的 8 个 12Hi 堆栈,它改为 8 个 8Hi 堆栈,从而将容量从 192GB 缩减至 128G,内存带宽仍为 5.3TB/s。
这样的结果仍然是英伟达 Nvidia H100 SXM GPU 提供的 1.6 倍。
据悉,MI300A 已开始用于美国劳伦斯利弗莫尔实验室,基于该芯片,该实验室的 El Capitan 有望成为世界首台 2 Exaflop 级别的超级计算机。
One More Thing
就在同一天,谷歌也发布了最新 AI 芯片:TPU v5p。
它主要和前代相比:
bfloat16 性能提升至 1.67 倍,内存容量增至 95GB,新增 int8 运算,速度为 918 TOPs 等等。
具体到模型上,用它训练一个类似 GPT-3 的 1750 亿参数模型的性能将提高 2.8 倍。
参考链接:
[ 1 ] https://www.tomshardware.com/pc-components/cpus/amd-unveils-instinct-mi300x-gpu-and-mi300a-apu-claims-up-to-16x-lead-over-nvidias-competing-gpus
[ 2 ] https://www.cnbc.com/2023/12/06/meta-and-microsoft-to-buy-amds-new-ai-chip-as-alternative-to-nvidia.html
[ 3 ] https://cloud.google.com/blog/products/ai-machine-learning/introducing-cloud-tpu-v5p-and-ai-hypercomputer