H100最強競品正式發布！推理快1.6倍，内存高達192GB，來自AMD

今天小編分享的科學經驗：H100最強競品正式發布！推理快1.6倍，内存高達192GB，來自AMD，歡迎閲讀。

這一夜，AI 科技圈熱鬧非凡：

谷歌搬出 " 蓄謀已久 " 的大殺器 Gemini，号稱直接掀翻 GPT-4；

另一邊，芯片商AMD也按耐不住，正式發布Instinct MI300X GPU，直接對标英偉達 H100。

Instinct MI300X 是 AMD 有史以來最大的芯片——

包含 1530 億個晶體管，AI 任務推理性能比 H100 快 1.6 倍，内存容量足足 192GB，是 H100 的兩倍以上（2.4x）。

它的出現，無疑為業界提供了頗有競争力的第二種選擇。

消息稱，微軟、Meta、OpenAI 和 Oracle等一眾公司已率先承諾将購買 AMD 的這款 GPU 來替代 H100。

AI 加速芯片的市場，是否就此開始改變？

推理性能比 H100 HGX 快 1.6 倍，最高支持 2900 億參數

AMD 在 6 月就預告了這款芯片，今天是正式發布，公布參數等細節。

據介紹，Instinct MI300X 是 AMD 使用有史以來最先進的生產技術打造，是 Chiplet 設計方法的 " 代表之作 "。

它的底層是 4 個 6nm I/O 芯片，上面融合了 8 個 HBM3 内存（12Hi 堆棧）和 8 個 5nm CDNA 3 GPU 小芯片（3D 堆棧）。

其中 3D 堆疊 GPU 和 I/O 芯片通過 "3.5D" 封裝技術進行連接。

最終成品功耗 750W，包含 304 個計算單元、5.3TB/s 帶寬，以及高達 192GB 的 HBM3 内存（相比之下，H100 僅 80GB）。

在實際的生成式 AI 平台應用中，MI300X 被設計為 8 個一組，通過 Infinity Fabri 進行互聯，各 GPU 之間的吞吐量為 896 GB/s。

同時，這一組合的内存總量達到 1.5TB HBM3（H100 為 640GB），可提供高達 10.4 Petaflops 的計算性能 ( BF16/FP16 ) 。

與英偉達的 H100 HGX 平台 ( BF16/FP16 ) 相比，内存總量增加 2.4 倍，計算能力提高 1.3 倍。

與此同時，AMD 還為 MI300X 配備了 400GbE 網絡并支持多種網卡，比英偉達的選擇更多。

下面是 AMD 分享的官方性能測試結果（理性參考）。

首先，對于 HPC 工作負載，MI300X 的 FP64 和 FP32 向量矩陣理論峰值吞吐量是 H100 的 2.4 倍；對于 AI 工作負載，其 TF32、FP16、BF16、FP8 和 INT8 理論峰值吞吐量是 H100 的 1.3 倍。

注意，這些預測都不包含稀疏性（盡管 MI300X 确實支持）。

其次，AI 推理任務中，AMD 以 1760 億參數的 Flash Attention 2 為例，聲稱 MI300X 在吞吐量（tokens/s）方面比 H100 高出 1.6 倍，同時，在 700 億參數的 Llama 2 上，聊天延遲更慢，比 H100 快 1.4 倍（基于 2k 序列長度 /128token workload）。

不得不説，MI300X 的大内存容量和帶寬确給它帶來了這一不小的優勢。

相比之下，在訓練任務上，MI300X 在 300 億參數的 MPT 上的性能倒是與 H100 HGX 大致相同。

所以總的來看，MI300X 的優勢更在于推理。

此外，還需要強調的是，MI300X 由于内存容量實在更大，因此可以容納比 H100 多兩倍的 300 億參數訓練模型、700 億參數的推理模型。

以及MI300X 最多可支持 700 億訓練和 2900 億參數的推理模型，這都比 H100 HGX 多一倍。

最後，大夥最關心的價格——蘇媽沒説，但表示 " 肯定、必須低于英偉達 "。

目前，AMD 已經向 HPE、戴爾、聯想、SuperMicro 等原始設備制造商發貨，正式發售時間定于下季度，也就是明年。

説到2024 年，AI 加速芯片市場将無比熱鬧：

除了 AMD 的 MI300X，英特爾也将更新其 Gaudi 架構 GPU，以及英偉達 H200也要在 2024 年 Q2 問世。

Tomshardware 表示，H200 在内存容量和帶寬方面大概率會更上一層樓，計算性能則預計将和 MI300X 差不多。

最後，在發布會上，蘇媽也預測，2027 年 AI 芯片總市場将達到 4000 億美元。而她認為，AMD 有信心從中分走一塊還不錯的蛋糕（get a nice piece of that）。

全球首款數據中心 APU 也來了

本場發布會上，和 Instinct MI300X 一共亮相的還有Instinct MI300A。

前者專供生成式 AI 領網域，後者則主要用于HPC 計算。

據悉，MI300A 是全球首個數據中心 APU，CPU 和 GPU 結合在同一個封裝之中，對标的是英偉達 Grace Hopper Superchips ，後者 CPU 和 GPU 位于獨立的封裝中，再串聯到一起。

具體而言，MI300A 采用和 MI300X 相同的基本設計和方法，但包含 3 個 5nm 核心計算芯片（CCD），每個配備 8 個 Zen 4 CPU，所以一共 24 線程 CPU 核心，外加 228 個 CDNA 3 計算單元。

内存容量上，相比 MI300X 中的 8 個 12Hi 堆棧，它改為 8 個 8Hi 堆棧，從而将容量從 192GB 縮減至 128G，内存帶寬仍為 5.3TB/s。

這樣的結果仍然是英偉達 Nvidia H100 SXM GPU 提供的 1.6 倍。

據悉，MI300A 已開始用于美國勞倫斯利弗莫爾實驗室，基于該芯片，該實驗室的 El Capitan 有望成為世界首台 2 Exaflop 級别的超級計算機。

One More Thing

就在同一天，谷歌也發布了最新 AI 芯片：TPU v5p。

它主要和前代相比：

bfloat16 性能提升至 1.67 倍，内存容量增至 95GB，新增 int8 運算，速度為 918 TOPs 等等。

具體到模型上，用它訓練一個類似 GPT-3 的 1750 億參數模型的性能将提高 2.8 倍。

參考鏈接：

[ 1 ] https://www.tomshardware.com/pc-components/cpus/amd-unveils-instinct-mi300x-gpu-and-mi300a-apu-claims-up-to-16x-lead-over-nvidias-competing-gpus

[ 2 ] https://www.cnbc.com/2023/12/06/meta-and-microsoft-to-buy-amds-new-ai-chip-as-alternative-to-nvidia.html

[ 3 ] https://cloud.google.com/blog/products/ai-machine-learning/introducing-cloud-tpu-v5p-and-ai-hypercomputer