今天小编分享的财经经验:烽烟已起,AMD要替代英伟达还需时间,欢迎阅读。
图片来源 @视觉中国
文|财华社
美国超微公司(AMD.US)发布了 AMD Instinct MI300X 加速器、进行了大量优化并添加了支持 LLM 新功能的 ROCm 6 开源軟體套装,以及配备锐龙 AI 功能的锐龙(Ryzen)8040 系列加速器。
AMD 新品
AMD Instinct MI300X 加速器可用于生成 AI,并具有大型语言模型(LLM)训练和推理性能,此外,还发布了 AMD Instinct MI300A 加速处理单元(APU)——结合最新的 AMD CDNA 3 架构和 "Zen 4"CPU,可为高性能计算和人工智能工作负载提供突破性性能。
据其介绍,微软、劳伦斯利弗莫尔国家实验室的 "El Capitan" 超级计算机,甲骨文的云基础架构计划,都成为其客户。
AMD Instinct MI300X 加速器采用全新的 AMD CDNA 3 架构。与上一代 AMD Instinct MI250X 加速器相比,MI300X 的计算单元增加了近 40%,内存容量增加了 1.5 倍,峰值理论内存带宽增加了 1.7 倍,能支持 FP8 和稀疏性等新的数学格式,并能适应人工智能和高性能计算工作负载。
AMD Instinct MI300X 加速器拥有 192GB HBM3(高带宽存储)内存容量和 5.3 TB/s 峰值内存带宽,可为需求激增的 AI 工作负载提供所需的性能。
AMD Instinct 平台是基于行业标准 OCP 设计的生成式 AI 平台,拥有 8 个 MI300X 加速器,提供行业领先的 1.5TB HBM3(高带宽存储)内存容量。AMD Instinct 平台的行业标准设计允许 OEM 合作伙伴将 MI300X 加速器设计到现有的 AI 产品中,简化部署并加速采用基于 AMD Instinct 加速器的伺服器。
值得留意的是,AMD 在发布公告中提到,与英伟达的 H100 HGX 相比,AMD Instinct 平台在 BLOOM 176B4 等大语言模型上运行推理可快 1.6 倍,并且是市场上仅以单一 MI300X 加速器为 70B 参数模型(如 Llama2)运行推理的唯一选择,并能简化企业级大语言模型部署。
AMD Instinct MI300A 加速处理器,是全球第一个专为高性能计算和 AI 提供的数据中心加速处理器,结合了高性能的 AMD CDNA 3 GPU 内核、最新的 AMD"Zen 4"x86 CPU 内核和 128GB 的下一代 HBM3(高带宽存储)内存,在 FP32 高性能计算和人工智能工作负载上,与上一代 AMD Instinct MI250X 相比,每瓦性能提高了 1.9 倍,而且与英伟达的 Grace Hopper 超级芯(H200 与 Grace CPU 搭配)相比,每瓦性能或高出 2 倍。
不过更为重要的是,AMD 宣布推出最新的 AMD ROCm 6 开放軟體平台,并承诺向开源社区开放最先进的軟體库,推进其开源 AI 軟體部署的愿景。ROCm 6 軟體大大提升了 AI 的加速性能,并增加了对生成式 AI 几个新关键功能的支持,包括 FlashAttention, HIPGraph 和 vLLM 等。
至于配备锐龙 AI 功能的锐龙(Ryzen)8040 系列加速器,预计于 2024 年第 1 季面向宏碁、华硕、戴尔、惠普、联想和雷蛇等厂商推出。
此外,AMD 表示通过收购 Nod.AI 与 Mipsology 以及更多战略性生态合作,投资于軟體性能。
AMD 能替代英伟达吗?
据 CNBC 报道,Meta(META.US)、OpenAI 和微软(MSFT.US)已表示将使用 AMD 最新 AI 芯片 Instinct MI300X,或意味着这些正在部署 AI 的科技巨头们倾向于寻找其他产品,来替代英伟达(NVDA.US)供应紧缺而且昂贵的 AI 芯片。
AMD 的首席执行官 CEO 苏姿丰预计,AI 芯片市场到 2027 年的市场价值可达到 4000 亿美元以上,并认为 AMD 可在其中占据较大的市场份额。AMD 没有披露 MI300X 的定价,但英伟达目前每颗芯片的成本大约为 4 万美元,而苏姿丰透露,AMD 的芯片要低于英伟达的对应产品。
更为重要的是,AMD 表示,已经改进了用于优化 AI 軟體栈的軟體套装 ROCm 6,以便与英伟达的行业标准 CUDA 軟體进行竞争,而这可能是 AI 开发者目前更倾向于英伟达的原因。
英伟达的护城河
说到 AMD 与英伟达的 AI 芯片竞争,有必要先说说为何 GPU 在 AI 发展中扮演核心角色,这要由并行计算说起。
并行计算是一种一次可以执行多个指令的算法——将一个计算任务分解成众多子任务,并通过多个处理器同时执行,来加快计算速度。其目的是提高计算速度,并通过扩大问题求解规模,解决大型而复杂的计算问题。
在上世纪八九十年代,出现第一代并行计算机,例如超算和多处理器系统,这些系统通常需要多个 CPU(中央处理器)或者 CPU 与其他专用芯片组成来实现高性能的科学计算。但这些系统成本高昂,利用效率低,编程复杂。
随着图形学的发展,以及游戏对图形处理能力需求的上升,GPU(图形处理器)出现并发展起来。ATI 于 1985 年开发出第一款图形芯片和图形卡。
最开始的时候,GPU 扮演着 CPU 协处理器的角色,由 CPU 负责逻辑任务,GPU 负责图形渲染任务,当时的 GPU(或称显卡),仅包含简单的存储器和帧缓冲区,只能进行图形的存储和传递,一切操作都得由 CPU 来控制。
随着电子技术的发展,显卡技术含量越来越高,功能越来越强大,英伟达于 1999 年发布 GeForce 256 图形处理芯片时率先提出了 GPU 的概念,GPU 应运而生,使显卡降低对 CPU 的依赖,并进行部分原本属于 CPU 的工作。
随着 GPU 架构的改进和编程模型的创新,GPU 开始从图形渲染扩展到数据挖掘和 AI 等涉及大量数据并行计算的其他领網域。由于 GPU 拥有强大的并行运算能力,其作用已不局限于图形加速器,而是被用作通用计算。有别于 CPU 的优势在串行处理(CPU 适合处理需要前后计算步骤严密关联的任务),GPU 可以同时处理数百个线程,在短时间内完成大量的计算任务。
人工智能(AI),顾名思义,是一种模仿人类智能和思维过程的技术,需要从海量的数据中提取新的见解和进行深度学习,从而生产出一种新的、能以人类智能相似的方式作出反应的智能机器。因此,AI 的发展涉及到大量的数据处理和模型训练,尤其深度学习需要对大量数据进行矩阵运算,这些数据是可以并行进行的类似运算,GPU 正好能迎合这一需求,这正是 GPU 被誉为 AI 计算引擎和核心的原因。
英伟达与 2006 年以 54 亿美元收购显卡先驱 ATI 的 AMD,是目前最主要的 GPU 生产商。2006 年,英伟达推出通用并行计算架构 CUDA ——简单来说,就是与英伟达自家 GPU 强绑定的生态,这也是英伟达 AI 芯片大受欢迎的原因,许多早期工程师早就使用 CUDA,也因此,要突破英伟达 AI 芯片的护城河,首先得突破 CUDA 的生态壁垒。这也是 AMD 在其发布会上承认所面对的障碍。
为此,AMD 推出 ROCm 就是要用自己的生态,来抗衡英伟达的 CUDA,需要注意的是,支持 CUDA 的 GPU 销量已上亿,数以千计的开发人员造就习惯使用英伟达的 CUDA 来解决各种问题,AMD 要培育属于自己的生态或需要一段时间。
总结
AMD 在之前已经透露Instinct MI300A 和 MI300X GPU 于第 4 季量产推进顺利,并在第 3 财季业绩发布会上指出,其 AI 的进展较预期理想,预计第 4 季数据中心 GPU 收入约为 4 亿美元,到 2024 年将超过 20 亿美元。MI300 有望成为 AMD 历史上在最短时间内达到销售额上十亿美元的产品。
可见当前市场对于 AMD 的 AI 芯片早有预期,但从 AMD 的业绩指引来看,AI 的强劲发展或尚未在第 4 财季获反映,要到 2024 财年才能体现在业绩上。
英伟达则不然,其收入与非会计准则净利润以前所未见的加速度攀升,其 AI 芯片供不应求所带来的强劲收入增长已在今年的业绩中得到体现。英伟达截至 2023 年 10 月末止的 2024 财年第 3 季,该公司的收入同比大增 205.51%,按季增长 34.15%,至 181.2 亿美元;非会计准则净利润按年大增 588.19%,至 100.2 亿美元;并预计第 4 财季的收入将达到 200 亿美元,算力和网络需求的持续强劲将带动其数据中心的强劲增长。
当前英伟达的 AI 芯片供不应求与价格昂贵,或许会驱使用户转向 AMD,不过从短期来看,AMD 要取代英伟达还需要一段时间,主要因为英伟达在 AI 芯片领網域已先声夺人,累积了不少订单,而且有平台与生态的竞争优势保护,AMD 要打破这些壁垒取而代之并非没有可能,但在短期内或难以实现。