今天小编分享的科技经验:AMD的翻身仗,欢迎阅读。
今年 6 月,AMD 发布了一款专门针对 AI 需求的最新款芯片:Instinct MI300。
MI300 将 CPU、GPU 和内存封装在了一起,晶体管数量高达 1460 亿个,接近英伟达 H100 的两倍。其搭载的 HBM(高带宽内存)密度也达到了 H100 的 2.4 倍。也就是说,MI300 在理论上可以运行比 H100 更大的AI模型。
受益于 AI 训练的增长,GPU 需求肉眼可见的从游戏市场向高性能计算领網域倾斜,就连刚开启 GPU 产品线的英特尔,也迫不及待的 PPT 首发了面向高性能计算场景的 Falcon Shores 架构芯片。
伴随英伟达一路冲向万亿美元市值,资本市场对 GPU 行业老二的期待值也达到了顶峰。今年以来,AMD 股价累计上涨已经超过 90%。
英特尔的 Falcon Shores,预计 2024 年推出
然而 MI300 发布会结束,AMD股价下跌 3.6%,反倒是英伟达上涨 3.9%。资本市场表达好恶,向来是这么冷酷无情。
原因可能在于,AMD 没有在发布会中透露这款芯片的客户,这也是市场对英伟达以外的 AI 芯片最大的担心。
长期以来,AMD 在 GPU 市场一直被英伟达按在地上反复摩擦,Instinct 产品线其实已经迭代了好几年,但相比英伟达的连战连捷,AMD 在高性能计算领網域的存在感一直比较稀薄。
AI 训练打开的市场空间,一度被市场视为 AMD 与英伟达拉进距离的机会,但事情似乎没那么简单。
离不开 CPU,但离得开英特尔
虽说在 AI 训练上,更擅长大规模并行计算的 GPU 承担了大部分计算工作,而整个系统仍需要 CPU 进行调度和统筹。也就是说,尽管 GPU 的需求量大幅度增加,但 CPU 仍是必需品。
作为一家同时拥有 CPU 和 GPU 设计能力的芯片公司,AMD 被看好也不意外。更何况过去几年,AMD 在 CPU 市场连战连捷。
AMD 现任 CEO 苏姿丰在 2014 年接手,时值推土机架构性能孱弱,让英特尔心安理得的挤牙膏。而在卖掉 Imageon 后,AMD 和拒绝为苹果设计 iPhone 芯片的英特尔一起,完美错过了智能手机的浪潮,公司一片风雨飘摇。
面临多条战线的失血,苏姿丰只能将有限的资源集中在核心的 CPU 业务上,从苹果请回了架构大师吉姆 · 凯勒,开始 Zen 架构处理器的研发。
2017 年,Zen 架构处理器横空出世,把挤牙膏上瘾的英特尔打了个措手不及。2019 年,Zen 处理器更换为台积电 7nm 工艺,此时英特尔 10nm 工艺姗姗来迟。
虽然英特尔还占据着大部分市场份额,但AMD的反攻速度实在太快,尤其是在伺服器市场,几乎是从 0 杀到了接近 20% 的市占率。
2023 年 Q1,AMD 的 x86 处理器市场份额达到了 34.6% 这一历史峰值 [ 2 ] ,这也是 AMD 市值超过英特尔的重要背景。
今年 5 月,全球超级计算机 Top500 强公布:前 500 强中,使用 AMD CPU 进行驱动的超算达到 121 台,使用英特尔 CPU 的超算则从 2016 年的 454 台下降至 360 台,虽然看着不少,但其中很多是英特尔 10 年前的家底——至强(Xeon)处理器 [ 3 ] 。
但同一时期,AMD 与英伟达差距也越来越大。
难以逾越的 CUDA
英伟达不仅是一流的硬體公司,更是一流的軟體公司。
虽然在理论性能上,MI300 的一些参数甚至领先于英伟达,但市场对英伟达对手们最大的担心往往在于,就算硬體性能可以跟英伟达比肩,但是軟體解决方案仍难以与英伟达的 CUDA 对抗。
2006 年,英伟达推出了 CUDA 平台,让开发者能够给予 GPU 进行编程和开发,最终形成了一个庞大稳固的生态。在推出 CUDA 之前,全球能用 GPU 进行编程的不足 100 人,目前 CUDA 的使用者超过 400 万。
每一个成功的硬體公司背后,往往都有一个更强大的軟體团队,苹果和英伟达都是如此。即便是光刻机制造商 ASML 也不例外,他们的官方网站上有这样一段话:
您可能将 ASML 视为一家硬體公司,但实际上我们拥有世界上最大、最具开创性的軟體社区之一。如果没有我们开发的軟體,我们的客户就不可能制造出 10 纳米或更小的尺寸的芯片。
想要芯片真正在具体场景的满足各种需求,就需要开发者对硬體进行编程以实现各种功能。如果说硬體编程的过程相当于进行各种复杂计算,那么 CUDA 就是提供给使用者的一部计算器。
无论对英伟达的刀法多么怀恨在心,都不能否认黄仁勋对通用计算和人工智能的超前押注。
AMD 显然深知軟體和生态的重要性,但对标 CUDA 的 ROCm 在 2016 年推出时,就已经比英伟达晚了十年。
直到 2023 年 4 月,ROCm 都仅支持 Linux 平台;而 CUDA 自问世以来,就提供 Windows 和 Linux 两个版本,后期还为苹果用户增设 Mac OS 版本。
相比英伟达不遗余力的推广和洗腦,AMD 在生态建设上也显得投入不足,据说早年英伟达对项目的 GPU 试用申请几乎是有求必应,动不动就去高校实验室发显卡。深度学习大神杰夫 · 辛顿带着学生训练 AlexNet 模型,就用了三块 GTX 580。
另外,AMD 的軟體能力也令人不安—— AMD 在今年 6 月发布了一份 EPYC 7002 "Rome" 伺服器芯片指南,承认由于时钟倒计时器存在 BUG,导致第二代 EPYC 芯片运行 1044 天后,会出现内核卡死。如果有伺服器使用这款芯片,需要每隔 2.93 年重新启动一次。
原因也不难理解,直到推出 ROCm 的 2016 年,AMD 甚至还没摆脱亏损。在这期间,AMD 只能把有限的资源都聚焦在 CPU 的研发上,无法为 GPU 部门投入太多资源,更不要说 ROCm 的軟體团队了。
而当 AMD 在 CPU 市场收复失地,希望依靠 AI 卷土重来时,英伟达已经慢慢补齐了短板。
英伟达的反攻
2020 年 9 月,英伟达宣布准备以 400 亿美元的价格准备收购移动 CPU 架构商 Arm,其背后意图人尽皆知:一方面是整合移动端资源,另一方面则是入局 CPU。
正如前文所说,尽管 AI 时代需要更多的 GPU,但 CPU 仍不可或缺。当 CPU 与 GPU 共同在伺服器中的工作时,实际场景更像是一个大学生(CPU)带领一群小学生(GPU)组队完成各种任务。这个时候,配合就显得尤为重要。
因此,英伟达之所以自己做 CPU,并非完全因为英特尔或 AMD,而是从自身产品需求出发,使 CPU 和 GPU 紧密耦合,以发挥最大性能。比如 CPU 和 GPU 中,需要用到尽可能相似技术的一致内存,以保证数据之间的无缝共享 [ 8 ] 。
虽然收购基本没有成功的可能性,但英伟达依然按部就班的招兵买马。2021 年 4 月,黄仁勋在自家厨房里宣布,英伟达即将推出首款 5nm 制程工艺 CPU Grace,基于 Arm 架构,面向超大型 AI 模型的和高性能计算。
紧接着就是具体工作的有序展开:英伟达首先选定了根据地以色列,那里有全球第三多的纳斯达克上市公司(仅次于美国和中国);然后对外招聘 600 名硬體工程师、軟體工程师和芯片设计师,搭建 CPU 研发团队 [ 7 ] 。
最后,英伟达挖来了英特尔在以色列的 CPU 架构专家 Rafi Marom,后者曾参与 10nm 制程的 Tiger Lake 和 Alder lake 芯片开发工作。
在 2022 年 3 月的 GTC 大会上,英伟达对外宣布 Grace CPU 性能:拥有 144 个 Arm 内核和 1TB/s 的内存带宽,性能较当前最先进的 DGX A100 搭载的双 CPU 相比高 1.5 倍以上。
不过,原本预计在今年上半年可以开始供货的 Grace 芯片,目前已推迟至下半年。
APU
Instinct MI300 本质上是一颗 "APU",这是 AMD 早在 2009 年提出的一个概念——将CPU和GPU集成在一起,使得二者高速互联,实现 1+1>2 的效果。
在 2006 年收购了 GPU 公司 ATI 后,AMD 成为了当时唯一同时拥有 CPU 和 GPU 设计能力的芯片公司,而且在两个市场都是行业老二——但坏消息是,市场主流玩家也就两个。
在这种局面下,AMD 希望借助 APU 打开市场局面。2011 年,第一代 APU 推出后,AMD 持续宣传 APU 是 "x86 架构三十年来的最大革命 ",并向投资者强调,这款产品存在着 " 强劲且被压抑 " 的需求。
市场最初也对 APU 概念充满期待,结果 2012 年 Q3 财报出炉,AMD 收入下滑 25%,顺便减记了 1 亿美元的库存—— APU 需求量并不高,芯片根本卖不出去 [ 1 ] 。紧接着,公司股价跌到 1.86 美元的历史性低点,苏姿丰临危受命,开始掌舵风雨飘摇中的 AMD。
APU 的优势在于,由于 CPU 和 GPU 集成在了一起,数据传输效率得到了大幅度提高。苹果的 M1 Ultra 也采用了类似的 " 把几个小芯片拼成一块大芯片 " 的思路,换来了更强的数据吞吐能力。
但在 2009 年,APU 的理念显得过于超前。
一方面,APU 涉及芯片的先进封装技术,在当时既不成熟,成本也难以控制。另一方面,APU 在需求高度多元化的消费市场很难行得通。
比如 10 种型号的 CPU 和 GPU,理论上有 100 种组合方案,这就导致做 10 种方案无法满足市场需求,做 100 种方案难以收回生产成本。
因此在很长一段时间里,APU 只能在 PS4 游戏机这类高度标准化的产品上才能找到市场。但深度学习的大爆发改变了这一点。
相比游戏和渲染,AI 训练对算力和数据吞吐效率的需求成百上千倍的增加,目前针对 AI 市场推出的芯片产品,除了算力的堆砌,往往都采用 3D 堆叠和先进封装等方式,增加数据传输的效率,这与 APU 的优势不谋而合。
英特尔尚未正式发布的 Falcon Shores,同样采用了将 CPU、GPU、内存封装在一起的思路,只不过英特尔将其称为 "XPU"。
但目前来看,最接近这个目标的反而是英伟达的 Grace Hopper 芯片。
英伟达的 Grace Hopper 将 CPU 和 GPU 集成在了一起
尾声
在 2009 年 APU 的概念被提出时,AMD 正经历公司历史上的最谷底,APU 多少有些毕功一役的憋大招成分。
但也正是因为处于谷底,导致 AMD 无法拿出足够的资金与技术支持,让 APU 的革命性理念真正落地,最终只变成了简单的 CPU+GPU 的组合。
从商业角度看,最适合在 2009 年搞点革命性产品的反而是富可敌国的英特尔,但英特尔当时在干什么呢——心安理得的挤牙膏,同时拒绝为 iPhone 设计芯片。
这似乎是高科技公司常常会出现的状况——在鼎盛年代忽视新的技术浪潮,在谷底期如梦方醒仓促憋大招。
事实上,英特尔还尝试过 " 联 A 抗 N" —— 2017 年,英特尔宣布将在自家 CPU 上集成 AMD 的 GPU,合作推出新的芯片。
结果没过多久,英特尔就挖走了 AMD 的核心技术负责人之一:图形主管 Raja Koduri,为英特尔开发高端独立 GPU。
参考资料
[ 1 ] AMD: $30 Million Settlement Ends Llano Lawsuit,tom's Hardware
[ 2 ] AMD and Intel CPU Market Share Report: Recovery on the Horizon ( Updated ) ,tom's Hardware
[ 3 ] AMD Now Powers 121 of the World's Fastest Supercomputers,tom's Hardware
[ 4 ] A Closer Look at Intel ’ s Coral Supercomputers Coming to Argonne,inside HPC
[ 5 ] Argonne ’ s 44-Petaflops ‘ Polaris ’ Supercomputer Will Be Testbed for Aurora, Exascale Era,HPC wire
[ 6 ] Top500: No Exascale, Fugaku Still Reigns, Polaris Debuts at #12,HPC wire
[ 7 ] 英伟达在以色列组芯片团队,发力 CPU,半导体行业观察
[ 8 ] 它们需要基于这两种设备中尽可能相似技术的一致内存,智能计算芯世界