今天小编分享的科技经验:AMD发起AI芯片挑战,但英伟达依然独孤求败,欢迎阅读。
争做 AI 淘金时代的卖铲人。
作者|赵健
英伟达 CEO 黄仁勋正在试图给行业建立一种印象—— AI 等于英伟达。
在 AI 大语言模型爆发的今天,要想完成对算力要求极高的 AI 训练,英伟达针对人工智能的 GPU 芯片几乎是唯一的选择。
这种供需的极度不平衡让英伟达的 GPU 一芯难求,就连 OpenAI CEO 山姆 · 奥尔特曼也在抱怨芯片短缺已经影响到了 ChatGPT 的发展。
黄仁勋对此一定喜闻乐见。2023 年,在 AI 需求的推动下,英伟达的市值冲破万亿美元。
不过,有人正在试图打破英伟达在人工智能领網域 " 独孤求败 " 的状态。
本周三,AMD(超威半导体)在其首次 " 人工智能与数据中心 " 产品发布会上,正式发布了年度旗舰芯片 Instinct MI300,一款可以对标英伟达 Grace Hopper 系列的超级芯片。
Instinct MI300 有两个版本:MI300X 仅有 GPU,专为 AI 模型训练设计,封装了 1530 亿颗晶体管;MI300A 则是集多个 CPU、GPU 和高宽带内存于一身的 APU(AMD 在 2011 年时提出的产品概念),封装了 1460 亿颗晶体管。
Instinct MI300 的发布意味着,英伟达不再是 AI 公司对算力的唯一选项。AMD 确实也成功吸引到了一些 AI 明星独角兽,比如 Hugging Face,AMD 将为其 CPU、GPU 和其他 AI 硬體优化模型。
Instinct MI300 承载着 AMD 在人工智能领網域的野心。AMD CEO 苏姿丰近期曾表示:" 如果放眼五年,你会在 AMD 的每一款产品中看到人工智能,它将成为最大的增长动力。"
AMD 是英伟达的老对手,两者在 GPU 市场的竞争已经持续了 17 年,大部分时间都以英伟达的胜利而告终。
而这一次,已经在 CPU 市场证明过一次的 AMD,能否把成功经验复制到 GPU 市场?
1.AMD 想要英伟达的 AI 皇冠
AMD 是全球知名的老牌半导体公司,成立于 1969 年。在今年 Gartner 发布的全球半导体公司的排名数据来看,AMD 位列第七。
CPU 是 AMD 的发家业务。1981 年 AMD 获得了英特尔 X86 系列处理器的授权,在 PC 时代的红利期一举做到了行业第二,而这个行业老二,一做就做了几十年。
在 CPU 之外,AMD 又通过不停地并购,逐步建立起 "CPU+GPU+DPU+FPGA" 完整的芯片布局。
其中比较重要的并购事件包括:
2006 年 7 月,AMD 斥资 54 亿美元收购当时的 GPU 行业老二 ATI,正式与英伟达展开 GPU 的竞争;
2022 年 2 月,AMD 斥资 498 亿美元完成对 FPGA 厂商赛灵思的收购,加强在数据中心业务的布局;
2022 年 4 月,AMD 宣布以 19 亿美元收购 DPU 芯片厂商 Pensando,继续扩大数据中心业务。
AMD 的业务构成分为四大板块:数据中心、客户端、游戏与嵌入式业务。
数据中心包含 AMD 所有的伺服器相关的收入;客户端收入主要涉及台式机与个人电腦,曾经是 AMD 最核心的业务之一,现在收入占比已经不高;游戏业务主要涉及 GPU 产品线,索尼、微软是稳定的大客户;嵌入式业务则主要来源于原赛灵思的业务。
随着人工智能成为一种趋势,数据中心成为各大云巨头高度重视、大力投入的业务,也是英伟达、英特尔与 AMD 的兵家必争之地。
在此前的 2023 年 Q1 财报会上,AMD 强调 AI 为目前公司的第一战略重点,AMD 正致力于构建更加多元的 AI 产品矩阵。
而昨天 AMD 的产品发布会,就是首次以 " 人工智能与数据中心 " 为主题。苏姿丰在发布会上强调,在大型语言模型的推动下,人工智能的市场机会越来越大,到 2027 年市场潜力可能从目前的 300 亿美元增加到约 1500 亿美元。
AMD 不想错过这场 AI 盛宴,但英伟达是横亘在眼前的不得不翻越的大山。
在最新一季的财报中,AMD 的数据中心业务营收 12.95 亿美元,同比上一季度的 12.93 亿美元,基本没有增长。反观英伟达,今年第一季度的数据中心业务营收创历史新高,同比增长 14% 至 42.8 亿美元,是 AMD 的三倍多。
而根据量化对冲基金 Khaveen Investments 测算,英伟达数据中心 GPU 在 2022 年的市占率高达 88%,AMD 和英特尔瓜分剩下的部分。
虽然 AMD 是 GPU 市场的老玩家,但其过去的 GPU 系列产品主要应用于影像处理及 AI 推理领網域,而对于并行计算要求更高的 AI 训练却入场较晚。
而 Instinct MI300 的发布,意味着 AMD 试图在 AI 训练市场,改变英伟达一家独大的局面。
2. 进军 AI 训练
Instinct MI300 是第一款面向数据中心的高性能 "APU" ——一个由 AMD 独创的概念。
2011 年(AMD 收购 ATI 的第五年),AMD 在产品构想中以 CPU 和 GPU 分别类比人类左右腦,并基于此提出了 "CPU+GPU" 的异构产品策略,并将其命名为 APU。
类比人腦,AMD 认为左腦更像 CPU,负责对信息的逻辑处理,如串行运算、数字和算术、分析思维、 理解、分类、整理等,而右腦更像 GPU,负责并行计算、多模态、创造性思维和想象等。
图片来自华泰研究
不过,2011 年的 AMD 正处在 " 失去的十年 " 谷底期,无论是在 CPU 线还是 GPU 线,都没能拿出足够优秀的产品,APU 的发展不尽如人意。
时间来到 2020 年 3 月,AMD 发布了新的微架构版本 CDNA,专门针对数据中心的高性能计算、AI 计算而设计。在此之前,AMD 的 GPU 是用同一套架构同时解决游戏与计算场景需求,自然不利于不同场景的优化。
Instinct 系列产品,就是专为 HPC 高性能计算、AI 计算而生的。而最新发布的 MI300,在规格及性能方面都全面追击英伟达的 Grace Hopper。
Instinct MI300 采用了台积电 5nm 工艺,有两个不同的版本:MI300X 仅有 GPU,专为 AI 模型训练设计,封装了 1530 亿颗晶体管;MI300A 则是集多个 CPU、GPU 和高宽带内存于一身的 APU,封装了 1460 亿颗晶体管。
AMD 声称 Instinct MI300 比上一代产品 MI250 的 AI 性能高 8 倍,它可以将 ChatGPT 和 DALL-E 等超大型 AI 模型的训练时间从几个月减少到几周,从而节省数百万美元的电费。
AMD 在发布会现场演示了 MI300x 运行 400 亿参数的 Falcon 模型,让它写了一首关于旧金山的诗。苏姿丰表示:" 模型对容量的要求越来越大,你实际上需要多个 GPU 来运行最新的大型语言模型。" 她指出,随着 AMD 芯片上内存的增加,开发人员将不需要那么多 GPU。
AMD 尚未公布 MI300 定价,但管理层在 FY23Q1 财报电话会中表示数据中心产品将延续往日的高性价比定价风格,重点先把市场打开。
AMD 预计 MI300 将于今年底前推出,并将搭载于劳伦斯利弗莫尔国家实验室的百亿级超级计算机 EI Capitan 及其他大型云端客户 AI 模型中。
大摩分析师 Joseph Moore 给出乐观指引称,AMD 已看到来自客户的 " 稳定订单 ",公司 2024 年的 AI 相关营收有望达到 4 亿美元,最高甚至可能达到 12 亿美元——这一预期是此前的 12 倍之多。
不过,尽管 AMD 几乎是唯一一个有能力对英伟达带来挑战的公司,但这必然是一个非常艰难的过程。
3. 英伟达的护城河
在 AMD 的产品发布会之后,资本市场对此反响平平,AMD 的股价下跌了 3% 以上,反而是英伟达的股价又上涨了 3.9%,市值再次超过一万亿美元。
在投资人眼里,AMD 的年度芯片 MI300 似乎仍然难以撼动英伟达的根基。
比如,AMD 没有在发布会上透露它的年度芯片获得了哪些大客户的支持。TIRIAS Research 首席分析师凯文 · 克雷韦尔(Kevin Krewell)表示:" 我认为,没有(大客户)表示将使用 MI300X 或 MI300A,这可能会让华尔街感到失望。他们希望 AMD 宣布已经在某些设计方面取代了英伟达。"
目前透露的客户仅有开源大模型独角兽 Hugging Face,以及更早之前透露的劳伦斯利弗莫尔国家实验室。但两者与对数据中心芯片有更大需求的云巨头而言不在一个数量级。
从芯片本身的性能而言,虽然 MI300 在一些参数上超过了英伟达,比如晶体管数量要高于 A100 的 540 亿个,但是英伟达可能很快就会通过产品的迭代来弥补。
实际上英伟达已经在这么做了。5 月 29 日,在 AMD 发布会之前两周,英伟达在 COMPUTEX 2023 展前发布会上,正式发布了全新的 GH200 Grace Hopper 超级芯片,拥有 2000 亿个晶体管,比 MI300 还要高。
更重要的是,英伟达同时宣布了谷歌、微软和 Meta 将是首批采用这一超级芯片的大客户。
除了产品本身过硬之外,英伟达另一个铜墙铁壁一般的护城河,就是它的 CUDA 生态。
英伟达于 2007 年发布 CUDA 生态系统。通过使用 CUDA,开发者可以将英伟达的 GPU 用于通用的计算处理,而非仅限于图形处理。
CUDA 提供了一个直观的编程接口,它允许开发者使用 C,C++,Python,以及其他一些语言来编写并行代码。
AI 大神吴恩达曾对此评价:"CUDA 出现之前,全球能用 GPU 编程的可能不超过 100 人,有了 CUDA 之后使用 GPU 就变成了一件非常轻松的事情。"
AMD 在 2016 年推出了 ROCm,目标是去建立可替代 CUDA 的生态。2023 年,CUDA 的开发者已达 400 万,包括 Adobe 等大型企业客户。用户越多,粘性越好,起步就晚的 ROCm 要想构建开发者生态还需要时间。
Moor Insights & Strategy 分析师 Anshel Sag 表示:" 尽管 AMD 在硬體性能方面具有竞争力,但人们仍然不相信 AMD 的軟體解决方案能与英伟达竞争。"
这是属于英伟达的独一无二的护城河。AMD 要想打破,极具挑战。
4.AMD 的成功,可能难以复制
对于 AMD 来说,或许最不怕的就是面对挑战。
从 2006 年到 2016 年,这是 AMD" 失去的十年 "。这一时期,AMD 的两个最大的竞争对手英特尔和英伟达,正在摩尔定律的驱使下进行产品迭代。
英特尔践行着 "Tick-Tock 钟摆策略 ",每两年做一次大的产品迭代更新(一年工艺制程、一年微架构设计);英伟达则在黄仁勋提出的 " 黄氏定律 " ——显卡每 6 个月性能提升一倍——的指引下,每半年将产品更新一次。
AMD 没能跟上两个行业老大的产品更新节奏,公司发展一度濒临崩溃,直到 2014 年苏姿丰作为 AMD 第五任 CEO 接手。
苏姿丰刚接手的 AMD 是一个烂摊子,它的筆記型電腦市场被英特尔占据,新兴的智能手机市场被英伟达、高通和三星瓜分,伺服器市场份额也从原来的 1/4 缩水至仅 2%。AMD 不得不解雇了大约四分之一的员工,股价徘徊在 2 美元左右,分析师直称 " 已无法投资 "。
当时英特尔 CEO 柯再奇如此评价 AMD:" 这家公司永远不会再回来了,所以不要再介意把重点放在新的竞争对手高通身上了。"
但后来的故事大家都知道了。在苏姿丰的带领下,AMD 在 CPU 市场打了一场漂亮的翻身仗,不仅一步步蚕食了英特尔的市场份额,股价也在 2022 年 2 月历史性地反超了英特尔。
AMD 之所以能够在 CPU 市场突围,很重要的原因在于抓住了对手英特尔的战略失误。
在芯片制造这一环节,AMD 与英特尔选择了不同的路线。AMD 在 2009 年剥离了旗下的芯片制造业务,合资成立了独立的晶圆代工厂格芯,而自身只专注于芯片设计(Fabless),这让 AMD 可以选择独立的第三方晶圆代工厂(Foundry)。英特尔则从成立以来一直是集芯片设计与芯片制造于一身(IDM)。
在半导体产业发展的早期,像英特尔这样高度垂直整合的 IDM 才是更主流的模式。AMD 联合创始人 Jerry Sanders 还说过一句名言:" 有晶圆厂才是真男人(Real men have fabs)。" 不过讽刺的是,AMD 正是因为后来剥离了晶圆厂才有机会完成逆袭。
2014 年之后,英特尔的芯片制程遭遇技术困难,10nm 芯片(相当于台积电 7nm)良率不佳,导致原定于 2016 年下半年的 10nm 量产多次推迟,最终到 2019 年下半年才发布。此前英特尔一直坚持的 Tick-Tock 策略也因制程技术原因而放弃。
英特尔创始人戈登摩尔提出了摩尔定律,但英特尔现在却遭遇了 " 摩尔定律的诅咒 "。这让 AMD 抓住了反超的机会。
2018 年,AMD 先是与格芯合作,推出 12nm 制程的 Zen+ 架构,首度在制程上超越了 14nm 的英特尔。随后在 2019 年,AMD 与台积电合作,推出了 7nm 制程(相当于英特尔 10nm)的 Zen 2 架构,领先英特尔。自此之后,英特尔一直在制程上落后 AMD 一拍,直到现在仍然没有改善。
今天,类似的 " 老二挑战老大 " 的剧本似乎在重新上演,只是战场从 CPU 换成了 GPU。虽然 AMD 还是 " 苏妈 " 带领的 AMD,但黄仁勋带领的英伟达,却比当年的英特尔风头更盛。
在硅谷,黄仁勋被称为好斗的男人,爱穿黑色皮衣,时刻做好反击的准备,股价涨到 100 美元时还把英伟达 logo 文到胳膊上。
2016 年黄仁勋还不把 AMD 放在眼里,他直接评价说英伟达跟 AMD 是 "9 跟 0" 的差距。2019 年初 AMD 抢在英伟达之前首发 7nm 显卡,黄仁勋表面上似乎也毫不在意,直称 " 这显卡很一般 "。
而今天,AMD 再一次用更好的产品向英伟达发起挑战。一边是踌躇满志的 AMD,一边是独孤求败的英伟达,一场关于人工智能的 GPU 大战,现在才刚刚开始。
END.
受微信改版影响,没有标星的朋友可能会错过「甲子光年」的推送或是看不到封面,欢迎各位新老朋友给「甲子光年」点个星标⭐️,以便及时收到我们的每篇新推文。
>