今天小编分享的科技经验:英特尔把对抗英伟达的希望,寄托在了中国,欢迎阅读。
每一家芯片厂商都想要把 " 人工智能 = 英伟达芯片 " 这个公式推翻,英特尔尤其有必要这样做。7 月 11 日,英伟达在北京发布了名为 Gaudi 2 深度学习加速器芯片,这是英特尔专为大模型训练和推理打造的专供中国市场的芯片。
英特尔的目标显而易见,它把对抗英伟达的希望寄托在了中国市场。
一直以来,数据中心业务都是英特尔主要收入来源之一,它和英特尔在 CPU 领網域的成功一道,在过去几十年构筑了英特尔最强的企业护城河,而这条宽且深的护城河,部分由于英伟达主导的人工智能浪潮,现在已不复存在。
最新的财政季度,包括个人电腦在内的客户计算事业部 CCG 和数据中心与人工智能事业部 DCAI 业务收入双降,同比都在 38% 左右,由此拖累了英特尔录得自 2010 年以来最低的季度收入(同比下降 36%),更是 30 年来首次连续亏损。
CPU 卖不动了大家早有预期,后疫情时代包括 PC 在内的个人电子消费品市场都陷入疲软,下行的半导体周期还叠加了摩尔定律的失效——英特尔最核心的 CPU 芯片制程工艺曾长时间停留在 14nm 阶段数年,以至于长久以来屈居第二的 AMD 通过异性架构的处理器实现反超。
但数据中心业务的下降就显得有些不同寻常,英特尔市场份额的萎缩同人工智能的高歌猛进形成了鲜明的对比——类似 ChatGPT 的大模型技术无论是训练还是推理都需要庞大的数据中心算力来支撑,然而目前为止英特尔并没有从中得到任何利好,绝大部分的收入实际上都被英伟达拿走了。
随着百模大战的展开,所有人都在如饥似渴地囤货英伟达显卡,在供不应求且小道消息满天飞的情况下,A800 这样专供中国市场的 " 阉割版 " 芯片的售价在 15 天之内就涨了两万块钱,交货周期也从过去的 1 个月拉长到最少 3 个月。甚至许多经销商玩起了同奢侈品行业一样的 " 配货 " 规则——想要最新的算力卡,就得搭配采购其它积压的库存一起。
这就是目前市场火热的现状。人工智能是今年来普遍疲弱的科技行业少见的增长亮点,整个半导体行业都在受益于这场 AI 浪潮,有人预计到 2030 年整个芯片市场的收入将达到 1.25 万亿美元,而根据摩根士丹利的估计,四年内 AI 芯片和它的上下游关联领網域的收入就将达到总收入的 10%,也就是 1250 亿美元。
出于任何理由,英特尔都不会放弃这项传统上属于英特尔优势领網域的业务,而这一次,英特尔把出手的地点选在了中国。
外科手术式精准出手
" 市场想要备选方案。" 英特尔公司执行副总裁、数据中心与人工智能事业部总经理 Sandra Rivera 在北京做出如上表述。
其中之一的意思是,有太多太多的言论有意无意把生成式 AI 同英伟达 GPU 绑定了起来,而英特尔并不认同这一点。基于英特尔产品组合的 AI 解决方案,用英特尔自己的话说," 为在封闭生态系统中寻求摆脱当前效率与规模限制的客户提供了极具竞争力的选择。"
现在选择来了。
在 7 月 11 日举办的活动上,Sandra Rivera 笑容满面地向媒体和合作伙伴展示了名为 Gaudi 2 的深度学习加速器芯片,英特尔宣称这是大规模部署 AI 的 " 更优解 "。
Gaudi 2 采用台积电 7nm 制程,拥有 24 个可编程 Tensor 核心,21 个 100 Gbps(RoCEv2)以太网接口用来内部互联,96GB HBM2E 内存,总内存带宽达到了 2.4TB/s。
Gaudi 2 的定位非常精准,就是针对大语言模型 LLM 和生成式 AI。它是由英特尔 2019 年收购的以色列 AI 初创公司 Habana Labs 设计的,尽管英特尔从未将其称之为 GPU,但无疑把它看作是英伟达高端 GPU A100 和 H100 的竞品。
实际上,英特尔在现场展示了 Gaudi 2 的强大性能都在对标英伟达。比如针对 Bert 模型预训练,发布会现场的图表显示,Gaudi 2 的性能比英伟达 A100 快 1.7 倍。Sandra Rivera 称 Gaudi 2 不仅在性能上超过 A100,还在最先进模型上提供了约 2 倍于 A100 的性价比。
至于更先进的 H100,Habana Labs 首席运营官 Eitan Medina 直言,Gaudi 2 是为数不多能替代英伟达 H100 进行 LLM 训练的方案,在由 MLCommons 发布的 MLPerf 3.0 基准测试中,Gaudi 2 是唯二能够进行 GPT3 训练的,另一个正是 H100。
尽管在目前基于 GPT-3 模型,单个 H100 的性能领先于 Gaudi 2 达 3.6 倍,但 Eitan Medina 预计随着在 9 月采用 FP8 軟體,Gaudi 2 有望显著缩短训练时间,这样它在性价比方面就会超过 H100。
中小模型推理方面,英特尔有已经更新到第四代的至强处理器,发布会现场英特尔演示了使用至强处理器的电腦使用 stable diffusion 生成图片,花费大约五秒钟。当模型规模提升到千亿级别时,则有 Gaudi 2 来帮助大模型进行训练。
英特尔由此组成了一个产品组合。
这样的产品组合让英特尔覆盖了目前人工智能对算力需求的方方面面,而 Gaudi 2 作为英特尔在大模型领網域布局的重要一环,精准聚焦于在性能和每瓦能耗两方面展开同英伟达的竞争——提供不弱的性能同时,保持了较高的性价比,这等同于在为客户省钱。
英特尔在伺服器领網域的丰富经验让这场关于 Gaudi 2 的发布会很大程度上变成了针对重要客户的宣传,除了性价比之外,Gaudi 2 还在规模化部署和开箱即用方面让人印象深刻。
同样是 MLPerf 3.0 基准测试,在 GPT3 模型上,把 Gaudi 2 从 256 个增加到 384 个,其扩展效果是近乎线性的(近线性 95%),这意味着客户可以按照自己的需要扩展部署 Gaudi 2 芯片而几乎不用考虑其性能上的结构性损失。
至于开箱即用方面,Gaudi 2 的 SynapseAI 軟體套件集成了 PyTorch、TensorFlow 和 DeepSpeed 等主流人工智能开发框架,这意味着开发者可以非常迅速地在不同硬體平台上进行代码迁移。
有多迅速?Hugging Face 首席布道师 Julien Simon 给出的答案是 10 分钟,这还包括了阅读文档的时间。
" 最简单的开发体验之一。"Julien Simon 如此形容。
实际上,作为一款在去年就已经发布的芯片,Gaudi 2 在近一年的时间里一直在针对大模型需求进行軟體方面的迭代,同去年 11 月提交 MLPerf 3.0 基准测试的数据相比,Gaudi 2 在 Bert 模型性能上提高了 10%,英特尔宣称预计在第三季度发布对 FP8 軟體支持的时候(目前是 BF16),其性能还将有进一步明显提升。
从性能、效率和迁移成本、规模化扩展方面,Gaudi 2 看上去都做好了准备。
要说还欠缺什么部分,那可能是中国市场的东风。
对中国市场的重视
Gaudi 1 就是在北京发布的,此番故地重游,英特尔为 Gaudi 2 中国区发布做了许多准备。
中国区发布的 Gaudi 2 相比国际版,内部互联的以太网接口由 24 个减少到了 21 个,这显然是为了应对美国政府相关的合规要求。
不过英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立表示,其整体性能基本上是一致的,特别是 Gaudi 2 在中国会首先搭载在浪潮信息的伺服器上,根据 Eitan Medina 的说法,浪潮伺服器的设计实际上没有用到所有的网口,也就说企业级客户在采购伺服器(而不是 Gaudi 2 芯片本身)的时候,其性能损失很少。
英特尔的营收有近四分之一来自中国,实际上本周英特尔 CEO Patrick Gelsinger 也在中国,尽管没有任何公开媒体行程。这已经是这位大刀阔斧改革英特尔的 CEO 今年内二度访华。
深耕中国市场让英特尔可以更好地同中国产业上下游的伙伴紧密合作。除了 Gaudi 2 芯片,发布会上一同亮相的还有浪潮伺服器 NF5698G7,它由 8 颗 Gaudi 2 和两颗至强芯片组成。浪潮信息高级副总裁、AI&HPC 产品线总经理刘军宣称,其算法工程师实际体验后认为它的使用体验 " 和 GPU 上使用基本没有太大区别 ",这意味着客户从迁移数据到训练负载的整个过程都将十分平顺。
基于 Gaudi 2 加速器的浪潮 NF5698G7 伺服器
除了浪潮外,Gaudi 2 在中国的合作伙伴还有紫光新华三和超聚变等公司,也就是说,企业级客户数据中心的采购需求可以在芯片发布的第一天经由英特尔的合作伙伴来满足。
能抢走多少英伟达的蛋糕?
不管英特尔做了多少,最后的问题还得回到商业化上。当天 Sandra Rivera 也被问到关于英特尔对英伟达、特别是 CUDA 生态的看法,由于许多开发者都在 CUDA 环境中编写代码,这种生态实际上构成了竞争壁垒,让迁移数据到别的平台变得格外困难。
Sandra Rivera 对此表示了乐观,80% 的大模型开发者是基于框架层做开发,而 Gaudi 2 和英特尔的伺服器在軟體层面已经基于框架层做了很长时间的积累和适配,并且同包括 Hugging Face 在内的开源社区进行合作。
换而言之,英特尔已经在自己所能及的范围内尽力降低了开发者的迁移成本。考虑到英特尔多年来在数据中心业务的积累,尤其是至强系列伺服器芯片同 Gaudi 2 能发挥更好的协同效果,在地缘政治日益复杂的背景下,作为一种替代方案,Gaudi 2 显然是一个值得考虑的选项——一个合格和更具性价比的替代品,这实际上也是英特尔对这一代 Gaudi 2 芯片的定位。
当然,上面的情况都属于理论推测的范畴,想要在人工智能浪潮中分一杯羹,还不得不考虑真实的商业逻辑。
尽管投资生成式 AI 看上去是所有科技大厂的必选项,但在资金投入上大部分企业仍然被避险情绪所主导,也就是说,大家并不愿意冒迁移平台的风险。
在大模型芯片领網域,英特尔还是个新手,Gaudi 2 在全球范围内推出已经有一年多时间,而配套的軟體一直在优化迭代,这或许影响了用户的采购意愿,在发布会上英特尔没有宣布任何一家客户采购 Gaudi 2,与之形成鲜明对比的是英伟达在台北电腦展上推出 DGX GH200 超级计算机时就同步官宣了三个大客户:谷歌云、Meta 和微软。
更严峻的挑战在于,即便是这些数据中心大客户,也都在开发属于自己的大模型芯片以期削减成本。这个过程是与它们大肆采购英伟达芯片同步展开的,而这同样也是英特尔必须面对的课题。
算下来,中国市场对于英特尔来说确实是个难得的机会,但芯片业务上把目光投向中国的也不只英特尔一家,包括 AMD 和 Graphcore 在内的公司都在加紧推出自己的 AI 专用加速芯片,它们同英特尔正产生着直接的竞争。特别是 AMD,这个 CPU 领網域英特尔的老对手刚刚发布了名为 MI300X 的 GPU,在多项性能和指标上都宣称高过 H100 一筹。
相比模型层的百模大战,硬體层 " 天下苦英伟达久矣 " 的呼声一直存在,英特尔这次精准出手可以看作是这家老牌芯片公司对英伟达人工智能领網域垄断地位的一次挑战,而它的成功与否,最终还是需要交给市场来检验。