“双英”开战中国AGI市场

今天小编分享的科技经验：“双英”开战中国AGI市场，欢迎阅读。

ChatGPT 的横空出世，不但为行业指明了可行的 AI 技术落地方向，也掀起新一轮 AI 硬體技术比拼。但 AGI 和 LLM 通过 ChatGPT 带动至今，尚无能和英伟达 GPU 正面对决的 AI 产品。

就像当年汉武帝那句 " 寇能往，我亦能往 " 名言，前有 AMD，后有英特尔，都用实际行动亮明了 " 英伟达能做，我亦能做 " 的态度。

7 月 11 日，英特尔以中国市场为目标，推出高端 AI 处理器 Habana Gaudi 2，支持加速 AI 训练和推理任务。特别之处在于，这是一颗搭载在英特尔至强 CPU 之上的 AI 加速器。也就是说，这并不是 GPU。

Gaudi 2，给予了市场在 GPU 之外的新选择。英特尔能否凭此，成功将英伟达拉下马？

第二种选择有哪些优点

Gaudi 2，在 2022 年 5 月已在海外发布。这次发布了中国定制版，就像英伟达为中国市场推出专门的合规版 "A800" 和 "H800"。

Gaudi 2 由 Habana Labs 研发，这家公司成立于 2016 年，总部在以色列，是一家为数据中心提供可编程深度学习加速器的 AI 芯片创业公司。2019 年，Habana Labs 推出首代 Gaudi；当年 12 月，为其早期投资人英特尔以 20 亿美元的代价收购。

目前，Habana Labs 共推出两个系列的 AI 产品。其中，用于 AI 训练的为 Gaudi（高迪）系列，而用于 AI 推理的则为 Goya（戈雅）系列。

此次英特尔为中国市场推出的是定制版 Gaudi 2，这也是 Habana Labs 设计的第二代 AI 硬體加速器。单个伺服器包含 8 个加速器设备（HPU：Habana Processing Units），每个设备包含 96GB 内存；显存容量为 96GB HBM2E，显存带宽高达 2.4TB/s。

英特尔执行副总裁、数据中心与人工智能事业部总经理 Sandra Rivera 没有详细介绍 Gaudi 2 的参数，但 " 性价比 " 得以被重点强调；同时，英特尔 Labs 首席运营官 Eitan Medina 还强调了 Gaudi 2 相对于国际版在百兆端口数量上虽有所减少，但 " 从客户使用情况来看，预计影响会非常小 "。

目前，就已知的信息看，浪潮信息已采用 Gaudi 2，已有支持 8 颗 Gaudi 2 深度学习加速器的新一代 AI 伺服器 NF5698G7 落地。另据英特尔称，紫光新华三、超聚变和百度智能云也会成为 Gaudi 2 用户。

简单说，Gaudi 2 深度学习加速器以首代 Gaudi 高性能架构为基础，采用台积电 7nm 工艺，专为训练大语言模型构建。

以 MLCommons MLPerf 基准测试（主流 AI 性能测试基准）看，Gaudi 2 整体性能高于英伟达 A100，但弱于英伟达 H100。运行 ResNet-50 的每瓦性能约是英伟达 A100 的 2 倍，运行 1760 亿参数的 BLOOMZ 模型时，其每瓦性能约为 A100 的 1.6 倍。

MLPerf 每年做两次测评。在今年 6 月的测评中，除了英伟达 H100，Gaudi 2 是唯一一套向 GPT-3 大模型训练基准提交性能结果的解决方案。

除了适配 GPT 大模型（基于 Transformer 架构），在最近的 Hugging Face 评估中，Gaudi 2 在大规模推理方面的表现，包括运行 Stable Diffusion（高通端侧模型）、70 亿及 1760 亿参数 BLOOMz 模型时，均有优异推理表现。

比如，与英伟达 A100 相比，在做 Stable Diffusion 模型推理时，Gaudi 2 加速器时延降低 2.21 倍。

可以说，Gaudi 2 虽然不能取代英伟达 H100，但英特尔为 LLM 推理和训练提供了一个除 GPU 之外的 "CPU（至强）+ 加速器（Gaudi 2）" 的新方案。

原来，做 AGI 或 LLM 训练和推理，并不限于用 GPU，也可以用 CPU 和 AI 加速器配合训练。

Rivera 认为，实际上用户存在不同的产品需求：比如中小型模型用户，可选英特尔第四代至强（CPU）处理器（英特尔 AMX：高级矩阵扩展）作推理；若要做千亿级新模型训练，想要高等级算力，那么也可采用 Gaudi。

在需要大规模业务部署时，Gaudi 2 能通过集群横向扩展获得更线性的性能增长。

从 MLCommons 新公布的 MLPerf 训练 3.0 结果可以发现，Gaudi 2 在运行 1750 亿参数的 GPT-3 模型时，当加速器数量从 256 个增加到 384 个时，能实现接近线性的 95% 的性能扩展效果。

英特尔可扩展至强是向 MLPerf 3.0 提交的众多解决方案中，唯一的基于 CPU 通用处理器版本；支持 " 开箱即用 "，也就是说，可以在通用系统上部署 AI，以此提高易用性和降低成本。

看着美：丰满和骨感之间

既然强调性价比，那么 Gaudi 2 的目标，必然不会是顶尖的旗舰定位，而更注重 " 跑量 "。这就相当于智能手机的 " 中高端 " 类型，侧重的是抢占尽可能多的市场份额。

这种 " 从中端入手 " 的市场策略，已成为近年来英特尔的主要努力方向。

在这场生成式 AI 战役中，英特尔结合了原本自身的 CPU 技术优势，结合 AI 加速芯片，以第四代至强可扩展 CPU 芯片（英特尔 AMX：Advanced Matrix Extensions）叠加 Gaudi 2，在中端市场与英伟达展开角逐。

其中，英特尔 AMX 的 CPU AI 推理性能不容忽略；而 AMX 在 CPU AI 推理和训练方面的能力，更成为英特尔结合其传统技术优势、推进强力竞争策略的底气。

在 AI 推理工作负载中，AMX 的推理性能与英伟达 A100 GPU 相比超越 5 倍，与 AMD 的 64 核 EPYC CPU 相比可超 2 倍；在执行训练工作时，AMX 的性能较英伟达 A100 GPU 有近 3 倍的性能提升，能在数秒或数分钟内完成训练，同时还能大幅降低用户成本。

英特尔公开展示了至强 Max 芯片运行 Stable Diffusion 模型的生成效果。Stable Diffusion 模型能以文生图和以图生图，结果显示，基于 AMX 芯片运行，该模型仅用 5.34 秒，就生成了一张影像。

英特尔采用的以 "CPU+AI 加速器 " 的产品组合为基础的 AI 解决方案，用英特尔自己的话说，即 " 为在封闭生态系统中，寻求摆脱当前效率与规模限制的客户，提供极具竞争力的选择 "。

在这个组合中，英特尔用兼具性能和每瓦能耗优势的 Gaudi 2，做了用户细分需求的场景划分，并强调了目前超越英伟达 A100 GPU、未来超越英伟达 H100 GPU 的性能、降低获取 GPU 的时间成本、能耗等方面的高性价比标签——什么是性价比——性价比的核心标签就是 " 省钱 "，以此在中高端市场侵蚀英伟达的市场份额。

易用性和与原有系统的丝滑过渡也是英特尔 AI 市场策略的一部分。

" 开箱即用 " 体现了易用性，Gaudi 2 的 SynapseAI 軟體套件集成了 PyTorch 和 TensorFlow 两种常见深度学习框架，还包括 Megatron 和 DeepSpeed 等主流 LLM 训练框架，这意味着开发者能做快速在不同硬體平台上做代码迁移。

迁移速度有多快？10 分钟，还包括阅读文档的时间。

从推出专门的中国版 Gaudi 2、采用 Gaudi 2 和两颗 AMX 芯片的浪潮新一代 AI 伺服器 NF5698G7 落地速度看，英特尔尤为重视中国市场。

英特尔的中国用户也表达了对英特尔 AI 产品的认可。浪潮信息高级副总裁、AI&HPC 产品线总经理刘军宣称，他们的算法工程师在实际体验中国版 Gaudi 2 后认为，其使用体验 " 与 GPU 基本没太大区别 "。

没有太大区别，不等于毫无区别。

华尔街见闻注意到，英特尔此次推出的中国版 Gaudi 2（也包括国际版在内），相对于英伟达 A100 的性能优势，集中在基于 Residual（残差）结构的 ResNet（残差网络）模型，而非 GPT 通用的 Transformer 架构的 AGI 模型，两者存在较大区别。

因此中国版 Gaudi 2 市场接受度究竟如何，在丰满和骨感之间，天平会侧重哪一端，仍需要时间做出回答。