今天小编分享的科技经验:“双英”开战中国AGI市场,欢迎阅读。
ChatGPT 的横空出世,不但为行业指明了可行的 AI 技术落地方向,也掀起新一轮 AI 硬體技术比拼。但 AGI 和 LLM 通过 ChatGPT 带动至今,尚无能和英伟达 GPU 正面对决的 AI 产品。
就像当年汉武帝那句 " 寇能往,我亦能往 " 名言,前有 AMD,后有英特尔,都用实际行动亮明了 " 英伟达能做,我亦能做 " 的态度。
7 月 11 日,英特尔以中国市场为目标,推出高端 AI 处理器 Habana Gaudi 2,支持加速 AI 训练和推理任务。特别之处在于,这是一颗搭载在英特尔至强 CPU 之上的 AI 加速器。也就是说,这并不是 GPU。
Gaudi 2,给予了市场在 GPU 之外的新选择。英特尔能否凭此,成功将英伟达拉下马?
第二种选择有哪些优点
Gaudi 2,在 2022 年 5 月已在海外发布。这次发布了中国定制版,就像英伟达为中国市场推出专门的合规版 "A800" 和 "H800"。
Gaudi 2 由 Habana Labs 研发,这家公司成立于 2016 年,总部在以色列,是一家为数据中心提供可编程深度学习加速器的 AI 芯片创业公司。2019 年,Habana Labs 推出首代 Gaudi;当年 12 月,为其早期投资人英特尔以 20 亿美元的代价收购。
目前,Habana Labs 共推出两个系列的 AI 产品。其中,用于 AI 训练的为 Gaudi(高迪)系列,而用于 AI 推理的则为 Goya(戈雅)系列。
此次英特尔为中国市场推出的是定制版 Gaudi 2,这也是 Habana Labs 设计的第二代 AI 硬體加速器。单个伺服器包含 8 个加速器设备(HPU:Habana Processing Units),每个设备包含 96GB 内存;显存容量为 96GB HBM2E,显存带宽高达 2.4TB/s。
英特尔执行副总裁、数据中心与人工智能事业部总经理 Sandra Rivera 没有详细介绍 Gaudi 2 的参数,但 " 性价比 " 得以被重点强调;同时,英特尔 Labs 首席运营官 Eitan Medina 还强调了 Gaudi 2 相对于国际版在百兆端口数量上虽有所减少,但 " 从客户使用情况来看,预计影响会非常小 "。
目前,就已知的信息看,浪潮信息已采用 Gaudi 2,已有支持 8 颗 Gaudi 2 深度学习加速器的新一代 AI 伺服器 NF5698G7 落地。另据英特尔称,紫光新华三、超聚变和百度智能云也会成为 Gaudi 2 用户。
简单说,Gaudi 2 深度学习加速器以首代 Gaudi 高性能架构为基础,采用台积电 7nm 工艺,专为训练大语言模型构建。
以 MLCommons MLPerf 基准测试(主流 AI 性能测试基准)看,Gaudi 2 整体性能高于英伟达 A100,但弱于英伟达 H100。运行 ResNet-50 的每瓦性能约是英伟达 A100 的 2 倍,运行 1760 亿参数的 BLOOMZ 模型时,其每瓦性能约为 A100 的 1.6 倍。
MLPerf 每年做两次测评。在今年 6 月的测评中,除了英伟达 H100,Gaudi 2 是唯一一套向 GPT-3 大模型训练基准提交性能结果的解决方案。
除了适配 GPT 大模型(基于 Transformer 架构),在最近的 Hugging Face 评估中,Gaudi 2 在大规模推理方面的表现,包括运行 Stable Diffusion(高通端侧模型)、70 亿及 1760 亿参数 BLOOMz 模型时,均有优异推理表现。
比如,与英伟达 A100 相比,在做 Stable Diffusion 模型推理时,Gaudi 2 加速器时延降低 2.21 倍。
可以说,Gaudi 2 虽然不能取代英伟达 H100,但英特尔为 LLM 推理和训练提供了一个除 GPU 之外的 "CPU(至强)+ 加速器(Gaudi 2)" 的新方案。
原来,做 AGI 或 LLM 训练和推理,并不限于用 GPU,也可以用 CPU 和 AI 加速器配合训练。
Rivera 认为,实际上用户存在不同的产品需求:比如中小型模型用户,可选英特尔第四代至强(CPU)处理器(英特尔 AMX:高级矩阵扩展)作推理;若要做千亿级新模型训练,想要高等级算力,那么也可采用 Gaudi。
在需要大规模业务部署时,Gaudi 2 能通过集群横向扩展获得更线性的性能增长。
从 MLCommons 新公布的 MLPerf 训练 3.0 结果可以发现,Gaudi 2 在运行 1750 亿参数的 GPT-3 模型时,当加速器数量从 256 个增加到 384 个时,能实现接近线性的 95% 的性能扩展效果。
英特尔可扩展至强是向 MLPerf 3.0 提交的众多解决方案中,唯一的基于 CPU 通用处理器版本;支持 " 开箱即用 ",也就是说,可以在通用系统上部署 AI,以此提高易用性和降低成本。
看着美:丰满和骨感之间
既然强调性价比,那么 Gaudi 2 的目标,必然不会是顶尖的旗舰定位,而更注重 " 跑量 "。这就相当于智能手机的 " 中高端 " 类型,侧重的是抢占尽可能多的市场份额。
这种 " 从中端入手 " 的市场策略,已成为近年来英特尔的主要努力方向。
在这场生成式 AI 战役中,英特尔结合了原本自身的 CPU 技术优势,结合 AI 加速芯片,以第四代至强可扩展 CPU 芯片(英特尔 AMX:Advanced Matrix Extensions)叠加 Gaudi 2,在中端市场与英伟达展开角逐。
其中,英特尔 AMX 的 CPU AI 推理性能不容忽略;而 AMX 在 CPU AI 推理和训练方面的能力,更成为英特尔结合其传统技术优势、推进强力竞争策略的底气。
在 AI 推理工作负载中,AMX 的推理性能与英伟达 A100 GPU 相比超越 5 倍,与 AMD 的 64 核 EPYC CPU 相比可超 2 倍;在执行训练工作时,AMX 的性能较英伟达 A100 GPU 有近 3 倍的性能提升,能在数秒或数分钟内完成训练,同时还能大幅降低用户成本。
英特尔公开展示了至强 Max 芯片运行 Stable Diffusion 模型的生成效果。Stable Diffusion 模型能以文生图和以图生图,结果显示,基于 AMX 芯片运行,该模型仅用 5.34 秒,就生成了一张影像。
英特尔采用的以 "CPU+AI 加速器 " 的产品组合为基础的 AI 解决方案,用英特尔自己的话说,即 " 为在封闭生态系统中,寻求摆脱当前效率与规模限制的客户,提供极具竞争力的选择 "。
在这个组合中,英特尔用兼具性能和每瓦能耗优势的 Gaudi 2,做了用户细分需求的场景划分,并强调了目前超越英伟达 A100 GPU、未来超越英伟达 H100 GPU 的性能、降低获取 GPU 的时间成本、能耗等方面的高性价比标签——什么是性价比——性价比的核心标签就是 " 省钱 ",以此在中高端市场侵蚀英伟达的市场份额。
易用性和与原有系统的丝滑过渡也是英特尔 AI 市场策略的一部分。
" 开箱即用 " 体现了易用性,Gaudi 2 的 SynapseAI 軟體套件集成了 PyTorch 和 TensorFlow 两种常见深度学习框架,还包括 Megatron 和 DeepSpeed 等主流 LLM 训练框架,这意味着开发者能做快速在不同硬體平台上做代码迁移。
迁移速度有多快?10 分钟,还包括阅读文档的时间。
从推出专门的中国版 Gaudi 2、采用 Gaudi 2 和两颗 AMX 芯片的浪潮新一代 AI 伺服器 NF5698G7 落地速度看,英特尔尤为重视中国市场。
英特尔的中国用户也表达了对英特尔 AI 产品的认可。浪潮信息高级副总裁、AI&HPC 产品线总经理刘军宣称,他们的算法工程师在实际体验中国版 Gaudi 2 后认为,其使用体验 " 与 GPU 基本没太大区别 "。
没有太大区别,不等于毫无区别。
华尔街见闻注意到,英特尔此次推出的中国版 Gaudi 2(也包括国际版在内),相对于英伟达 A100 的性能优势,集中在基于 Residual(残差)结构的 ResNet(残差网络)模型,而非 GPT 通用的 Transformer 架构的 AGI 模型,两者存在较大区别。
因此中国版 Gaudi 2 市场接受度究竟如何,在丰满和骨感之间,天平会侧重哪一端,仍需要时间做出回答。