今天小编分享的科学经验:英特尔AI芯片中国定制版发布!打的就是英伟达A100,欢迎阅读。
AIGC 时代,谁说炼大模型就一定得用 GPU?
英特至强 CPU,运行扩散模型 Stable Diffusion 只需 5 秒就能出图。
而在这两天,专门搭载在该 CPU 上使用的 AI 加速器更是新鲜出炉。
它叫Gaudi2,面向中国市场发布,用于加速 AI 训练及推理,有了它,大规模部署 AI 便多了一种新选择。
性能上,它在 MLPerf 最新报告中的多种训练和推理基准测试中都直接超越了英伟达 A100,并提供了约 2 倍的性价比。
至于 H100,它虽然还不能敌过,但若拉上成本,则也能 " 扳回一局 "。
这款主打超强性价比的 AI 加速器,究竟什么来头?
Gaudi2 深度学习加速器暨 Gaudi2 夹层卡 HL-225B,以第一代 Gaudi 高性能架构为基础,加速高性能大语言模型运行。
(ps. Gaudi1 代处理器诞生于 2019 年,其背后公司来自以色列,当年年底被英特尔以 20 亿美元收购,如今成为英特尔 " 叫板 " 英伟达的重要底气。)
Gaudi2 采用7nm制程工艺,具备 24 个可编程 Tensor 处理器核心(TPCs),支持面向 AI 的各类高级数据类型:FP8、BF16、FP16、TF32 和 FP32。
它配备 21 个 100 Gbps(RoCEv2)以太网接口,可通过直接路由实现 Gaudi 处理器间通信(相比原版少了 3 个,但英特尔公司执行副总裁 Sandra Rivera 介绍,这对整体性能影响基本不大)。
同时,它还能做到 2.4TB/ 秒的总内存带宽,先进的 HBM 控制器则针对随机访问和线性访问进行了优化,在各种访问模式下都可以提供这一保证。
此外,48MB 片上 SRAM 和集成多媒体处理引擎亦是标配。
就在上个月公布的 MLCommons ® MLPerf ® 基准测试中,Gaudi2 在 1750 亿参数的 GPT-3 模型训练上表现出色,使用 384 个加速器上耗时 311 分钟就完成了训练。
虽然相比之下,英伟达只需 61 分钟便可,但这样的成绩需要 512 个 H100 ——由于 Gaudi2 的成本要远低于 H100,所以要论性价比,Sandra Rivera 表示,Gaudi2 是更具诱惑力的选择。
与此同时,Gaudi2 在基于 8 个和 64 个加速器助力的 BERT、8 个加速器助力的 ResNet-50 和 Unet3D 训练结果上,全部优于 A100。
此外,Gaudi2 也可为大规模的多模态和语言模型提供出色的推理性能。
在最近的 Hugging Face 评估中,其在大规模推理方面的表现,包括在运行 Stable Diffusion、70 亿以及 1760 亿参数 BLOOMZ 模型时,在行业内均保持领先。
能耗方面,训练计算机视觉模型时,Gaudi2 的每瓦性能是 A100 的 2 倍,推理 176B 参数的 BLOOMZ 时,功耗则可降低 40%。
——不仅性能和功耗强大,英特尔还提供了配套的成熟軟體支持:SynapseAI。
它可以方便开发者轻松构建模型,或将当前基于 GPU 的模型业务和系统迁移到基于全新 Gaudi2 伺服器。
同时,SynapseAI 集成了对 TensorFlow 和 PyTorch 框架的支持,提供众多流行的计算机视觉和自然语言参考模型,可以满足深度学习开发者的多样化需求。
另外,说到 Gaudi2 伺服器,现在,英特尔已与浪潮信息合作,打造并发售基于 Gaudi2 深度学习加速器的浪潮信息 AI 伺服器 NF5698G7。
该伺服器集成了 8 颗 Gaudi2 加速卡 HL-225B,还包含双路第四代英特尔至强可扩展处理器,进一步帮助大家高效部署大模型。
最后,值得一提的是,在发布会后的交流环节中,当被问及英特尔是否有一个预期,能占领多少 AI 加速芯片的市场时,Sandra Rivera 表示:
国内 AI 产品需求非常大,产品完全不够用。因此市场就在那里,在这种情况下我们不用特别设什么份额的目标,就把最好的产品带出来,满足市场需求,帮助大家创新,这就是我们想要做的事情。
而据量子位现场获悉,明年,能够进一步缩小差距甚至超越英伟达 H100 的 Gaudi3 就将问世。
与此同时,2025 年之时,英特尔还将整合既有的 GPU Max 产品线和 Gaudi 系列,取两者之长,推出更加完整的下一代 GPU 产品。
而在这之中,英特尔将对大家最为关心的可持续軟體生态做大笔投入。
(咳咳,好戏才刚刚开始~)