今天小编分享的科学经验:为什么说GPU再火,AI平台也少不了强力的CPU,欢迎阅读。
AIGC 的这把火,燃起来的可不只是百模大战的热度和雨后春笋般的各式 AI 应用。
更是由于算力与通信需求的爆发式增长,使得底层的专用加速芯片、以及配备这些芯片的AI 加速伺服器再次被拉到了大众的聚光灯下。
据统计,2023 年全球范围内的 AI 伺服器市场规模已经达到了 211 亿美元,并且 IDC 还发布预测说:
预计 2025 年达 317.9 亿美元,2023-2025 年 CAGR 为 22.7%。
AIGC 大模型的训练和推理需要大量的高性能算力支持,对 AI 伺服器需求还将提升。
而且 AI 加速伺服器不同于普通伺服器,在架构上一般采用异构的方式,且 GPU 的数量更是能配多少就配多少,这也就是造成目前 GPU 千金难求的因素之一。
但你知道吗?即使在大模型时代 GPU 或各式 AI 加速芯片的光芒变得更加耀眼,但对于 AI 基础设施来说,CPU依然是必不可少的存在——至少一台高端的 AI 加速伺服器中每 8 个 GPU 就需得搭配 2 个 CPU。
不仅如此,由于 AI 加速伺服器异构的特点,市场上除了 CPU+GPU 的组合方式之外,还有其它多种多样的架构,例如:
CPU+FPGA
CPU+TPU
CPU+ASIC
CPU+多种加速卡
不难看出,即使 AI 加速伺服器架构的组合方式万般变化,唯独不能变的就是 CPU,而且往往还得是搭配高端的那种。
△图源:由 DALL · E 生成
那么为什么会这样呢?
AI 加速伺服器中的 CPU
首先,CPU 对于 AI 加速伺服器来说相当于人的大腦。
它可以负责整个伺服器的运算与控制,是直接影响到伺服器整体性能的核心部件。
CPU 处理作業系統的指令,协调各个硬體组件的工作,包括内存管理、数据流控制和 I/O 操作。
即使在 AI 伺服器中,GPU 或其他加速器负责执行大部分计算密集型任务,CPU 仍然是不可或缺的,因为它确保了整个系统的稳定运行、各组件的高效通信协作,最终推进任务的顺利执行。
其次,CPU 还具备灵活性和通用性。
CPU 的设计一般为通用处理器,能够执行各种类型的计算任务。
虽然 GPU 在并行处理方面更为高效,但 CPU 在处理序列化任务、执行复杂逻辑和运行通用应用程式方面更为灵活。
真正完整的 AI 应用平台其实需要处理一系列密切相关又特色各异的任务,包括数据预处理、模型训练、推理和后处理等,这些任务也可能甚至特别需要 CPU 的通用处理能力。
不仅如此,CPU 还是系统启动和维护的关键点。
因为伺服器的启动过程、系统监控、故障诊断和维护操作都需要 CPU 来执行;没有 CPU,这些关键的系统级任务将无法进行。
而且 CPU 在軟體兼容性方面更是有积累多年的优势。
市面上大多数軟體和应用程式都是为 CPU 设计的,包括作業系統、数据库管理系统和开发工具。AI 加速伺服器需要运行这些軟體来支持 AI 应用的开发和部署。
也正如我们刚才所说,现在 AI 加速伺服器均是采用异构的形式,CPU 在此过程中可以作为控制节点,管理 GPU 或其他加速器的计算任务,以此来实现高效的资源分配和任务调度。
最后,便是成本的问题。
虽然 GPU 在 AI 计算中非常高效,但 CPU 或其他专用加速芯片仍然是成本效益较高的选择,特别是在处理不适合 GPU 或加速器的任务时。CPU 和它们的组合可以提供更佳的性能和成本平衡。
这也就不难理解为什么 AI 加速伺服器里唯独不能缺少 CPU 了。
那么接下来的一个问题便是,主流的伺服器厂商都在用什么样的 CPU。
我们以国内 AI 加速伺服器市场份额排第一的浪潮为例,从最新消息来看,其 NE5260G7 伺服器便已经适配了老牌芯片巨头英特尔最新发布的第五代英特尔 ® 至强 ® 可扩展处理器。
而之所以浪潮要适配最新的高端 CPU,可以理解为 " 高端的游戏需要搭配高端 GPU 和 CPU",AI 伺服器要想在性能上取得新突破,同样也是要适配高端的硬體。
具体而言,与前一代相比,第五代英特尔 ® 至强 ® 可扩展处理器在处理人工智能工作负载方面表现出色,其性能提升了 21%,特别是在 AI 推理任务上,性能增幅更是达到了 42%。
此外,它的内存带宽也增加了 16%;在执行一般计算任务时,第五代至强 ® 可扩展处理器能够将整体性能提高至多 21%,并且在多个客户实际工作负载中实现了每瓦特功耗性能提升高达 36%。
也正因 " 内核 " 如此强悍,才使得浪潮的伺服器在性能上实现了平均 21% 的提升。
不过有一说一,毕竟 AI 也不完全就是单纯的模型或大模型的加速,因此上述的 CPU 优势也还仅是能力的一隅,在各个细分的应用场景中,它还有更大的作为。
AI 不完全是大模型
即使在配备了 GPU 或专用加速器的 AI 伺服器中,CPU 的角色也远不止于主控或为加速器提供服务。
而是在 AI 系统的整个生命周期中扮演着多样化的角色,贯穿从数据采集、预处理、训练、推理、应用等全流程。
先说最关键的 AI 模型,尤其是模型推理这一环节。
不论是现在占据最强话题热度的大语言模型,还是传统的深度学习模型,抑或是科学计算与人工智能交融形成的 AI for Science 应用,CPU,特别是内置 AI 加速能力的英特尔 ® 至强 ® 可扩展处理器,都在推理应用中有不俗战绩。
例如在 AlphaFold2 掀起的蛋白质折叠预测热潮之中,借助第三代和第四代至强 ® 可扩展处理器不断优化端到端通量能力,就能实现比 GPU 更具性价比的加速方案,直接拉低 AI for Science 的入场门槛。
再例如 OCR 技术应用,也随着至强 ® 可扩展处理器在内置 AI 加速技术上的演进,被赋予了新的 " 灵魂 ",不但准确率飙升、响应延迟也进一步降低。
更别提以 ChatGLM 为代表的通用大模型,以及卫宁、惠每等行业軟體或解决方案提供商输出的行业特定场景的大模型应用,它们都提供了有力的实践佐证,能验证至强 ® 在大模型推理上的实力,以及相比加速器芯片更优的成本,以及更易获取,更易部署、优化和使用的优势。
不信你就瞧瞧我们的最 "In"AI 专区 ,来刷新一下认知。
再说 AI 全流程中大量涉及数据处理的环节。
实际业务中的 AI 应用,背后往往需要包含大量数据的知识库作为支撑。
这些数据通过将海量文本语料压缩成密集向量的形式存储,并通过高效的相似度搜索迅速找到与查询最相关的信息,也就是大家所熟知的向量数据库了。
在这方面,专门针对向量和矩阵计算优化的英特尔 ® AVX-512 指令集和英特尔 ® AMX 加速技术有了用武之地,可应对海量、多维向量数据的高并发和实时计算等挑战。
业界知名的向量数据库开发商如腾讯云和星环科技等,底层都选择第五代英特尔 ® 至强 ® 可扩展处理器作为承载和加速的平台。
腾讯云 VectorDB 与英特尔合作,在第五代至强 ® 平台经软硬體双方面优化后,在提升向量数据库的向量检索效率方面相比基准组提升了约 2.3 倍,在使用英特尔 ® AMX 加速数据格式为 INT8 的测试场景中再次性能提升达约 5.8 倍。
星环科技则基于第五代至强 ® 可扩展处理器推出了 Transwarp Hippo 分布式向量数据库解决方案,实现了约 2 倍的代际性能提升,可有效满足大模型时代海量、高维向量的存储和计算需求。
△图:星环科技分布向量数据库 Transwarp Hippo 产品架构
AI 全流程中与数据相关的环节,不止包含可用作大模型外部知识库的向量数据库这一种。还涉及模型训练前数据预处理,训练中的数据调度,模型上线后的持续优化和维护、异常数据的发现和处理等。
众所周知,数据是 AI 三要素之一,相当于 AI 的血液和原料,没有优质的数据,再先进的算法和模型也是空中楼阁。但原始数据往往参差不齐,需要通过数据清洗、转换、特征工程等一系列流程,最终才能为 AI 系统所用。
这些数据处理任务涉及海量逻辑运算,以及同样、甚至更大量级的内存操作,如存取、传输,对处理速度和时延要求都非常高,因此通常也是由最离系统内存最近、更擅长通用计算的 CPU 来承担。
第五代英特尔 ® 至强 ® 可扩展处理器充分考虑到这些需求,内置多款加速器来为数据处理提供支持,如:
DSA 数据流加速器(Data Streaming Accelerator):负责优化数据复制和转换操作,提高网络和存储性能。
IAA 存内分析加速器 (In-Memory Analytics Accelerator):提高分析性能,同时解除安裝 CPU 内核任务以加速数据库查询吞吐量等工作负载。
QAT 数据保护与压缩加速技术(QuickAssist Technology):可显著加速数据压缩、对称和非对称数据加密解密,提高 CPU 效率和整体系统性能。
DLB 动态负载均衡器(Dynamic Load Balancer),帮助防止性能瓶颈并实现低时延控制平面工作负载。
在第五代至强 ® 可扩展处理器的不同细分型号中,对上述加速器有灵活的配置或支持方案,并且还支持通过 Intel On Demand 按需启用,可以适应不同工作负载的需求。
最后,还特别要提到的对数据隐私、模型和应用安全的更优防护,毕竟所有 AI 场景都不能以牺牲安全为代价,更是有些 AI 应用场景对此格外在意,如在金融、医疗行业。
对这些行业场景来说,能用上基于 CPU 实现的硬體级可信执行环境(TEE)技术来保护敏感数据和代码免受攻击可是非常关键的。
如平安科技,就曾使用英特尔 ® Software Guard Extensions(英特尔 ® SGX)构建联邦学习解决方案。
平安科技通过英特尔 ® SGX 的 " 飞地 " 内存区網域,在本地安全地执行模型训练,而无需共享原始数据。同时 SGX 支持安全的多方计算協定,如同态加密、安全聚合等,从而在联邦学习中实现了更优的隐私保护。
阿里云则基于最新第五代英特尔 ® 至强 ® 可扩展处理器推出了 BigDL-LLM 隐私保护方案。
它在这款全新处理器内置的英特尔 ® Trust Domain Extension (英特尔 ® TDX)技术的加持下实现了对分布式节点或 AI 管道的更优防护,从而能让客户在不牺牲数据隐私的前提下将更多数据运用到 AI 应用中,有效挖掘数据价值,为客户构建更为高效的隐私保护机器学习方案,助力大模型的广泛应用。
△图:采用英特尔 ® TDX 的 BigDL-LLM 服务和调优架构
要知道,基于 TEE 的联邦学习或隐私保护机器学习技术,可是未来 AI 在大规模实践中打通和共享多机构数据的一大基座。
通过这种技术,不同机构之间才能在保证数据安全和隐私的前提下,实现数据的共享和联合分析,才能为 AI 的持续发展演进提供更加丰富和全面的数据支持。
搞好 AI 全流程加速,CPU 不能是短板
所以,让我们从单纯的模型加速,将眼界扩展到更全面、多维、流水线化的 AI 平台应用,不难预见,随着这种平台级应用的成熟与走向实战,我们对小到 AI 加速伺服器,大到 AI 基础设施的期望也在不断拓展和更新。
仅仅关注 AI 模型本身以及 GPU、专用加速器的性能,会越来越像一个单点化的思维。
未来大家必须更重视整个 AI 平台中多种硬體与軟體的搭配及协同工作,这其中 CPU 作为主控、加速、辅助的多面手,对于补齐整个平台的短板,提升整个平台的质量至关重要。
这或许就是在如今的技术浪潮下,以第五代英特尔 ® 至强 ® 可扩展处理器为代表的高端 CPU,依然会在 AI 伺服器或基础设施市场中赢得一席之地的根因。
毕竟,高端 CPU 的作用不仅是直接上手加速 AI 推理,还关系到整个 AI 平台或系统整体性能的提升,更是提供更加稳定和安全的运行环境来拓展 AI 的边界,只有这几个环节都照顾到,才能推动 AI Everywhere 愿景进一步走向现实。
或者简言之,AI 如果要真正走向更多的实用场景,又怎么能少得了更强大、更可靠、更全面多能的 CPU 呢?
参考链接:
[ 1 ] https://www.bilibili.com/read/cv23242562/
[ 2 ] https://www.idc.com/getdoc.jsp?containerId=US49554023
— 完 —
点这里关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
>