今天小编分享的互联网经验:要我说,人工智能还得看英特尔,欢迎阅读。
2023 年 12 月 15 号,英特尔发布了第五代英特尔至强可扩展处理器(以下简称第五代至强),大幅度强化了在人工智能方面的表现,为此还特意请了二手玫瑰乐队来热场。对于了解人工智能行业或者了解 CPU 的人来说会耐人寻味,因为在人工智能领網域中,GPU 往往才是那个起决定性作用的,英特尔作为 CPU 的代表,为什么会也强调人工智能的表现呢?
对于人工智能企业,通常会以伺服器搭载的 GPU 来决定其性能。这是因为当下人工智能所使用的神经网络非常复杂,想要计算出一个完整且靠谱的结果,就需要将一个大任务划抽成多个小任务,再同时执行,这种方法称作是并行计算。另一方面,由于多个任务同时执行,那就需要更多的节点加入到整个计算的过程中,也就是分布式计算,常见的分布式计算框架包括 MapReduce 和 Spark 等。
将上述两种计算方法综合在一起,再加上数据结构和軟體优化,就是人工智能领網域总是挂在嘴边的密集计算。GPU 具备大量的并行计算核心,可以同时处理多个数据并行任务。此外,GPU 对影像、视频等非传统数据结构的密集型任务处理效果更好。再加上 GPU 还有高效的内存访问模型(比如 HBM3 和 GDDR6),就让更多的人工智能企业只在乎 GPU 而忽略了 CPU 的重要性。
诚然,GPU 肯定是有 GPU 的好处,但事实上 CPU 亦是不可或缺,乃至至关重要的一环。让我们把麦克风交给英特尔,看看这位 CPU 老牌厂商是怎么做的。英特尔发布的第五代至强,单从平均性能上看,比第四代至强高出了 21%。
第五代至强更新了几个重要的方向,以加速人工智能密集计算。第一个就是高级矩阵扩展(英特尔 AMX),支持 INT8 和 BF16 这两种数据类型的深度学习训练和推理。INT8 是指使用 8 位二进制表示整数的数据格式。在人工智能领網域,INT8 被广泛用于量化模型和低精度推理,以提高计算效率和减少存储需求。相比于更高位数的整数或浮点数,INT8 占用更少的内存空间,可以减少数据传输和存储的消耗。虽然 INT8 表示的数值范围较窄,但在许多人工智能应用中,精度要求相对较低,使用 INT8 可以在不显著降低模型性能的情况下大幅提高计算速度。
BF16 就更厉害了,这是一种浮点数格式,使用 16 位二进制表示浮点数。它在位数上比较接近于传统的半精度浮点数(16 位),但在指数部分和尾数部分的位分配上有所变化。BF16 在人工智能领網域中用于深度学习模型的训练和推理,尤其是在使用混合精度计算(Mixed Precision)的情况下。相比于传统的单精度浮点数(32 位),BF16 可以在减少内存消耗的同时,保持对模型参数和计算结果的较高精度。它是一种平衡了计算性能和精度需求的浮点数格式。
那么回到刚才提到的,数据结构是构成密集计算的关键,支持更多种类的数据结构就会提高密集计算的效率。这是 CPU 在人工智能方面性能更新的核心之一。第五代至强第二点更新是寄存器的带宽以及加装了两个 FMA 单元。
寄存器(Register)是计算机体系结构中的一种存储器件,用于存储临时数据和指令操作数。寄存器位于 CPU 内部,是与 CPU 内部数据通路直接连接的高速存储器。与内存相比,寄存器具有更快的访问速度和更低的延迟。寄存器带宽越高,性能就越好。
FMA(Fused Multiply-Add)单元是一种计算单元,用于同时执行多个浮点数乘法和加法操作。它是现代 CPU 的一个重要部分,用于实现高性能的浮点数运算。FMA 单元可以用较低的延迟和更高的吞吐量进行浮点数乘加运算。FMA 单元可以在一次指令周期内执行一个乘加操作,利用了乘法和加法之间的数据依赖性。这种乘加操作常用于矩阵乘法、向量加权和神经网络的计算等任务中,可以加速复杂的数值计算。
说了这么多产品的技术那么回到性能层面,第五代至强相较于第四代至强在推理方面的性能提升了 42%,自然语言处理的性能提升了 23%,影像分类和目标检测性能提升了 24%,运行参数量在 200 亿以下的大语言模型时,能够实现词元处理时延低于 100ms。
英特尔努力给谁看?
我要是英特尔我肯定选择摆烂,因为 CPU 的工作方式是指令解码和执行,通过从内存中获取指令,并将其解码成可执行的操作。在拿到任务以后,分配给其他单元,比如算术逻辑单元、控制单元等。有点像是工地上的工头,分配工人们搬砖、砌墙。
CPU 的优点是极强的单线程执行能力、灵活、以及高可编程性。可这些优点在人工智能的密集计算中并不是很需要,这也是为什么我刚才说 " 如果我是英特尔,那我会开始摆烂 "。毕竟逆风局,打得太累了。可英特尔之所以继续加把劲,原因在于英特尔的战略规划。
这时候就要搬出这张图了。
英特尔产品规划图
这张图描述的是英特尔至强处理器产品的规划,从 2024 年开始,产品线会增加一倍,分别为 P-core 至强和 E-core 至强。P-core 指的就是高性能,E-core 指的就是低功耗。就从起名方式来看,也知道下一代至强 E-core 版有多么特殊。从 2017 年的第一代至强开始,其代号分别为天湖、喀斯喀特湖、库珀胡、冰湖、蓝宝石急流、翡翠急流、花岗岩急流,都是水相关的。而下一代至强 E-core 叫做 Sierra Forest。
Sierra 并不是英语,而是西班牙语,意思为山脉。比如 Sierra Nevada 就是内华达山脉的意思,那么 Sierra Forest 就是山地森林的意思。那我考考你,如果你是一个大型人工智能企业,你有很多预算,如果英特尔推出了下一代至强产品,你应该买更高性能的 P-core 版,还是更低能耗的 E-core 版?
这是一个很反直觉的事情,答案是 E-core。大规模客户往往已建立好伺服器集群,伺服器跟 3C 产品不一样,企业客户换代不需要频繁更新换代,但是会替换一些过时的伺服器产品以填补人工智能领網域的算力需求。这时候性价比更高的 E-core 给了大规模客户更多的选择空间,能用更少的预算达到相同的目标,而且大规模的伺服器集群,维护成本是指数级上涨的,低能耗的产品就意味着运维成本更低。事实上,一台伺服器从采购到报废,90% 的成本,甚至可以说 99% 的成本都是运维。
另外一点,第四代至强和第五代至强采用的制程都是 Intel7。说到这里补充一个冷知识,包括英特尔内部人员在内仍有很多人分不清,Intel7、Intel4、Intel3,代表的不是咱们说的 3 纳米、4 纳米和 7 纳米,而是英特尔独有的制程规划。Intel7 和 10 纳米差不多、Intel4 和 7 纳米差不多。从规划图中可以看到,下一代至强直接跳过了 Intel4,直接使用 Intel3。虽然现在还不清楚 Intel3 制程的具体参数,不过可以猜到,应该会比 2023 年所有高精尖芯片的性能都要强。
芯片制程越小,CPU 能耗就越低,这也正是当下所有人工智能,尤其是大型人工智能企业最需要的。再加上 E 核和 P 核的战略,可以明显看出英特尔在 2024 年主打一手专门针对人工智能企业强化销售,进而提高企业收入。
回到第五代至强,既然英特尔很清楚怎么提高人工智能时代下的销售额,那么首先就需要给市场打一针强心剂,或者说用产品来给企业定性。让英特尔的客户以及潜在客户明白,即使步入了人工智能领網域,GPU 当道的局面,你照样得需要一颗 " 灯,等灯等灯 " 的 CPU。英特尔在 15 日发布会上强调无数次,说 2023 年是 AIPC 的元年,这可不是随口找个 slogan,综上所述,人家可是真的这么玩的。