今天小编分享的科技经验:英特尔,为啥?,欢迎阅读。
在 2024 年第三季度财报发布后,英特尔首席执行官帕特 · 基辛格(Pat Gelsinger)表示,近期英特尔所推出的 Lunar Lake 架构被设计为一个小众、一次性的产品,没有直接继任者。在财报电话会议中,他解释说,采用外部制程节点以及 LPDDR5X 内存集成到封装中的复杂性,导致了低利润率,这影响了英特尔未来产品线的决策。
根据基辛格的说法,即将推出的 Panther Lake CPU 将有超过 70% 的部分由英特尔自己的晶圆厂制造,并且将是第一款采用英特尔 18A 制程节点的客户端 CPU,该产品计划在 2025 年下半年发布,且将不包含封装内存,而作为 Panther Lake 继任者的 Nova Lake 也不会包含封装内存。
这意味着封装内存只是英特尔处理器历史中短暂划过的一道流星,刚出生不到两个月就被宣判了死刑,让人为之惋惜之余,也心生疑问:为什么要砍掉好不容易才用上的封装内存?
ARM 难倒了英特尔
英特尔所代表的 x86 曾多次迎战像 ARM 这样的精简指令集对手,最早可以追溯到上个世纪的 PowerPC,其曾经以一己之力同 IBM、苹果、摩托罗拉这三者展开争斗,并最终取得了辉煌的胜利,实现了消费和伺服器市场两开花,一度压得其他厂商透不过气。
但即便是如此强大的 x86 帝国,依旧无法涵盖消费电子的方方面面,尤其是在以嵌入式为代表的低功耗领網域,但有意思的事情来了,ARM 似乎就是为了这方面而生的。
最早的 ARM 处理器起源于 Acorn 代号为 Acorn RISC 的项目,由两位来自剑桥大学的才华横溢的计算机科学家 Sophie Wilson 和 Steve Furber 在资源极度有限的情况下为设计了一款 Acorn 自己的 32 位微处理器。
ARM1 的结构非常简单,基于 808 行 Basic 语言创建,仅有个 25,000 晶体管,甚至没有乘法部件,引用 Sophie 在一次电报采访中的话:" 我们通过事先非常非常仔细地思考事情来实现这一点 ",尽管在当时并没有引起太大反响,但却在英国保留了一枚处理器的火种。
不过与当时最火的 386 处理器不同的是,ARM 处理器一开始的设计理念是 low-cost, low-power 和 high- performance,这显然和移动市场不谋而合,尽管当时还未发展出真正意义上的移动市场。
几年后,苹果似乎看到了 ARM 的潜力,和 Acorn 以及 VLSI 共同出资创建了 ARM。苹果当时正在为代号为牛顿的项目寻找低功耗处理器,这一项目的终极目标是打造地球上第一个平板电腦。
只可惜,牛顿项目过于超前,打造出来的平板电腦和现在相比,性能过于弱小,很快就宣告了失败,但 ARM 并未从此一蹶不振,反而借由这一次失败,寻得了一片更广阔的天空。
1993 年至 1995 年,Cirrus Logic、德州仪器、诺基亚、夏普、三星和 NEC 等公司、先后加入 ARM 阵营,通过合作,ARM 发明了 16 位的 Thumb 指令集,也真正意义上创建了基于 ARM 的 SoC 商业模式,同时还迎来了公司成立以来最重要的一颗处理器内核—— ARM7。ARM7 使用的 Die 尺寸是 80486 的十六分之一,售价仅为 50 美金左右,较小的 Die 尺寸使得 ARM7 处理器获得了较低功耗,适合手持式应用。
为什么这么多公司,包括已经生产自己的芯片的大型电子公司,都想与 ARM 签约?部分原因是成本优势—— ARM 许可证并不昂贵,而且肯定比花数年时间雇佣数百名工程师从头开始设计新芯片要便宜,而另一部分原因是 Sophie Wilson 和 Steve Furber 创造的技术遗产。ARM 芯片制造速度快、简单,而且功耗低。
此外,ARM 还有另一张王牌:它不仅仅是一家芯片制造公司。当 ARM 与其他公司合作时,它就成为了合作伙伴,帮助设计可根据其他公司特定需求定制的解决方案,许多公司通过与 ARM 的合作,成功研发出了符合自身需求的处理器,进而取得了商业成功。
ARM 的低功耗与精简,以及实惠的授权费用,让它在英特尔处理器之外的空白站稳了脚跟。
不过,ARM 处理器真正迎来自己的成功,还要等到苹果之后的四款产品线:iPod、iPhone、iPad 和 ARM Mac。
其中最值得关注也是最有意思的,就是初代 iPhone 所搭载的 ARM 处理器。
乔布斯曾问过英特尔的 CEO 保罗 · 欧德宁是否有兴趣竞标,为苹果即将推出的手机制造芯片。当时,这家制造业巨头正因桌面 x86 CPU 的销售势头强劲,英特尔还拥有一个基于 ARM 的业务,即 1998 年从数字设备公司(DEC)收购的 XScale,因此,英特尔本来可以轻松满足苹果的需求。
但是欧德宁拒绝了这个提议。他计算出苹果愿意支付的每个 CPU 的最高价格低于英特尔的生产成本,而且他并不确定苹果的手机会有很高的销量。此外,他对支持 XScale 业务感到担忧,特别是在英特尔正在研发低功耗的 x86 版本 Atom 的情况下。于是,他决定加码 x86,并在 2006 年出售了 XScale 部门。
在英特尔拒绝这个合作机会后,苹果转向了三星,其同意为苹果即将推出的手机制造一款强大的新 ARM 芯片。它就是 S5L8900,这是一款 SoC(系统级芯片),采用 ARM11 核心,运行频率(降频)为 412 MHz,配备 128MB 内存,最高 16GB 存储空间,并集成了 PowerVR MBX Lite 3D 图形处理器。这款处理器让人想起了 1991 年的 ARM 250"Archimedes on a chip",但它并不是台式电腦,而是一部手机——一部革命性的手机。
也正是从这一年开始,ARM 凭借着自己低功耗的特性,迅速占领了手机市场,并在随后的 iPad 发布后,顺势占领平板电腦市场,而被英特尔寄予众望的 Atom 却不堪一击,市场份额很快就降至了冰点。
移动市场的失守已经是让英特尔备受煎熬了,苹果之后还在 PC 市场对英特尔和 x86 发起了进攻:2020 年 11 月,苹果正式发布 M1 芯片,同时宣布了搭载了该芯片的 MacBook,并宣布 Mac 在未来逐步放弃英特尔的 x86 平台,逐步转向苹果自研的 ARM 平台。
而 M1 芯片的最大优势,也是 ARM 从 80 年代延续至今的优势,就是低功耗。
低功耗并不意味着低性能,而在相同的性能下消耗更少的电量,或者在消耗相同电量的情况下,达成更高的性能。在苹果 2020 年展示的 PPT 当中,M1 的 CPU 功耗峰值约为 18W。而作为对比的 x86 芯片的峰值功耗则在 35-40W 范围内,而结论是 M1 在低核心频率下实现了更高性能:在峰值到峰值时,M1 的性能比 x86 产品提升了约 40%,同时功耗仅为其 40%。
英特尔在它的几十年发展历史中从未受到过如此沉重的打击。
破除 ARM 高效神话
相信很多人都有过这样的一个疑问:在同性能下,x86 一定比 ARM 功耗更高吗?
答案自然是否定的,没有天生低功耗的架构,ARM 现在的低功耗也是多年来持续导向和优化的结果,x86 并非没有低功耗的尝试,例如前文中提到过的 Atom,就是英特尔用来对标 ARM 低功耗的一条产品线。
多年来,在苹果和高通等公司不懈努力下,ARM 架构的高效被打造成了一个神话,乃至于许多消费者都形成了这样的固有印象,但英特尔决定自己来破除这个神话。
在今年 6 月的 Computex 前夕,英特尔在台北举办了 Intel 技术巡展(Intel Tech Tour),详细介绍了其即将推出的代号为 Lunar Lake 的移动处理器。新芯片旨在实现多种目标,从更高效能到设备上的人工智能。英特尔还特别提到,他们希望 " 打破 x86 无法像 ARM 一样高效的神话 "。
在活动中,英特尔并未回避关于 ARM 芯片的讨论,也没有试图忽视这个 " 房间里的大象 ",高通和苹果正在不断侵蚀原本属于英特尔和 x86 的市场份额,英特尔要怎么做才能挽回十几年以来的陈规陋见呢?
首先需要明确的是,x86 是一种极其强大的架构。x86 处理器基于复杂指令集计算(CISC)架构,包含更多复杂的指令,这些指令消耗更多功率。有些 x86 指令甚至需要多个周期来执行,这会增加功耗但降低效率。
由于拥有更复杂的指令,x86 还可能具有更复杂的流水线。例如,x86 使用的是可变长度的指令集,指令长度从 1 字节到 15 字节不等,而 ARM 的指令长度是固定的(尽管 Thumb 指令可以是可变的)。由于指令复杂性,分支预测在 x86 处理器中也显得尤为重要,因为这些指令通常会被转换成更简单的类似 RISC 的微操作。这些分支预测器非常先进,因为错误预测和随后的停滞成本可能比在 ARM 架构中的停滞成本大得多。
此外,ARM 每条指令所需的晶体管较少,这也是其功耗需求较低的原因之一。这些只是 ARM 实现高效性的一些方法,但两种架构之间还有大量的细微差异,使得 ARM 在效率上占据优势。然而,较少的每指令晶体管数也意味着复杂性降低,而这正是 x86 作为强大架构的闪光点,能够满足巨大的计算需求。
为了使 x86 能够像 ARM 一样高效,英特尔需要做大量工作。首先,从功耗角度来看,x86 的指令集本身就很 " 昂贵 ",因为在 x86 上指令的取指、解码和执行周期比 ARM 更复杂。将简单的指令组合成一个单独的微操作也有帮助,特别是在减少开销方面。
相比之下,ARM 的 RISC 架构是一个巨大的优势,尤其是每条指令在 ARM 中设计得更快更易执行。ARM 还采用固定长度的指令,使得解码更简单,而较低位的 Thumb 指令可以减小代码大小,减少所需的内存空间。Thumb 指令更小,意味着执行时需要的内存提取更少,并且更多的指令可以放入处理器的缓存中。
此外,ARM 芯片通常是更大系统级芯片(SoC)的一部分,而不是通过主機板与计算机其他部分接口的独立 CPU。ARM CPU 与内存控制器、GPU 和计算机硬體的其他关键部件的直接连接也可以带来效率提升。这正是苹果统一内存的运作方式,并且是其卓越电池续航能力的一个原因。
英特尔的实际做法也在相当程度上借鉴了苹果,让我们来看看英特尔 Lunar Lake 架构。
与去年的 Meteor Lake 架构的 Core Ultra 100 系列芯片类似,Lunar Lake 也是通过英特尔的 Foveros 技术将多颗小芯片封装在一起。在 Meteor Lake 中,Intel 使用 Foveros 技术组合了不同公司制造的多个硅芯片——英特尔制造了主 CPU 核心所在的计算单元,而台积电则负责图形、I/O 及其他功能模块的制造。
在 Lunar Lake 中,英特尔仍然使用 Foveros 技术,即通过一个 " 基础单元 " 作为插入层,使不同的芯片之间能够进行通信来连接整个芯片。但是这次 CPU、GPU 和 NPU 都被整合在同一个计算单元中,而 I/O 和其他功能则由平台控制单元(在之前的英特尔 CPU 中也称为 PCH,平台控制集线器)负责。另外还包括一个 " 填充单元 ",仅仅是为了让最终产品呈矩形。这次计算单元和平台控制单元都由台积电制造。
英特尔仍然将其 CPU 核心分为高效能的 E 核(Efficiency Core)和高性能的 P 核(Performance Core),但总体核心数量相较于上一代 Core Ultra 芯片以及更早的第 12 和第 13 代 Core 芯片有所减少。
Lunar Lake 拥有四个 E 核和四个 P 核,这种配置在 Apple 的 M 系列芯片中较常见,但在英特尔中并不多见。例如,Meteor Lake 的 Core Ultra 7 155H 包含六个 P 核和总计十个 E 核;Core i7-1255U 则包含两个 P 核和八个 E 核。Intel 还移除了 P 核的超线程(Hyperthreading)技术,腾出的硅片空间更适合用于提升单核性能。
英特尔还为 Lunar Lake 引入了一种新的 GPU 架构,代号为 Battlemage,它也将驱动未来的桌面 Arc 独立显卡,根据英特尔的说法,集成显卡 Arc 140V 在游戏中平均比旧的 Meteor Lake Arc GPU 快 31%,比 AMD 最新的 Radeon 890M 快 16%,具体性能会因游戏不同而有较大差异。而 Arc 130V 显卡少了一个英特尔的 Xe 核心(7 个,而不是 8 个),频率也更低。
计算模块的最后一部分是神经处理单元(NPU),它可以在本地处理一些 AI 和机器学习任务,英特尔表示,Lunar Lake 的 NPU 在不同型号的芯片中性能介于 40 到 48 TOPS 之间,满足或超过微软的 40 TOPS 要求,且整体性能约为 Meteor Lake NPU 的四倍(11.5 TOPS)。
当然,Lunar Lake 最重大的改变还是将内存集成在 CPU 封装中,而这一点恰恰就是苹果和高通正在做的。据介绍,Lunar Lake 芯片有 16GB 或 32GB 内存(根据已发布的型号,型号以 8 结尾的(例如 Core Ultra 7 258V)为 32GB,以 6 结尾的为 16GB),这种封装方式不仅节省了主機板空间,也因为数据的传输距离更短而减少了功耗。
在经过这一系列大刀阔斧的改革之后,Lunar Lake 最终实现了 x86 架构下比肩 ARM 架构的功耗:根据媒体此前的测试,在搭载了 258V 的华硕 Zenbook 上,PCMark 现代办公电池续航测试中可持续约 16.5 小时,而配置相似的 155H Zenbook 则仅持续了 12 小时出头,这一成绩和搭载 M3 的 MacBook 非常接近,是近几年来续航最好的 x86 架构笔记本之一。
英特尔确实做到了,它用 Lunar Lake 这柄大锤打破了苹果和 ARM 塑造的功耗神话。
壮士断腕?
但很可惜的是,英特尔在打破神话之后却选择了放弃,直接宣告未来的处理器不会使用 Lunar Lake 这样的封装内存,再度回归传统的处理器设计。
有意思的是,英特尔在 Lunar Lake 正式发售的半年前,就决定了后续的 Arrow Lake、Nova Lake、Raptor Lake、Twin Lake、Panther Lake 与 Wildcat Lake 等新产品,均不采用 Lunar Lake 的封装方式,也就是说 Lunar Lake 在英特尔内部判了死刑。
为什么口碑还不错的 Lunar Lake,英特尔自己却不看好呢?
分析师郭明錤提供了一种观点,他认为 Lunar Lake 的诞生有两个原因,首先是与苹果的竞争,MacBook 采用自研芯片后市占率提升,英特尔想要证明 x86 架构也能达到相似能效和续航;
第二个原因则是对微软 Surface 改用 ARM 处理器的回应,微软 2Q24 的新款 Surface 系列全面采用有 45 TOPS 算力的高通处理器,针对它推出竞品。
他表示,虽然英特尔称 Lunar Lake 因封装内存稀释毛利率而失败,但真正原因是品牌和代工厂商因采用零件弹性降低不利于利润因而采购意愿低、英特尔对 DRAM 供应商议价能力远低于苹果且需要依靠台积电代工因而不利于成本优化、AI PC 应用不成熟因而消费者不愿意为 Lunar Lake 买单。
他指出,从 Lunar Lake 失败可见,英特尔面临的挑战不仅是制程落后,更深层的问题在于产品规划能力(另一证明为 AMD 在伺服器的占有率持续提升),制程技术或许只是表象,导致一连串错误产品决策的组织机制可能才是英特尔的核心问题。
郭明錤的看法可能不是完全正确,但他确实指出了英特尔产品线的一个核心问题:混乱。
英特尔的伺服器芯片暂且不做讨论,面向消费市场的芯片已经乱成了一团乱麻,试想一下,倘若一个消费者对过往几年的英特尔处理器续航感到失望,但在 Lunar Lake 上却惊喜地获得了比肩 ARM MacBook 的续航,但当下一代推出时,这样优秀的续航表现却消失不见,消费者内心会作何想法呢?
话说回来,英特尔的 18A 制程即将量产,但对于它自己的处理器来说,却并不是什么好消息,这一制程目前有且只有英特尔自家会用,尚未敲定任何大客户,每一次制程更新都像是摸着石头过河,对比之下,台积电却有足够的客户来验证和改良自己的最新制程,愈发凸显英特尔的尴尬。
英特尔砍掉 Lunar Lake 的更深层原因,不仅仅是内存影响利润那么简单,对于如今的首席执行官基辛格来说,最头疼的就是如何做好处理器部门和代工部门之间的平衡,如果处理器部门未来持续选择台积电代工,那么代工部门处境就会更加艰难,但如果处理器部门迟迟得不到最先进的制程技术,那么不光是伺服器市场,连消费市场也会被竞争对手夺走。
归根结底,就是一个让谁吃苦的问题,很显然,谁都不想过几天苦日子。
但回想一下,苹果为了一块指甲盖大小的芯片的芯片,又吃了多少苦呢,从摩托罗拉 68K 到 PowerPC,再到英特尔,三度改换门庭,手机芯片也曾一度只能仰人鼻息,看三星的脸色行事,花了几年导入台积电,最终推出自研的 M1 芯片,其中的坎坷都可以写成一本血泪史了。
而英特尔如今要吃这一点苦,比起前几十年的顺风顺水,又算得了什么呢?