今天小编分享的财经经验:“反英伟达联盟”背后,是AI的第三场战争,欢迎阅读。
文|锦缎
人类社会正在悄然从互联网时代切换到算力网时代。
鲜有人感知到的是,时代转折序曲中,遇到的第一批实体障碍,除了 GPU、HBM,还有交换机——此前市场鲜有关注的交换机,正在扼住 AI 算力的咽喉。
全面出击的英伟达 VS 蓄势反击的联盟,是 GPU、HBM 之后 AI 的第三场战争:一场科技史上围绕交换机的精彩对决即将上演。
思科后遗症
如果用人体结构来类比 AI 算力,可以做如下理解:AI 芯片(由 GPU+HBM+CoWoS 组成)是心脏,CUDA 等加速軟體是大腦,光模块是关节,线缆光纤是血管,以交换机为代表的网络设备是咽喉。不同的设备合集,最终呈现的是整个伺服器集群。
其中 AI 芯片、CUDA、光模块、线缆,都已经被翻来覆去的讨论过无数回,成为阳谋。但令人诧异的是,为什么交换机作为核心的组网设备之一,却一直备受冷落,只能充当 AI 暗器。
根据定义,交换机(Switch),工作于 OSI 网络模型中的数据链路层,智能地决定将数据帧从哪个端口转发出去,从而实现网络中的数据交换和流量管理。因此,交换机的核心作用是提高网络的性能和效率,并支持网络的扩展和管理。通俗理解,交换机就是 " 网络效应 " 的硬體载体。
而且从市场规模来看,交换机也相当之重要。根据 IDC《2023 年网络市场跟踪报告》的最新数据,2023 年全球网络设备市场规模为 714 亿美元,其中交换机超过 400 亿美元,是仅次于 AI 芯片、伺服器的核心算力组件,规模甚至要远大于近期被火热讨论的光模块和高速存储 HBM。
黄教主其实在公开场合也表达过交换机的核心地位。老黄曾透露,在 AI 整个集群投资中,InfiniBand 网络(以下均简称 IB)约占总成本的 20%。这里简单科普一下,IB 网络是英伟达在子公司 Mellanox 的帮助下,自己搭建的用在伺服器之间的算力通信网络,其中所使用的核心交换机为自产的 IB 交换机。
既然从技术角度来看如此重要、从市场规模看也不小,怎么交换机就始终不被大家重视呢?
笔者认为,最主要的原因在于交换机被成见式的认为是网络架构中配角的存在,毕竟 HBM、CoWoS 这些新名词一听就是十倍空间起跳的宏大故事。而一提交换机,大家条件反射式的想到:这不就是 2000 年互联网泡沫时的思科的产品么,还能炒吗?
20 多年前思科作为全球网络设备的绝对龙头,与现如今的英伟达享受的是一样的地位。在 2000 年,思科的网络交换机市场份额超过 6 成,路由器份额超过 8 成,可以说没有思科的网络设备,就不会有后来的互联网蓬勃发展,当年思科被誉为互联网卖铲人。
后来的故事大家想必每个人都知道了,随着互联网泡沫的破灭,思科的股价遭受了重创,从高点下跌了超过 70%。公司后来用了 20 年,才勉强填平当年估值带来的狂热泡沫。科技行业天然 " 喜新厌旧 ",交换机这个老面孔自然被绕着走,何况当年被深套的恐惧还深深刻在每个投资人的反射弧里。
但成见已经是过去式,当下时点,势必要重新审视对交换机、尤其是 AI 交换机的理解了。原因无他,各方面的信号已经非常明显,随便举出两例:
图:高速交换机龙头 Arista 股价开始加速上涨
第三堵墙
今天再度重新认识交换机必要性,就缘自交换产品的本身发生了重大变化,而且交换机在网络中的重要性也在明显提升,甚至已经成为 AI 基础设施中的三堵高墙之一。
1、AI 催生算力网革命
似乎网络架构已经停滞很久了。如果深究网络架构的变迁史,不难发现 OSI 网络模型上一次大的变革,还要追溯到十多年前云计算爆发时期的 " 网随云动 "。在停滞十多年后,我们观察到,AI 将催生互联网络设备的最新革命,将促使网络架构从互联网时代切换到算力网时代。
算力网该如何理解?首先说以前互联网中网络设备的核心任务,是完成即时通信,所以交换机本质上是一个通信设备;而现在 AI 算力中心中网络设备的构建逻辑,在于集中力量办大事,即集合越来越强大的算力,交换机不再仅仅是通信设备,而变成了算力设备本身。
想必有很多人在这儿会持反对态度。不用着急,请继续看后面的解释。
众所周知,这一轮 AI 能够成功是大力出奇迹的工程学突破,背后的指导法则是 "scaling law",scaling law 描述的模型性能与模型规模之间的幂律关系,这一法则表明,当模型的规模(例如参数数量、数据集大小和计算资源)增加时,模型的性能将得到提高。
换句话说,为了得到 AI 大模型智能的涌现,scaling law 告诉你要不停的堆算力和数据。这也是为什么,在 2024 年 3 月初,黄仁勋斯坦福大学演讲时提到,在未来的 10 年里,英伟达会把深度学习的计算能力再提高 100 万倍。这并不是泡沫时期的大放卫星,而是 AI 智能涌现的必要条件。
算力要实现如此恐怖的提升幅度来满足 scaling law,从硬體的角度来分析,路上有三堵墙:
1)算力墙:核心围绕 GPU,也是大家在 AI 算力硬體中关注度最高的产品。破除算力墙最关键的技术手段是制程和芯片架构的更新。但制程带来的单芯片算力提升面对着黑洞般的 AI 需求,已显得苍白无力。毕竟现在的苹果最新的 3nm 的 A17 芯片,更新的效果已经微乎其微。实际上,英伟达的 GPU,采用的只是 4nm 制程,甚至下一代产品 B100,也不会更新到 3nm。每一代际算力倍增可能已经是单芯片算力提升的极限了。
2)存储墙:核心围绕 HBM。单芯片算力跟不上,可以靠 HBM 来大大缓解,在《AI 国力战争:GPU 是明线,HBM 是暗线》一文中有详细讨论,可以移步于此。HBM 反倒成为一个飞速进步的环节,海力士和美光最近股价飙升便是市场开始认知到这一方向的重要性。
3)通信墙:算力和 HBM 结合在一起解决单卡的问题,但单卡再强也远远跟不上下游的算力需求。进一步的解决方法是堆料,抛开复杂的技术名词,其实原理就是简单粗暴的大力出奇迹,把尽量多的优质的算力卡连起来组成算力集群,这与猎鹰火箭装 27 台发动机本质上是一个道理,其中的关键技术就在于数据中心的组网技术,因此,交换机的地位今时不同往日。
从最新的英伟达 GB200 计算集群网络架构中,我们能够非常清晰的看到多处堆料组网的技术:1)GPU 卡与 GPU 卡之间,基于 NVLink 協定的卡间互联,这部分配套的 switch 芯片,由于被英伟达垄断,没有太多产业链探讨的意义,因此不再展开。2)再往上一层,就是 IB 交换机,它连接起多个 GPU 卡群,构成一个完整的机柜 Rack。3)多个机柜再通过交换机互联,形成强力的 AI 算力中心。后面两个环节,都离不开 AI 交换机的支持。
这种架构就能非常清晰的看到,为了突破通信墙打造强大的算力基座,交换机不仅仅是充当算力网络中的通信设备,而自身也变成算力设备的本身。正是这一产业链环节定义的变化,给了整个交换机产业链拔估值的基础。
在这一轮算力网革命中,交换机正式与 GPU、HBM、先进封装、光模块一道,站到了产业链的 C 位。
2、初听不识曲中意,再听已是曲中人
其实,产业链的这一变化不是 2024 年英伟达通过 GB200 才向全世界摊牌的,最早的信号发端于 5 年前。
2019 年,英伟达豪掷 69 亿美元,击败英特尔和微软收购了彼时绝大部分都还比较陌生的 Mellanox。笔者当年也是不理解一个芯片厂玩什么交换机,只是觉得这对于财大气粗的英伟达来说,算一个不大不小的收购,自然也是没有仔细分析产业链上的协同效应。
但随着 AI 算力爆发,Mellanox 的重要性飙升,成为英伟达 IB 交换机、Spectrum-X 以太网交换的御用供应商,占据了 AI 网络设备中的最高份额。毫不夸张的说,现在 Arista 市值接近 1000 亿美元,Mellanox 可以轻松给到 3000 亿美元,较当年看似极其溢价的 69 亿美元升值 43 倍,远超这 5 年英伟达的市值上涨幅度。
老黄当时就对这笔收购非常得意,曾说这是两家全球领先高性能计算公司的结合,早在 5 年前就已经把 Mellanox 放在与英伟达同等重要的位置上,回头来看不得不感叹老黄的眼光确实毒辣。
Mellanox,凭什么能跟英伟达平起平坐?Mellanox 提供的主要产品是数据中心内的通信互联解决方案,而其中最为核心的又是基于 IB 協定开发的一些列网络设备产品,这儿有必要展开说一下 IB 協定。
1999 年,北美计算机巨头们牵头组织 IB 联盟,目的是为了取代 PCIe 总线協定,成为智能设备之间互联的新的協定标准,IB 内嵌了 RDMA(Remote Direct Memory Access)功能,能将伺服器间内存、GPU 内存直连;比如在 AI 的 GPU 集群中,RDMA 技术能加速卡之间的互動,大大节省时延。
但 IB 后来声音日渐变小,而智能设备之间的互联,仍然是由性价比更高的 PCIe 協定牢牢占据了核心位置。这是由于 IB 協定需要专门的网卡和交换机来支持,导致了居高不下的硬體成本,因此在跟以太网的方案中竞争中败下阵来。头等舱是好,但没有几个人坐得起。
后来连 IB 首发者英特尔都选择了退出,最终只有 Mellanox 苦苦的在这条 " 错误 " 的路线上坚持。Mellanox 公司成立后不久,便加入了 IB 联盟并推出相关产品,到 2015 年,Mellanox 在全球 IB 市场上的占有率达到 80%,虽然领先但在这一小众市场不被人注意。2019 年被英伟达收入囊中,而这之后,IB 基本从一个公开協定变成了英伟达的私有協定,更不为人关注了。
直到 2023 年这个算力为王的时代,IB 協定才一飞冲天被广为人知。AI 大模型的横空出世,算力的缺口一下子被放大到无限大,而作为并行计算中关键加速器的 IB 協定,成了最优解决方案,这一協定的硬體载体,正是 IB 交换机。
在英伟达及旗下 Mellanox 的强势带领下,市场纷纷上调高速交换机的出货量,IDC 预计 2023-2024 年,市场高速交换机增速分别为 54% 和 60%,2024 年甚至还呈现加速的迹象。由于 Mellanox 是英伟达的子公司没法直接投资,美股投资人转而追捧最纯正的交换机标的 Arsita,毕竟它虽然不如 Mellanox 优秀,但也是各大云厂商高速交换机的最大供应商。
以点带面,通过高速交换机这个纽带,我们不难发现,信息革命已经从互联网进入到算力网的时代。如果在今年,你还只在聊互联网,显然已经被时代甩下了车;同样,如果聊算力还只在聊 GPU,显然三大重点你只抓住了一个。
" 失意者联盟 "
1、英伟达 +mellanox 在干什么:意欲吃干抹净
从交换机的产品谱系图,我们更能读懂英伟达的布局。这张图其实信息含量极大,建议反复观看。
首先说,英伟达的野心很大,它从来都不是只想做一个卖卡的芯片公司,而是想做 AI 时代的算力方案解决商。或者说英伟达商业模式的变化:从来不只是想卖铲子,是卖给你整个矿山,别再用 " 卖铲人 " 来形容英伟达了。
英伟达 2021-2025 年的产品路线图,昭昭然的将这个野心公示全球。其得標粗的是其核心的 GPU 产品,从 A100 迭代到 H100,然后再到今年的 B100,再到 2025 年的 X100,路线非常清晰,也是 AI 产业链关注的焦点。
但经常被忽略的是图表的下半部分,英伟达同时标注出了配套的交换机型号变化,分为两个 IB 和以太网两个系列方向:
所以,在老黄的构想里,如果一个超算中心是专门为 AI 建的,那就用最快的 IB 交换机方案;对于存量的以太网算力中心,如果客户扭扭捏捏,英伟达也能匹配提供以太网方案,就用 Spectrum-X 交换机。简单来说,就是面向现在和未来的生意英伟达给你包圆了。
从图中也能看到,英伟达不仅仅只是想同时卖芯片和交换机,它的野心远超于此。
如果客户同时选购了英伟达的芯片、交换机,就离采购英伟达 AI 算力集群方案不远了(图表的上半部分)。在整体方案中,英伟达给下游客户推自有 GPU+ 自有网络设备 + 自有 CUDA 搭建的整个 AI 算力集群。这就是 AI 工厂的模式,价值量将是只卖 GPU 卡的数倍以上。
更为重要的是,如果整个图实现,这一轮的 AI 大潮将被英伟达实现新版的软硬體解构,軟體企业如云厂商负责疯狂氪金和试错商业模式,硬體企业英伟达负责建 AI 全算力和旱涝保收。
有必要提的一句题外话是,这张图也能看出英伟达并不准备染指 HBM 和先进制程,台积电和海力士目前来看还是非常安全的。
图:英伟达产品路线图
2、英伟达恐惧症:反击者联盟
别看各大厂的老板,求着老黄买卡是对英伟达态度非常好;但实际上,对英伟达恐惧在硅谷正与日俱增,大佬们都在牌桌底下热议如何摆脱。面对英伟达如此凌厉的明牌攻势,此前一盘散沙的非英伟达阵营也展示出了空前的团结。
GPU 芯片和 CUDA 网络,似乎壁垒过高,尽管比如谷歌已经死磕 TPU 多年,但收效甚微,更多人是选择了躺平接受了英伟达在 GPU 上垄断的现实,所以英伟达的 GPU 才能毛利率高达 90% 以上,堪称有史以来最暴力的硬體。
而交换協定和交换机,由于技术壁垒相对低,且处于产业变革的早期,成为众人攻破英伟达堡垒最优的一致选择。
至此,交换机这一长久以来不被重视的网络设备,一下子跃升为 AI 算力基础中的暗战高地。为了追赶英伟达 IB 方案,2023 年 7 月," 超以太网联盟 "(Ultra Ethernet Consortium)正式成立,这一联盟迅速成为各个大厂的救命稻草。英特尔、微软、Meta、博通、AMD、思科、Arista、Eviden、HP 等陆续加入。
超以太联盟成立后,便马上推出了 RoCEv2(RDMA over Converged Ethernet)方案,在軟體层吸收了前文提到的关键技术 RDMA,剑指的方向非常明确,那就是力争对标 IB 性能。
以太网的后发优势目前看有两个:
在超以太联盟中的 GPU 全球老二 AMD,把这两点说得更加清晰:以太网将成为 AMD 构建算力集群的基础協定,因为以太网拥有更好的性能、更强大的大规模集群能力,以及最为核心的开放性,希望与头部交换机厂商一起,降低组网成本,打造更具性价比的网络。
也正是基于这两点原因,不少人对于超以太网联盟还是很有信心的。到底是以太网胜出,还是 IB 一统天下,最终答案只能留给时间来验证。但不管怎么样,英伟达与超以太联盟的这轮对垒应该是非常精彩的,必将成为科技史上日后被人反复提及的经典桥段。
但笔者倾向于认为超以太网的胜算还是被高估了。因为 Scaling Law 的指导之下,AI 算力网络比拼是速度不是价格,人多如果不是最优方案,那可能也只是乌合之众。这就像自行车肯定是更经济的出行方式、骑的人也多,但是没有人会用它来上高速,留给以太网联盟的时间其实不多。
3、国产还落后以太网联盟半个身位
本来行文至此就可以收笔了,但估计还有不少人关注国产算力网络中交换机的进展,在此再赘述一二。
在互联网时代的算力基础设施投资中,得益于运营商的超前投资,我国的基础网络速度、渗透率在全球都处于领先地位,这也在后面直接催生了中国的移动互联网繁荣,中国的互联网公司,也因此具备全球竞争力。
不少人认为,我们在 AI 时代,也可以依葫芦画瓢,上演后来者居上的戏码。
但不得不直面的遗憾现实是,而在算力网络时代,我们的算力基础设施处于全面落后状态。我们不仅仅在 GPU、HBM、先进封装方面有不少课要补,代表着算力集群能力的交换机我们也并没有什么优势可言。一方面我们并没有 IB 交换机,只能做以太网交换机,而且以太网交换机的代际更迭上也落后于海外 1 代,也就是落后超以太网联盟半个身位。
好在和其他网络设备一样,中国在交换机上其实一直具备很强的竞争力,这还要得益于华为 20 多年前的努力,以及孵化了后来的新华三。时至今日,国内的 AI 算力网络中的交换机仍然沿袭了骨干网和数据中心网络中的格局,新华三和华为依旧是主要的玩家。
种一棵树最好的时间是十年前,其次是现在。虽然在 AI 交换机上我们落后了不少,但依靠历史积累和集体的力量,如果从现在开始追赶,这一场对弈,我们未必不能上桌。