今天小编分享的科技经验:真的有人能在推理环节替代英伟达吗?,欢迎阅读。
在中文互联网上,英伟达每天都在被颠覆。绝大部分自媒体和短视频达人都讨厌英伟达,包括周鸿祎在内。他们千方百计地指出,某种替代品(不管是不是国产)的性能指标已经超过英伟达 A100 或 H100,后者即将沦为资本市场历史上最大的泡沫云云。尤其是在 B 站、小红书这样的平台," 英伟达将迅速被替代 " 可以被视为一致观点,反对这个观点的人将遭到群嘲。
其实,海外互联网同样如此。昨天还有 AI 行业的朋友给我分享了一份自称 " 性能大幅超过英伟达 " 的美国芯片厂商的自我介绍(是当笑话看的)。几个月前,芯片创业公司 Groq 发布了自称性能大幅超越英伟达的推理芯片,引发了一定的市场关注度。不同之处在于,海外网友稍微讲一点常识,知道英伟达在训练领網域的壁垒实在太高、牢不可破,所以他们主要从推理环节入手:可以针对大模型推理开发某种高度特化的 " 推理专用卡 ",在性能或性价比上超越英伟达,而且已经有人做到了。这些观点经常被翻译为中文,不过翻译者经常有意地把其中的海外芯片创业公司的名字偷换成 A 股上市公司(或某家非上市公司),从而达到不可告人的目的。
遗憾的是,至少在现在,以及可见的未来,英伟达在推理方面的壁垒仍然十分牢固。或许它在推理方面的壁垒不如训练方面那么高,但只要竞争对手攻不破,就没什么区别。对于绝大部分大模型开发商以及云计算厂商而言,AI 算力建设只能以英伟达为核心(买不到的情况除外),不论是训练还是推理算力。在展开分析这个问题前,让我们先简明回顾一下训练和推理的区别:
训练,就是指创造和更新 AI 模型(包括但不限于大语言模型)的过程。训练环节涉及海量的数据,耗时极长,对算力的并发性需求极高,往往要一次动用几千张到上万张规模的显卡集群。专门为训练做过优化的显卡俗称 " 大卡 ",其最典型的例子是英伟达 A100、H100 和 B100。
推理,就是利用现有大模型解决用户需求的过程。我们每向 ChatGPT 提一次问题,就启动了一次推理流程。单次推理处理的数据规模往往较小,因此对算力硬體的要求不如训练那么高。英伟达专门为推理做过优化的显卡俗称 " 中卡 ",例如 A20、L40;一些高端消费级显卡(俗称 " 小卡 "),例如 RTX3 和 4 系列,也可以用于推理。
英伟达的竞争对手,从 AMD 到英特尔,从 Groq 到华为,每天都在异口同声地陈述同一个观点:推理的门槛没有硬體那么高,英伟达赖以生存的 CUDA 軟體生态以及显卡互联技术在推理端的作用有限,所以在推理端替代英伟达完全可行。事实又是如何?关键要看企业客户,包括 OpenAI 这样的大模型开发商以及亚马逊、微软这样的云计算平台商怎么看——毕竟是它们的技术团队和采购人员做出了显卡采购的决定,而不是社交媒体网友。如果我们仔细分析一下主要科技企业今年以来的显卡采购决策,就会惊讶地发现,事实与英伟达的竞争对手所鼓吹的完全相反:
AMD 和英特尔的 "AI 加速卡 "(其实就是推理卡)卖得都不怎么样。其中,AMD 的旗舰产品 Instinct MI300 的单季度销售额不足 10 亿美元,2024 年全年的目标也仅仅是卖出 40 亿美元;英特尔的旗舰产品 Gaudi 3 就更惨了,2024 年全年的销售目标不足 10 亿美元。把这两家的 AI 硬體销售额加起来,恐怕都只有英伟达 " 中卡 " 销量的一个零头。在 2024 年一季度财报发布会上,苏妈承认 AMD 的推理卡目前不存在供给瓶颈,客户可以随时提货;隔壁的英伟达几乎所有产品线则都处于紧缺状态。换句话说,大部分客户宁可等上一两个季度,也宁可买英伟达而不是 AMD 的产品。
与此同时,在硅谷出现了一个新的趋势:尽可能多地采购 " 大卡 ",把推理和训练一起交给 " 大卡 " 去做。例如,OpenAI 将使用较新的 H200 承担 GPT-4o 的推理任务;苹果通过鸿海采购了数万张 H100,估计主要将用于推理工作;Meta 计划在 2024 年之内新增 35 万张 H100,其中很大一部分将用于推理;亚马逊采购的首批 3 万多张 GB200" 超级芯片 " 显然将同时用于训练和推理。这充分说明,所谓 " 英伟达在推理方面的护城河不深 " 的说法是何等荒谬!如果上述说法是真的,那么除非大厂钱多烧得慌,否则完全没有必要采购单价极高、供应非常紧张的英伟达 " 大卡 " 承担推理任务。当然,这些大厂也会采购一点点 AMD 或英特尔的产品作为补充,每次都会引发后两者的欢呼雀跃,恨不得让全世界都知道。
为什么硅谷大厂要花更多的钱去采购专为训练优化的 " 大卡 " 承担推理任务?这既是出于技术考虑,也是出于综合成本考虑。简而言之:
" 大卡 " 的显存更大、显存带宽更高,适合运行参数规模巨大的大模型。目前主流大模型的参数规模均已突破万亿,而消费者使用的一般是 " 蒸馏 " 过的、几十亿到几百亿参数的精简版模型。" 中卡 "" 小卡 " 足以运行这些精简版模型,但大型企业客户可能需要运行万亿规模参数的超级模型,那就非用 " 大卡 " 不可了。
" 大卡 " 的爆发性输出能力更高、延迟较低,适合执行高度时效性的推理任务,例如自动驾驶、国防军工、金融交易等场景。最近流行的 " 超长文本推理 ",对显存的要求较高," 大卡 " 处理起来也更得心应手。
在 AI 算力中心当中统一使用 " 大卡 ",有助于降低硬體复杂度,实现较高的算力弹性和通用性。像 OpenAI 这样的公司,一年之中有几个月处于训练期,在此期间可以把自家 " 大卡 " 全部用于训练以保证速度,租用外部算力满足推理需求;训练间歇期则可以少租外部算力,让自家 " 大卡 " 转而从事推理。
" 大卡 ",尤其是 B100/B200 这种新款产品,最先应用了英伟达的最新技术,从而有利于后续更新和再利用。哪怕几年之后技术突飞猛进,旧款 " 大卡 " 退下来还可以做别的工作,而旧款 " 中卡 "" 小卡 " 可能就没有价值了。
上述四条原因,前两条是技术上的,后两条则是成本和管理上的。就像我的一位从事 AI 技术工作多年的朋友所说:" 其实是经济性让大家投票选择了英伟达,这就是市场的力量。"由于上面是在英伟达自家的不同产品线之间做类比,我甚至都没有提到 CUDA 軟體生态——过去十八年,全球上百万开发者为 CUDA 积累了太多的开发工具和代码,AMD 的 ROCm 根本无法与之匹敌,英特尔就更是不值一提了。
现在假设有一种推理卡,不知道为什么竟能实现远高于英伟达的性能(可能是上帝显灵),而且竟能克服缺乏 CUDA 生态的麻烦(这次上帝得多受累一点),并且纸面价格显著低于英伟达(这一点极难做到),它也不一定能打败英伟达。客户首先要考虑通用性:专门为大语言模型推理 " 特化 " 的芯片,大概率无法拿来执行任何其他任务,从而带来了更高的机会成本。英伟达是 " 通用计算 GPU" 概念的提出者," 通用 " 概念就意味着灵活性和弹性。远的不说,最近几年我们就能看到许多鲜活的案例:
2021-2022 年,为了进一步训练内容推荐算法,以符合欧盟消费者隐私要求,以及支持新推出的 Reels 短视频功能,Meta(原名 Facebook)采购了大量英伟达 " 大卡 ";当然其中一部分也是为 " 元宇宙 " 研发准备的。Meta 还成为了 2022 年发布的 H100 显卡早期最重要的客户之一。ChatGPT 横空出世之后,Meta 立即将手头的算力资源投入生成式 AI 研发,迅速成为全球开源大模型领網域的第一平台。扎克伯格本人亦承认,生成式 AI 浪潮来的时机很巧,Meta 非常幸运——其实他更应该感谢英伟达显卡的通用性和普适性。
2019 年前后,中国的 " 云游戏 " 产业处于井喷阶段,资本市场对其有很高预期。包括阿里、腾讯和电信运营商在内的云计算大厂纷纷采购了大批英伟达 RTX 显卡(初期主要是 Turing 架构,后来亦有 Ampere 架构)组建刀片伺服器。虽然云游戏在国内没火起来,但是高端 RTX 显卡具备张量核心 ( Tensor Core ) ,从而拥有一定的推理能力。在美国芯片法案的阴影之下,国内厂商采购推理卡越来越困难,当年积累的 " 云游戏卡 " 扮演了雪中送炭的角色;尽管它们的推理效率肯定比不上 L40 等 " 中卡 ",但有总比没有好。
(附带说一句,为什么英伟达的消费级显卡也装备了 Tensor Core? 因为它对于光线追踪技术的实现扮演着不可或缺的角色,而光线追踪能够大幅提升游戏画面的感染力。显卡处理游戏内部光影效果的方式,与处理大模型数据的方式,在硬體和数学层面是互通的。人类如果没有强大的游戏产业,就很难建设强大的人工智能产业。)
我们不知道生成式 AI 产业的下一步走向是什么:Transformer 架构(现在所有大语言模型的基础)诞生至今才七年多,第一个百亿参数的大模型诞生至今才不到五年。就像许多学者指出的一样,生成式 AI 有可能并不是实现通用人工智能 ( AGI ) 的必由之路。但是无论如何,有一点是确定的:未来的世界需要大量算力,尤其是并行的、以多核 GPU 为基础的算力。当生成式 AI 浪潮突然降临之时,许多科技大厂都把自家的英伟达显卡从自动驾驶、推荐算法训练、图形渲染等任务迅速转移到了大模型相关任务;这进一步加深了它们对英伟达的信任和依赖。
此时此刻,全球科技巨头用于扩张算力的资本开支,普遍达到了每年几百亿美元的水平;坊间甚至传闻微软打算在一年之内耗资 1000 亿美元建设新的数据中心。花了这么多的钱,它们肯定不希望自己买到的算力仅能用于非常狭窄的领網域,不管其纸面性能好坏、价格高低。所以那些高度特化的推理卡,注定只能在巨头的算力军备竞赛当中扮演次要角色;AMD 能扮演的角色可以更重要一点,但离英伟达这个主角还是差得很远。
就在本文撰写的过程中,我的另一位从事 AI 行业多年的朋友告诉我:" 我们最近开始采购另一家公司的显示芯片了。它的硬體规格是合格的,但是軟體适配是大问题,需要踩很多的坑。英伟达的 CUDA 开发团队应该比硬體设计团队的规模要大得多,它的发布会上几乎全是軟體生态工具,例如 GPU 虚拟化、一键部署。缺少了英伟达的軟體生态,我们就要自己雇人去实现这些能力。生态就是成本!没有生态就要产生额外的开发成本。" 当然,鉴于国内现在越来越难买到英伟达的数据中心级显卡,厂商只能硬着头皮承担成本;在有选择的情况下,它们几乎不会有动力这样做。
至于五年、十年乃至二十年后呢?那就是另一个问题了。通用计算 GPU 这个概念诞生至今也只有十八年,NVLink 技术也只有十年历史。在长期,一切都是可以改变的,但是一切改变只能来自勤奋耕耘和咬定青山不放松的精神。请记住,2013 年,当黄仁勋操着半生不熟的普通话在北京国家会议中心的舞台上说 " 请给我一个机会介绍英伟达 " 的时候,他已经到处推销自己的通用计算理念长达七年了;而他还要再等待整整九年,才能看到一切开花结果。当时嘲笑他的人,和现在认为可以轻易替代他的人,很可能是同一批人。