Meta、OpenAI为何扎堆AI芯片？揭秘大模型背后的算力战争

今天小编分享的科技经验：Meta、OpenAI为何扎堆AI芯片？揭秘大模型背后的算力战争，欢迎阅读。

相比智能水平提升，成本下降或许更加重要

上周，AI 行业发生了两件大事。

1 月 19 日，Meta 首席执行官扎克伯格宣布，Meta 内部正在训练下一代模型 Llama 3。截至今年年底，Meta 将会有近 35 万块 H100 搭建的基础设施。1 月 21 日，有媒体爆出消息，OpenAI CEO 奥特曼正在筹集数十亿美元，建立一个全球性的 AI 芯片工厂网络。

这两件事其实都和一个东西有关——算力。

在生成式 AI 快速爆发的时代，算力短缺是运行 AI 模型面临的主要困难，GPT-4、Gemini、Llama 2 和其他模型严重依赖 H100 GPU，但 H100 产能却严重受限。即使像微软、Meta 这样大型科技公司，也需要提前数年预定产能，才能获得足够的新型芯片，更不用说 OpenAI 了。

AI 产业算力短缺的根源在于，在摩尔定律主导下，性能每 18-24 个月翻一番的芯片，难以满足大模型参数规模的指数级增长。用 OpenAI 的话说，每年训练 AI 模型所需算力增长幅度高达 10 倍。这是瓶颈，也是机会。在新兴技术的故事里，成本才是影响大模型落地。

换言之，这场以大模型为名的千亿美金级豪赌实验，最终能否将世界带到新的摩尔时代，并不仅仅是看智能水平能提升到什么程度，更取决于模型发展会不会出现类似于摩尔定律的规律。

01 AI 芯片，算力计算的 " 高地 "

上周，Meta 首席执行官扎克伯格宣布，到 2024 年底 Meta 将拥有 35 万块 H100，拥有近 60 万个 GPU 等效算力。

35 万块 H100，是个什么概念呢？众所周知，训练大模型往往是最花费算力的阶段。OpenAI 训练 GPT-4，用了大约 25000 块 A100 GPU。作为 A100 的更新版，据 Lambda 测算， H100 的训练吞吐量为 A100 的 160%。也就是说，届时 Meta 拥有的算力是训练 GPT-4 所用算力的 20 倍以上。

买这么多算力，扎克伯格自然也花了大价钱。目前，一块英伟达 H100 售价为 2.5 万至 3 万美元，按 3 万美元计算，意味着小扎的公司仅购买算力就需要支付约 105 亿美元，更不用说电费了。

而这些算力很大部分将用于训练 "Llama 3" 大模型。扎克伯格表示，Meta 将负责任地、安全地训练未来模型的路线图。

在打算力主意的不止是小扎，还有 OpenAI 的奥特曼。同样是上周爆出的消息，OpenAI CEO 奥特曼正在筹集数十亿美元，建立一个全球性的 AI 芯片工厂网络。

目前，他正在和多家潜在的大型投资者进行谈判，包括总部设在阿布扎比的 G42 和软银集团。根据美国媒体的报道，仅在 OpenAI 与 G42 的谈判中，涉及金额就接近 80 亿到 100 亿美元。

不过与小扎准备打富裕仗不同，奥特曼亲自下场制造 AI 芯片，更多是一种无奈。据外媒报道，这一事件背后的原因很可能就是，OpenAI 已经无「芯」训练「GPT-5」了。

此前，奥特曼表示，OpenAI 已经严重受到 GPU 限制，不得不推迟了众多短期计划（微调、专用容量、32k 上下文視窗、多模态），甚至还一度影响到了 API 的可靠性和速度。

除了自己造芯外，OpenAI 也在尝试通过其他方式来获得更低成本的算力。去年，就有媒体爆出，OpenAI 从一家名为 Rain AI 的初创公司提前订购价值 5100 万美元的 " 神经形态 " 类腦人工智能芯片，于 2024 年 10 月开始供货。

当然，有自己下场造芯的可不止 OpenAI 一家，甚至进度快的微软、谷歌已经将自研芯片用到大模型上了。

比如，Microsoft Azure Maia 是一款 AI 加速器芯片，可发挥类似英伟达 GPU 的功能，用于 OpenAI 模型等 AI 工作负载运行云端训练和推理。而谷歌最新的 AI 芯片 TPUv5e 在训练、推理参数少于 2000 亿的大模型时，成本也低于英伟达的 A100 或 H100。

为什么所有大家都在绞尽腦汁搞算力，现在算力又发展到了什么程度呢？

02 英伟达，AI 芯片的 " 王 "

按照算力基础设施构成来看，包括 AI 芯片及伺服器、交换机及光模块、IDC 机房及上游产业链等。其中，AI 芯片是其中的 " 大头 "，能够占到伺服器成本的 55-75%。

从定义上说，能运行 AI 算法的芯片都叫 AI 芯片。按技术架构，可分为 CPU、GPU、FPGA、ASIC 及类腦芯片。虽然都叫 AI 芯片，但在擅长事情和应用场景上有很大的差异。

就拿我们最熟悉的 CPU 和 GPU 来说，GPU 更像是一大群工厂流水线上的工人，适合做大量的简单运算，很复杂的搞不了，但是简单的事情做得非常快，比 CPU 要快得多。而 CPU 更像是技术专家，可以做复杂的运算，比如逻辑运算、响应用户请求、网络通信等。

看上去好像 CPU 比 GPU 更牛逼，但你不妨换个角度想，即使教授再神通广大，也不能一秒钟内计算出 500 次加减法，因此对简单重复的计算来说，单单一个教授敌不过数量众多的小学生。这就是为什么 GPU 被大量用户 AI 大模型训练的原因。

在一个大模型构建和迭代过程中，需要经过大量的训练计算工作。通常来说，训练一次是几乎不可能训练成功的，存在着大量的失败和反复，此外为保证模型迭代的更快，也需要进行大量的并行训练。即便打造出第一版大模型，后续模型的持续迭代的成本无法避免。

根据此前披露的消息，GPT-4 的 FLOPS 约为 2.15e25，并利用约 25000 个 A100 GPU 进行了 90 到 100 天的训练，如果 OpenAI 的云计算成本按每 A100 小时约 1 美元计算，那么在这样的条件下，训练一次 GPT-4 的成本约为 6300 万美元。

但就是这样一个支撑 AI 发展最重要的硬體领網域，却被一家公司牢牢掌握着话语权，那就是英伟达。

用两组数据可以侧面证明英伟达在 GPU 领網域的统治力：根据 Liftr Insights 数据，2022 年数据中心 AI 加速市场中，英伟达份额达 82%。根据不久前的数据，2023 年人工智能研究论文中使用的英伟达芯片比所有替代芯片的总和多 19 倍。

毫无疑问，英伟达是去年以来 AI 浪潮的最大赢家。2022 年 10 月到现在，英伟达的股价从 110 美元左右上涨到近 600 美元，涨了 500%。FactSet 数据显示，此前 20 个季度，英伟达有 19 个季度的业绩都优于市场预期。

2022 年底，英伟达发布了最新的 GPU 产品—— H100。相比 A100，它的效率高达 3 倍，但成本只有（1.5-2 倍）。更重要的问题是，受限于产能紧张，H100 仍然供不应求。根据外媒报道，英伟达将在 2024 年，把 H100 的产量从去年的 50 万张左右直接提高到 150-200 万张。

英伟达的成功也说明了一件事情：在大模型军备竞赛里，最后挖矿的谁能赢不知道，但买铲子的一定赚钱，且短期内有高议价权。

03 摩尔定律，跟不上大模型进化速度

既然 AI 芯片这么重要，那为什么还会如此短缺？归根到底，AI 芯片的性能提升仍然受限于摩尔定律，远远赶不上大模型参数的规模增长。

一些重点研究实验室报告称，公众对大语言模型的使用率达到了惊人高度。

2021 年 3 月，OpenAI 宣布其 GPT-3 语言模型被 " 超过 300 个应用程式使用，平均每天能够生成 45 亿个词 "，也就是说仅单个模型每分钟就能生成 310 万词的新内容。

在这种情况下，AI 模型对算力需求的增长是惊人的。据 OpenAI 测算，自 2012 年以来，人工智能模型训练算力需求每 3~4 个月就翻一番，每年训练 AI 模型所需算力增长幅度高达 10 倍。

相比之下，GPU 更迭效率仍然延续着摩尔定律。根据摩尔定律，芯片计算性能大约每 18-24 个月翻一番。从目前看，尽管 H100 相比 A100 性能有明显提升，但并没有像模型训练算力需求那样有明显数量级的增长。

在这种情况下，想要追求算力的增长，只能做更大规模的分布式训练。简单来说，就是用更多数量的机器，来满足训练所需的算力。这个方法的瓶颈在于，受网络传输的限制。目前，网络传输最大是 800G，这意味着分布式训练的规模也不会无限制增长。

从种种迹象来看，巨型模型时代正在接近尾声。抛开缺少更多高质量训练数据的原因，算力硬體迭代速度和日益高涨的训练成本也是一个重要原因。根据拾象 CEO 李广密判断，未来几年 OpenAI 仅训练模型⾄少还得 200-300 亿美元，Google200-300 亿美元，Anthropic100-200 亿美元，算下来未来几年至少投入 1000 亿美元纯粹用到训练⼤模型。

在硬體提升有限的情况下，提高效率将成为很多大模型企业的选择。据谷歌 PaLM 的论文，在训练阶段，缺乏优化经验或堆叠过多芯片，效率可能低至 20%，目前谷歌与 OpenAI 都能达到 50% 左右。前述机构推测目前推理阶段的效率只有 25% 左右，提升空间巨大。

在很多人看来，大模型更像一场千亿美金级豪赌实验，有机会将人类带入新的摩尔时代。在这个过程中，除了智能水平的提升，大模型训练、推理的成本下降会不会出现类似于摩尔定律的趋势，也是一个重要的观察维度。

从过去看，一个新技术能不能真正走向大规模落地，往往不取决于技术有多强，而是成本有多低。参考移动互联网应用大规模爆发，起于从 3G 到 4G 的所带来的流量成本大幅下降。从目前看，这样的故事大概率也将在人工智能领網域发生。