今天小编分享的科技经验:Meta、OpenAI为何扎堆AI芯片?揭秘大模型背后的算力战争,欢迎阅读。
相比智能水平提升,成本下降或许更加重要
上周,AI 行业发生了两件大事。
1 月 19 日,Meta 首席执行官扎克伯格宣布,Meta 内部正在训练下一代模型 Llama 3。截至今年年底,Meta 将会有近 35 万块 H100 搭建的基础设施。1 月 21 日,有媒体爆出消息,OpenAI CEO 奥特曼正在筹集数十亿美元,建立一个全球性的 AI 芯片工厂网络。
这两件事其实都和一个东西有关——算力。
在生成式 AI 快速爆发的时代,算力短缺是运行 AI 模型面临的主要困难,GPT-4、Gemini、Llama 2 和其他模型严重依赖 H100 GPU,但 H100 产能却严重受限。即使像微软、Meta 这样大型科技公司,也需要提前数年预定产能,才能获得足够的新型芯片,更不用说 OpenAI 了。
AI 产业算力短缺的根源在于,在摩尔定律主导下,性能每 18-24 个月翻一番的芯片,难以满足大模型参数规模的指数级增长。用 OpenAI 的话说,每年训练 AI 模型所需算力增长幅度高达 10 倍。这是瓶颈,也是机会。在新兴技术的故事里,成本才是影响大模型落地。
换言之,这场以大模型为名的千亿美金级豪赌实验,最终能否将世界带到新的摩尔时代,并不仅仅是看智能水平能提升到什么程度,更取决于模型发展会不会出现类似于摩尔定律的规律。
01 AI 芯片,算力计算的 " 高地 "
上周,Meta 首席执行官扎克伯格宣布,到 2024 年底 Meta 将拥有 35 万块 H100,拥有近 60 万个 GPU 等效算力。
35 万块 H100,是个什么概念呢?众所周知,训练大模型往往是最花费算力的阶段。OpenAI 训练 GPT-4,用了大约 25000 块 A100 GPU。作为 A100 的更新版,据 Lambda 测算, H100 的训练吞吐量为 A100 的 160%。也就是说,届时 Meta 拥有的算力是训练 GPT-4 所用算力的 20 倍以上。
买这么多算力,扎克伯格自然也花了大价钱。目前,一块英伟达 H100 售价为 2.5 万至 3 万美元,按 3 万美元计算,意味着小扎的公司仅购买算力就需要支付约 105 亿美元,更不用说电费了。
而这些算力很大部分将用于训练 "Llama 3" 大模型。扎克伯格表示,Meta 将负责任地、安全地训练未来模型的路线图。
在打算力主意的不止是小扎,还有 OpenAI 的奥特曼。同样是上周爆出的消息,OpenAI CEO 奥特曼正在筹集数十亿美元,建立一个全球性的 AI 芯片工厂网络。
目前,他正在和多家潜在的大型投资者进行谈判,包括总部设在阿布扎比的 G42 和软银集团。根据美国媒体的报道,仅在 OpenAI 与 G42 的谈判中,涉及金额就接近 80 亿到 100 亿美元。
不过与小扎准备打富裕仗不同,奥特曼亲自下场制造 AI 芯片,更多是一种无奈。据外媒报道,这一事件背后的原因很可能就是,OpenAI 已经无「芯」训练「GPT-5」了。
此前,奥特曼表示,OpenAI 已经严重受到 GPU 限制,不得不推迟了众多短期计划(微调、专用容量、32k 上下文視窗、多模态),甚至还一度影响到了 API 的可靠性和速度。
除了自己造芯外,OpenAI 也在尝试通过其他方式来获得更低成本的算力。去年,就有媒体爆出,OpenAI 从一家名为 Rain AI 的初创公司提前订购价值 5100 万美元的 " 神经形态 " 类腦人工智能芯片,于 2024 年 10 月开始供货。
当然,有自己下场造芯的可不止 OpenAI 一家,甚至进度快的微软、谷歌已经将自研芯片用到大模型上了。
比如,Microsoft Azure Maia 是一款 AI 加速器芯片,可发挥类似英伟达 GPU 的功能,用于 OpenAI 模型等 AI 工作负载运行云端训练和推理。而谷歌最新的 AI 芯片 TPUv5e 在训练、推理参数少于 2000 亿的大模型时,成本也低于英伟达的 A100 或 H100。
为什么所有大家都在绞尽腦汁搞算力,现在算力又发展到了什么程度呢?
02 英伟达,AI 芯片的 " 王 "
按照算力基础设施构成来看,包括 AI 芯片及伺服器、交换机及光模块、IDC 机房及上游产业链等。其中,AI 芯片是其中的 " 大头 ",能够占到伺服器成本的 55-75%。
从定义上说,能运行 AI 算法的芯片都叫 AI 芯片。按技术架构,可分为 CPU、GPU、FPGA、ASIC 及类腦芯片。虽然都叫 AI 芯片,但在擅长事情和应用场景上有很大的差异。
就拿我们最熟悉的 CPU 和 GPU 来说,GPU 更像是一大群工厂流水线上的工人,适合做大量的简单运算,很复杂的搞不了,但是简单的事情做得非常快,比 CPU 要快得多。而 CPU 更像是技术专家,可以做复杂的运算,比如逻辑运算、响应用户请求、网络通信等。
看上去好像 CPU 比 GPU 更牛逼,但你不妨换个角度想,即使教授再神通广大,也不能一秒钟内计算出 500 次加减法,因此对简单重复的计算来说,单单一个教授敌不过数量众多的小学生。这就是为什么 GPU 被大量用户 AI 大模型训练的原因。
在一个大模型构建和迭代过程中,需要经过大量的训练计算工作。通常来说,训练一次是几乎不可能训练成功的,存在着大量的失败和反复,此外为保证模型迭代的更快,也需要进行大量的并行训练。即便打造出第一版大模型,后续模型的持续迭代的成本无法避免。
根据此前披露的消息,GPT-4 的 FLOPS 约为 2.15e25,并利用约 25000 个 A100 GPU 进行了 90 到 100 天的训练,如果 OpenAI 的云计算成本按每 A100 小时约 1 美元计算,那么在这样的条件下,训练一次 GPT-4 的成本约为 6300 万美元。
但就是这样一个支撑 AI 发展最重要的硬體领網域,却被一家公司牢牢掌握着话语权,那就是英伟达。
用两组数据可以侧面证明英伟达在 GPU 领網域的统治力:根据 Liftr Insights 数据,2022 年数据中心 AI 加速市场中,英伟达份额达 82%。根据不久前的数据,2023 年人工智能研究论文中使用的英伟达芯片比所有替代芯片的总和多 19 倍。
毫无疑问,英伟达是去年以来 AI 浪潮的最大赢家。2022 年 10 月到现在,英伟达的股价从 110 美元左右上涨到近 600 美元,涨了 500%。FactSet 数据显示,此前 20 个季度,英伟达有 19 个季度的业绩都优于市场预期。
2022 年底,英伟达发布了最新的 GPU 产品—— H100。相比 A100,它的效率高达 3 倍,但成本只有(1.5-2 倍)。更重要的问题是,受限于产能紧张,H100 仍然供不应求。根据外媒报道,英伟达将在 2024 年,把 H100 的产量从去年的 50 万张左右直接提高到 150-200 万张。
英伟达的成功也说明了一件事情:在大模型军备竞赛里,最后挖矿的谁能赢不知道,但买铲子的一定赚钱,且短期内有高议价权。
03 摩尔定律,跟不上大模型进化速度
既然 AI 芯片这么重要,那为什么还会如此短缺?归根到底,AI 芯片的性能提升仍然受限于摩尔定律,远远赶不上大模型参数的规模增长。
一些重点研究实验室报告称,公众对大语言模型的使用率达到了惊人高度。
2021 年 3 月,OpenAI 宣布其 GPT-3 语言模型被 " 超过 300 个应用程式使用,平均每天能够生成 45 亿个词 ",也就是说仅单个模型每分钟就能生成 310 万词的新内容。
在这种情况下,AI 模型对算力需求的增长是惊人的。据 OpenAI 测算,自 2012 年以来,人工智能模型训练算力需求每 3~4 个月就翻一番,每年训练 AI 模型所需算力增长幅度高达 10 倍。
相比之下,GPU 更迭效率仍然延续着摩尔定律。根据摩尔定律,芯片计算性能大约每 18-24 个月翻一番。从目前看,尽管 H100 相比 A100 性能有明显提升,但并没有像模型训练算力需求那样有明显数量级的增长。
在这种情况下,想要追求算力的增长,只能做更大规模的分布式训练。简单来说,就是用更多数量的机器,来满足训练所需的算力。这个方法的瓶颈在于,受网络传输的限制。目前,网络传输最大是 800G,这意味着分布式训练的规模也不会无限制增长。
从种种迹象来看,巨型模型时代正在接近尾声。抛开缺少更多高质量训练数据的原因,算力硬體迭代速度和日益高涨的训练成本也是一个重要原因。根据拾象 CEO 李广密判断,未来几年 OpenAI 仅训练模型⾄少还得 200-300 亿美元,Google200-300 亿美元,Anthropic100-200 亿美元,算下来未来几年至少投入 1000 亿美元纯粹用到训练⼤模型。
在硬體提升有限的情况下,提高效率将成为很多大模型企业的选择。据谷歌 PaLM 的 论文,在训练阶段,缺乏优化经验或堆叠过多芯片,效率可能低至 20%,目前谷歌与 OpenAI 都能达到 50% 左右。前述机构推测目前推理阶段的效率只有 25% 左右,提升空间巨大。
在很多人看来,大模型更像一场千亿美金级豪赌实验,有机会将人类带入新的摩尔时代。在这个过程中,除了智能水平的提升,大模型训练、推理的成本下降会不会出现类似于摩尔定律的趋势,也是一个重要的观察维度。
从过去看,一个新技术能不能真正走向大规模落地,往往不取决于技术有多强,而是成本有多低。参考移动互联网应用大规模爆发,起于从 3G 到 4G 的所带来的流量成本大幅下降。从目前看,这样的故事大概率也将在人工智能领網域发生。