今天小编分享的科技经验:Meta第二代自研AI芯投产,摆脱英伟达依赖!为买H100小扎狂砸数百亿美元,欢迎阅读。
新智元报道
编辑:编辑部
【新智元导读】Meta 的第二代自研芯片正式投产!小扎计划今年部署 Artemis AI 芯片为 AI 提供算力,以减少对英伟达 GPU 的依赖。
Meta 第二代自研 AI 芯片 Artemis,今年正式投产!
据悉,新的芯片将被用于数据中心的推理(Inference)任务,并与英伟达等供应商的 GPU 一起协同工作。
对此,Meta 的发言人表示:「我们认为,我们自主开发的加速器将与市面上的 GPU 相得益彰,为 Meta 的任务提供最佳的性能与效率平衡。」
除了更高效地运行的推荐模型外,Meta 还需要为自家的生成式 AI 应用,以及正在训练的 GPT-4 开源竞品 Llama 3 提供算力。
Meta 的 AI 贴纸功能,此前在 Messenger、Instagram 和 WhatsApp 上都处于测试阶段
OpenAI 工程师 Jason Wei 在 Meta 的一次 AI 活动中听到,Meta 现在有足够的算力来训练 Llama 3 和 4。Llama 3 计划达到 GPT-4 的性能水平,但仍将免费提供
不难看出,Meta 的目标非常明确——在减少对英伟达芯片依赖的同时,尽可能控制 AI 任务的成本。
Meta 成英伟达大客户
Meta CEO 小扎最近宣布,他计划到今年年底部署 35 万颗英伟达 H100 GPU,总共将有约 60 万颗 GPU 运行和训练 AI 系统。
这也让 Meta 成为了继微软之后,英伟达最大的已知客户。
小扎表示,目前 Meta 内部正在训练下一代模型 Llama 3。
在 35 万块 H100 上训练的 Llama 3,无法想象会有多大!
Omdia 的研究数据显示,Meta 在 2023 年 H100 的出货量为 15 万块,与微软持平,且是其他公司出货量的 3 倍。
小扎称,「如果算上英伟达 A100 和其他 AI 芯片,到 2024 年底,Meta 将拥有近 60 万个 GPU 等效算力」。
性能更强、尺寸更大的模型,导致更高的 AI 工作负载,让成本直接螺旋式上升。
据美国媒体的一位匿名人士称,今年头几个月,每有一个客户,微软每月在 Github Copilot 上的损失就超过 20 美元,甚至某些用户每月的损失高达 80 美元,尽管微软已经向用户收取每月 10 美元的费用。
之所以赔钱,是因为生成代码的 AI 模型运行成本高昂。 如此高的成本,让大科技公司们不得不寻求别的出路。
除了 Meta 之外,OpenAI 和微软也在试图打造自己专有的 AI 芯片以及更高效的模型,来打破螺旋式上升的成本。
此前外媒曾报道,Sam Altman 正计划筹集数十亿美元,为 OpenAI 建起全球性的半导体晶圆厂网络,为此他已经在和中东投资者以及台积电谈判
专为大模型定制 AI 芯
去年 5 月,Meta 首次展示了最新芯片系列——「Meta 训练和推理加速器」(MTIA),旨在加快并降低运行神经网络的成本。
MTIA 是一种 ASIC,一种将不同电路组合在一块板上的芯片,允许对其进行编程,以并行执行一项或多项任务。
内部公告称,Met 首款芯片将在 2025 年投入使用,同时数据中心开启测试。不过,据英国媒体报道,Artemis 已经是 MTIA 的更高级版本。
其实,第一代的 MITA 早就从 2020 年开始了,当时 MITA v1 采用的是 7nm 工艺。
该芯片内部内存可以从 128MB 扩展到 128GB,同时,在 Meta 设计的基准测试中,MITA 在处理中低复杂度的 AI 模型时,效率要比 GPU 还高。
在芯片的内存和网络部分,Meta 表示,依然有不少工作要做。
随着 AI 模型的规模越来越大,MITA 也即将遇到瓶颈,因此需要将工作量分担到多个芯片上。
当时,Meta 团队还设计了第一代 MTIA 加速器,同样采用台积电 7nm,运行频率为 800MHz,在 INT8 精度下提供 102.4 TOPS,在 FP16 精度下提供 51.2 TFLOPS。它的热设计功耗(TDP)为 25W。
2022 年 1 月,Meta 还推出了超算 RSC AI,并表示要为元宇宙铺路。RSC 包含 2000 个英伟达 DGX A100 系统,16000 个英伟达 A100 GPU。
这款超算与 Penguin Computing、英伟达和 Pure Storage 合作组装,目前已完成第二阶段的建设。