今天小编分享的互联网经验:数十位 AI 大牛愤然离职,解密Meta AI大模型团队内斗始末,欢迎阅读。
Meta 参展 2022 年在上海举行的进博会(来源:钛媒体 App 编辑拍摄)
过去半年,为了追赶 OpenAI 的研发脚步,科技巨头 Meta 公司(前 Facebook)接连发布免费开源大语言模型 LLaMA、Llama 2 以及编程模型 Code Llama 等,引发了一场关于开源与闭源模型优劣的广泛热议。
但对于一些参与 Llama 大语言模型研发的 Meta 科学家们来说却不这样想,普遍认为这款大模型来的太晚了,团队精英 AI 人才流失太高了。
据 The information 近日报道,今年 2 月发表的 Llama 原始研究论文的 14 位作者中,包括 FAIR 巴黎团队负责人 Antoine Bordes 在内的超过一半(7 人)AI 科学家离开了 Meta,其中几位跳槽或创办了 AI 初创公司,或是到大公司,原因与内部算力资源斗争有关。
同时,OPT、ESMFold 等多个项目也同时解散,员工合并重组,影响超过数十人,其中 OPT 研究论文的 19 位作者中,已经约有一半已不在 Meta 工作,近 10 位 AI 领網域核心研发人员。
实际上,过去 10 多年来,马克 · 扎克伯格(Mark Zuckerberg)一直将 AI 当作 Meta 新发展的重要起点,而且挖来了 AI 学术领網域重要的科学家,如图灵奖得主、Meta 首席 AI 科学家杨立昆(Yann LeCun)等,但持续性团队内斗影响了 Meta AI 对于研究资源的分配。
而随着全球经济衰退加剧、紧急追赶 ChatGPT,经历一段时期的人员波动和内部整合、超过 1 万名员工被裁掉。最终,Meta 选择商业化的 AI,放弃纯科学性 AI 技术。
超半数 Llama 团队愤然出走,因与 OPT 团队内部算力争夺有关
Meta 在人工智能(AI)领網域的核心研究,主要来源 2013 年成立的 FAIR(Facebook AI Research)。
团队组建之初,Meta 聘请了图灵奖得主、法国科学家杨立昆担任 AI 研究负责人,整个 FAIR 的研究任务是将 AI 用于翻译语言,推进 AI 医疗等场景。同时,FAIR 团队大手笔在美国加州门洛帕克、纽约、蒙特利尔、巴黎、伦敦和西雅图六地设立实验室。
据报道,FAIR 在巴黎的团队主要研发了 Llama 大模型,而 FAIR 美国团队则研发 OPT 模型,两个团队主要向 Meta 基础 Al 研究负责人 Joelle Pineau 汇报。据悉,Pineau 不仅是 Meta AI 研究副总裁,而且还是麦吉尔大学教授,主要研究新的模型和算法。
Meta 基础 Al 研究负责人 Joelle Pineau(来源:Meta AI 官网)
早在 2022 年 5 月,ChatGPT 发布之前,Meta 美国团队就公开发布了 OPT-175B。当时 Meta 声称该模型比 OpenAI 的 GPT-3 训练所需能源更少,而这两个模型用于训练的参数规模相同。据两位知情人士称,几个月后,该团队已经开始研究媲美谷歌 PaLM 的一款大模型。
与此同时,巴黎 FAIR 团队已经开始研究另一种独立的大模型,最终被称为 Llama,该模型参数比 OPT 小,团队认为较小模型在推理(即对问题生成响应的过程)方面会更有效,尤其 Llama 需要的算力资源低于 OPT 模型。
不过,由于 Meta 的算力资源有限,内部分配一直不合理。而这种算力争夺加剧了团队之间的紧张关系。
据报道,Meta 内部每月做出一次算力分配决定,与不同业务部门、不同优先事项,以及项目发布时间等因素有关。而如果 FAIR 的员工提出争议,这些争议就会更新,交由 Pineau 做出决定。
Pineau 回应称,Llama 和 OPT 团队在算力分配的问题上 " 有些紧张 ",称 " 尽管我们不保证每个人都会得到想要的,但我们一直试图在平衡各方需求 "。
2023 年开始,随着 ChatGPT 对话 AI 模型风靡全球,两个团队内斗紧张局势达到了顶峰。
今年 2 月,Meta FAIR 发布了 Llama 开源模型,并获得研究使用许可,而且多个团队使用 Llama 开发了 Vina 等其他开源大模型,广受好评。
但在发布会前一周,FAIR 团队联合创办人兼巴黎团队负责人 Antoine Bordes 却离开了 Meta 公司,报道称,其主要与美国团队的内斗让 Bordes 精疲力尽。Bordes 拒绝置评。
同时,自去年 11 月起,扎克伯格开始了 Meta 全公司范围的裁员,涉及超过 1 万名员工,FAIR 团队也未能幸免。今年 2 月,Meta 成立了一个新团队,专注于开发生成式 AI 技术,团队负责人是苹果前高管 Ahmad Al-Dahle。随后很多 FAIR、Llama 2 开发团队都加入其中,又一次进行了团队洗牌。
而 Meta 这种人员变动、整合,让 FAIR 团队只能研究 Code Llama。因此,更多 Llama、OPT 等项目的研究人员感受到了更大的内部斗争氛围,愤然离职。
据报道,目前,Llama 原始研究论文的 14 位作者中,超过 7 人已从 Meta 离职。而 2022 年 5 月公布的 OPT 原始研究论文的 19 位作者中,约有 10 名 AI 大牛已经从 Meta 离开。The information 提到了其中四位的去向:
FAIR 巴黎分部负责人 Antoine Bordes 已离职,加入了军工 AI 公司 Helsing
Llama 论文作者、FAIR 研究总监 Armand Joulin,今年 5 月离职,随后加入了苹果公司。
Llama 论文作者 Timothee Lacroix 和 Guillaume Lample 已离职,共同创立了 AI 初创公司 MistralAI
Llama 论文作者 Marie-Anne Lachaux 已离职,加入了 MistralAl
另外,今年 8 月有报道称,Meta 为了降本增效,裁掉了对标谷歌 DeepMind AlphaFold、利用 AI 大模型实现蛋白质预测的生物科学 ESMFold 项目团队。此前,该团队研发出了 150 亿参数、预测超 6 亿个宏基因组蛋白质序列大模型 ESMFold,AI 的速度比 AlphaFold 快 60 倍。不过如今,该团队已解散,负责人已辞职创业。
英国《金融时报》认为,Fair 实验室内部的学术文化是 Meta 迟迟在 AI 大模型竞争中获得领先的原因,而随着 ChatGPT 的爆发,如今 Meta 试图调整目标 "GenAI",并重新配置其 Fair 团队的研究方向,转向 AI 模型的商业化。
扎克伯格表示,随着开发者不断改进模型,Meta 可以将这些改进融入其广告和消费产品中。看起来,扎克伯格从 Llama 看到了以开源在 AI 竞争中打开局面的可能性。
Joelle Pineau 坦言,留住和吸引优秀人才是公司花费大部分时间的原因。如果没有优秀的研究人员,她什么也做不了。
" 由于 AI 领網域发展如此之快,我们正在共同思考,FAIR 应该拥有哪个项目?Gen AI 应该拥有哪个项目?我们应该持续关注两个团队的工作成果。"Pineau 表示。
算力不足下,Meta 仍计划明年发布对标 GPT-4 的大模型
Meta AI 研究团队这一内斗、核心人员离职案例,可以从两个角度解读。
一是大公司创新能力随着内部问题不断下降,资本和大科技公司创新鸿沟加深。(详见钛媒体 App 前文:《全球经济巨变下,资本和科技创新之间的冲突与平衡》)
此前,谷歌也做了类似的事情,DeepMind 研发 AI 技术多年,诞生出了 AlphaFold、AlphaGo 等行业顶级技术,但难以盈利,2018 年 -2020 年总亏损额超过 17 亿美元。因此在今年 4 月,谷歌母公司 Alphabet CEO Sundar Pichai (皮猜)宣布,将谷歌大腦和 DeepMind 两大团队合并,组成 "Google DeepMind" 部门,研发任务之一是多模态 AI 模型,而此前谷歌大腦、DeepMind 内部竞争颇多。
另外在阿里内部也产生一定的竞争。近日,阿里达摩院 M6 大模型带头人杨红霞、阿里云 AI 大牛贾扬清、机器学习科学家金榕等 AI 大牛也纷纷离职,有消息称,阿里大模型研发时经过内部的竞赛流程,金榕和杨红霞团队技术产生竞争,最终诸多因素下才最终选择杨红霞的模型技术,从而诞生通义千问,不过最终两位技术负责人均从阿里辞职。
搜狗创始人、百川智能创始人兼 CEO 王小川告诉钛媒体 App," 资本是逐利的,所以不是投自动驾驶就是安防。对大厂来说,当时投钱创新是有巨大风险的。对企业的一号位来说,想的更多还是业务上的东西,花钱最后没出成果,算谁的?"
另外一方面是 Meta 的算力资源不足。
随着 OpenAI 用微软云的算力、谷歌则自行购买 GPU(图形处理器)芯片,多家科技巨头加大算力基础设施布局。而 Meta 没有自己的庞大云算力储备,因此在生成式 AI 的赛道上明显 " 掉队 "。
2022 年的一场 5 个小时会议上,Meta 的基础设施负责人当时表示:" 我们在开发 AI 的工具、工作流程和程式上存在显著差距,我们必须得投入大笔投资。" 而随着 ChatGPT 的发布,全球 AI 训练、推理算力需求加剧,Meta 似乎只能追赶。
据报道,GPT-3 使用 10000 张 GPU A100 显卡、花了 30 天才训练完了 1750 亿参数,单 GPU 计算性能为 12TFlops,消耗的总算力为每天每秒 3640PetaFlop,GPU-4 数据更高。即便是利用 3584 个英伟达最新 H100 芯片,GPT-3 大模型训练任务也需要 11 分钟。而 OpenAI 尚未透露 GPT-4 的大小,但估计参数为 1.5 万亿。
庞大的数据量需要大量的算力支持。因此,Meta 依然需要购买大量英伟达产品,补足算力缺口,例如 Meta Llama 模型已经在微软云平台 Azure 上提供。
Meta CFO Susan Li 在今年 2 月坦承,Meta 投入给生成式 AI 的算力相当有限,基本上所有的 AI 算力都投向了广告、信息流和短视频项目。
即便是算力不足,扎克伯格仍希望尽力追赶,并且打造更多的大模型产品落地应用。
据外媒 9 月 11 日报道,Meta 正在开发一种新的 AI 大语言模型(LLM),超越 Llama 2,性能比肩 GPT-4。报道称,预计 Meta 将在 2024 年初开始训练这一大模型。
(本文首发钛媒体 App,作者|林志佳)