今天小編分享的互聯網經驗:數十位 AI 大牛憤然離職,解密Meta AI大模型團隊内鬥始末,歡迎閱讀。
Meta 參展 2022 年在上海舉行的進博會(來源:钛媒體 App 編輯拍攝)
過去半年,為了追趕 OpenAI 的研發腳步,科技巨頭 Meta 公司(前 Facebook)接連發布免費開源大語言模型 LLaMA、Llama 2 以及編程模型 Code Llama 等,引發了一場關于開源與閉源模型優劣的廣泛熱議。
但對于一些參與 Llama 大語言模型研發的 Meta 科學家們來說卻不這樣想,普遍認為這款大模型來的太晚了,團隊精英 AI 人才流失太高了。
據 The information 近日報道,今年 2 月發表的 Llama 原始研究論文的 14 位作者中,包括 FAIR 巴黎團隊負責人 Antoine Bordes 在内的超過一半(7 人)AI 科學家離開了 Meta,其中幾位跳槽或創辦了 AI 初創公司,或是到大公司,原因與内部算力資源鬥争有關。
同時,OPT、ESMFold 等多個項目也同時解散,員工合并重組,影響超過數十人,其中 OPT 研究論文的 19 位作者中,已經約有一半已不在 Meta 工作,近 10 位 AI 領網域核心研發人員。
實際上,過去 10 多年來,馬克 · 扎克伯格(Mark Zuckerberg)一直将 AI 當作 Meta 新發展的重要起點,而且挖來了 AI 學術領網域重要的科學家,如圖靈獎得主、Meta 首席 AI 科學家楊立昆(Yann LeCun)等,但持續性團隊内鬥影響了 Meta AI 對于研究資源的分配。
而随着全球經濟衰退加劇、緊急追趕 ChatGPT,經歷一段時期的人員波動和内部整合、超過 1 萬名員工被裁掉。最終,Meta 選擇商業化的 AI,放棄純科學性 AI 技術。
超半數 Llama 團隊憤然出走,因與 OPT 團隊内部算力争奪有關
Meta 在人工智能(AI)領網域的核心研究,主要來源 2013 年成立的 FAIR(Facebook AI Research)。
團隊組建之初,Meta 聘請了圖靈獎得主、法國科學家楊立昆擔任 AI 研究負責人,整個 FAIR 的研究任務是将 AI 用于翻譯語言,推進 AI 醫療等場景。同時,FAIR 團隊大手筆在美國加州門洛帕克、紐約、蒙特利爾、巴黎、倫敦和西雅圖六地設立實驗室。
據報道,FAIR 在巴黎的團隊主要研發了 Llama 大模型,而 FAIR 美國團隊則研發 OPT 模型,兩個團隊主要向 Meta 基礎 Al 研究負責人 Joelle Pineau 匯報。據悉,Pineau 不僅是 Meta AI 研究副總裁,而且還是麥吉爾大學教授,主要研究新的模型和算法。
Meta 基礎 Al 研究負責人 Joelle Pineau(來源:Meta AI 官網)
早在 2022 年 5 月,ChatGPT 發布之前,Meta 美國團隊就公開發布了 OPT-175B。當時 Meta 聲稱該模型比 OpenAI 的 GPT-3 訓練所需能源更少,而這兩個模型用于訓練的參數規模相同。據兩位知情人士稱,幾個月後,該團隊已經開始研究媲美谷歌 PaLM 的一款大模型。
與此同時,巴黎 FAIR 團隊已經開始研究另一種獨立的大模型,最終被稱為 Llama,該模型參數比 OPT 小,團隊認為較小模型在推理(即對問題生成響應的過程)方面會更有效,尤其 Llama 需要的算力資源低于 OPT 模型。
不過,由于 Meta 的算力資源有限,内部分配一直不合理。而這種算力争奪加劇了團隊之間的緊張關系。
據報道,Meta 内部每月做出一次算力分配決定,與不同業務部門、不同優先事項,以及項目發布時間等因素有關。而如果 FAIR 的員工提出争議,這些争議就會更新,交由 Pineau 做出決定。
Pineau 回應稱,Llama 和 OPT 團隊在算力分配的問題上 " 有些緊張 ",稱 " 盡管我們不保證每個人都會得到想要的,但我們一直試圖在平衡各方需求 "。
2023 年開始,随着 ChatGPT 對話 AI 模型風靡全球,兩個團隊内鬥緊張局勢達到了頂峰。
今年 2 月,Meta FAIR 發布了 Llama 開源模型,并獲得研究使用許可,而且多個團隊使用 Llama 開發了 Vina 等其他開源大模型,廣受好評。
但在發布會前一周,FAIR 團隊聯合創辦人兼巴黎團隊負責人 Antoine Bordes 卻離開了 Meta 公司,報道稱,其主要與美國團隊的内鬥讓 Bordes 精疲力盡。Bordes 拒絕置評。
同時,自去年 11 月起,扎克伯格開始了 Meta 全公司範圍的裁員,涉及超過 1 萬名員工,FAIR 團隊也未能幸免。今年 2 月,Meta 成立了一個新團隊,專注于開發生成式 AI 技術,團隊負責人是蘋果前高管 Ahmad Al-Dahle。随後很多 FAIR、Llama 2 開發團隊都加入其中,又一次進行了團隊洗牌。
而 Meta 這種人員變動、整合,讓 FAIR 團隊只能研究 Code Llama。因此,更多 Llama、OPT 等項目的研究人員感受到了更大的内部鬥争氛圍,憤然離職。
據報道,目前,Llama 原始研究論文的 14 位作者中,超過 7 人已從 Meta 離職。而 2022 年 5 月公布的 OPT 原始研究論文的 19 位作者中,約有 10 名 AI 大牛已經從 Meta 離開。The information 提到了其中四位的去向:
FAIR 巴黎分部負責人 Antoine Bordes 已離職,加入了軍工 AI 公司 Helsing
Llama 論文作者、FAIR 研究總監 Armand Joulin,今年 5 月離職,随後加入了蘋果公司。
Llama 論文作者 Timothee Lacroix 和 Guillaume Lample 已離職,共同創立了 AI 初創公司 MistralAI
Llama 論文作者 Marie-Anne Lachaux 已離職,加入了 MistralAl
另外,今年 8 月有報道稱,Meta 為了降本增效,裁掉了對标谷歌 DeepMind AlphaFold、利用 AI 大模型實現蛋白質預測的生物科學 ESMFold 項目團隊。此前,該團隊研發出了 150 億參數、預測超 6 億個宏基因組蛋白質序列大模型 ESMFold,AI 的速度比 AlphaFold 快 60 倍。不過如今,該團隊已解散,負責人已辭職創業。
英國《金融時報》認為,Fair 實驗室内部的學術文化是 Meta 遲遲在 AI 大模型競争中獲得領先的原因,而随着 ChatGPT 的爆發,如今 Meta 試圖調整目标 "GenAI",并重新配置其 Fair 團隊的研究方向,轉向 AI 模型的商業化。
扎克伯格表示,随着開發者不斷改進模型,Meta 可以将這些改進融入其廣告和消費產品中。看起來,扎克伯格從 Llama 看到了以開源在 AI 競争中打開局面的可能性。
Joelle Pineau 坦言,留住和吸引優秀人才是公司花費大部分時間的原因。如果沒有優秀的研究人員,她什麼也做不了。
" 由于 AI 領網域發展如此之快,我們正在共同思考,FAIR 應該擁有哪個項目?Gen AI 應該擁有哪個項目?我們應該持續關注兩個團隊的工作成果。"Pineau 表示。
算力不足下,Meta 仍計劃明年發布對标 GPT-4 的大模型
Meta AI 研究團隊這一内鬥、核心人員離職案例,可以從兩個角度解讀。
一是大公司創新能力随着内部問題不斷下降,資本和大科技公司創新鴻溝加深。(詳見钛媒體 App 前文:《全球經濟巨變下,資本和科技創新之間的衝突與平衡》)
此前,谷歌也做了類似的事情,DeepMind 研發 AI 技術多年,誕生出了 AlphaFold、AlphaGo 等行業頂級技術,但難以盈利,2018 年 -2020 年總虧損額超過 17 億美元。因此在今年 4 月,谷歌母公司 Alphabet CEO Sundar Pichai (皮猜)宣布,将谷歌大腦和 DeepMind 兩大團隊合并,組成 "Google DeepMind" 部門,研發任務之一是多模态 AI 模型,而此前谷歌大腦、DeepMind 内部競争頗多。
另外在阿裡内部也產生一定的競争。近日,阿裡達摩院 M6 大模型帶頭人楊紅霞、阿裡雲 AI 大牛賈揚清、機器學習科學家金榕等 AI 大牛也紛紛離職,有消息稱,阿裡大模型研發時經過内部的競賽流程,金榕和楊紅霞團隊技術產生競争,最終諸多因素下才最終選擇楊紅霞的模型技術,從而誕生通義千問,不過最終兩位技術負責人均從阿裡辭職。
搜狗創始人、百川智能創始人兼 CEO 王小川告訴钛媒體 App," 資本是逐利的,所以不是投自動駕駛就是安防。對大廠來說,當時投錢創新是有巨大風險的。對企業的一号位來說,想的更多還是業務上的東西,花錢最後沒出成果,算誰的?"
另外一方面是 Meta 的算力資源不足。
随着 OpenAI 用微軟雲的算力、谷歌則自行購買 GPU(圖形處理器)芯片,多家科技巨頭加大算力基礎設施布局。而 Meta 沒有自己的龐大雲算力儲備,因此在生成式 AI 的賽道上明顯 " 掉隊 "。
2022 年的一場 5 個小時會議上,Meta 的基礎設施負責人當時表示:" 我們在開發 AI 的工具、工作流程和程式上存在顯著差距,我們必須得投入大筆投資。" 而随着 ChatGPT 的發布,全球 AI 訓練、推理算力需求加劇,Meta 似乎只能追趕。
據報道,GPT-3 使用 10000 張 GPU A100 顯卡、花了 30 天才訓練完了 1750 億參數,單 GPU 計算性能為 12TFlops,消耗的總算力為每天每秒 3640PetaFlop,GPU-4 數據更高。即便是利用 3584 個英偉達最新 H100 芯片,GPT-3 大模型訓練任務也需要 11 分鍾。而 OpenAI 尚未透露 GPT-4 的大小,但估計參數為 1.5 萬億。
龐大的數據量需要大量的算力支持。因此,Meta 依然需要購買大量英偉達產品,補足算力缺口,例如 Meta Llama 模型已經在微軟雲平台 Azure 上提供。
Meta CFO Susan Li 在今年 2 月坦承,Meta 投入給生成式 AI 的算力相當有限,基本上所有的 AI 算力都投向了廣告、信息流和短視頻項目。
即便是算力不足,扎克伯格仍希望盡力追趕,并且打造更多的大模型產品落地應用。
據外媒 9 月 11 日報道,Meta 正在開發一種新的 AI 大語言模型(LLM),超越 Llama 2,性能比肩 GPT-4。報道稱,預計 Meta 将在 2024 年初開始訓練這一大模型。
(本文首發钛媒體 App,作者|林志佳)