今天小編分享的科學經驗:應激的Llama,開源的困局,歡迎閲讀。
在 DeepSeek R1-V3、GPT-4o、Claude-3.7 的強勢圍攻下,Meta 坐不住了。曾作為開源之光的 Llama 在一年的競争内連連失利,并沒有研發出讓公眾驚豔的功能。創始人扎克伯格下達死命令,今年 4 月一定要更新。
于是我們迎來它倉促的答卷——一款在實測中讓人大跌眼鏡的模型 Llama4,号稱 10m token 的上下文長度頻頻出錯、初代小球測試難以完成、9.11>9.9 的比大小失誤……這場本應扎眼的亮相從期待變成群嘲。上線幾天内,高管離職、測試作弊等醜聞被内部員工爆料證實。
再加上,開源模型并不靠 C 端會員制付費變現,短期盈利無望。既如此,Llama 為何急着更新?國内外的開源模型又在卷什麼呢?
Meta 最新發布的 Llama 4 系列包括 Scout(1000 萬 Token 上下文視窗)、Maverick(編碼與推理對标 DeepSeek V3)和尚未發布的 Behemoth(2880 億活躍參數),官方聲稱其是有史以來最強多模态大模型。
不過,24h 就被打臉了。
發布第二天就有内部員工爆料,Llama4 的基準測試存在嚴重造假,模型遠遠達不到開源 sota 标準,但為了趕在四月底前發布,領導将各個 benchmark 的測試集混合在 post-training 過程中,拿出了一個 " 看起來可以 " 的結果。
顯而易見,技術摻水的後果是關鍵性能的嚴重缺陷。在社交媒體 X 和 Reddit 的用户實測中,Llama4 多項任務明顯落後于前代產品與同量級模型,公眾并不為這樣的噱頭買單。
代碼能力差強人意。在 Polyglot 編程測試中,Maverick 版本的正确率僅為 15.6%~16%,幾乎墊底,與 Meta 聲稱的 " 編碼能力超越 DeepSeek" 嚴重不符。其 402B 的參數規模并未帶來優勢,反而被 32B 參數的 Qwen-QwQ 等模型超越,基準測試結果嚴重失真。
核心賣點多模态能力未達預期,用户實測發現其影像理解能力甚至不如谷歌去年開源的 Gemma 2,且在長上下文任務中表現不穩定,随着 token 長度增加性能顯著下降。
Llama4 的登場不僅沒什麼亮點,還面臨着刷分造榜、砸錢走下坡路等污點。既然完全沒訓練好,Meta 幹嘛上趕着自己給自己找不快呢?
它太焦慮了,焦慮到即使只是一個登不上台面的瑕疵品,也要黔驢技窮似地端上桌。
一方面,GPT-4o、Claude3.7 等頭部閉源模型在多模态、代碼能力上的領先讓 Meta 在海外市場苦不堪言;另一方面,DeepSeek V3 等後起之秀的登場又讓它在開源社區作為引領者的光環黯然失色。
内外夾擊下,扎克伯格不得不設立四月 ddl 逼研發團隊拿出作品,試圖挽回公眾的信心,但如此高壓的戰線反而弄巧成拙。沒有時間搞創新的技術部不得不壓縮測試周期,在模型未達預期情況下強行上線。
競争和管理的雙重高壓讓團隊在内卷中丢失了技術本位的初心。其沿用的傳統技術 DPO 雖簡化了 RLHF 流程,但在數學、代碼等復雜任務上表現不穩定。而相比 GPT-4o 的多模态架構,Llama 4 的改進更像是仰賴 Scaling law 的小修小補,瘋狂堆疊參數,忽略了對底層架構的探索。
急于求成的 Meta,既沒有耐心打磨技術,也沒有遵守行業倫理,陷入了惡性内卷的開源困境。
從 2023 年起,一月一更新的頭部模型軍備賽讓模型競争陷入了惡性内卷。相似的訓練數據、趨同的架構讓眾多產品高度同質化乏善可陳。GPT-4o、Claude 等實力雄厚的閉源模型便脱穎而出。
讓人疑惑的是,選擇開源路徑 Llama,為何也要焦慮?它不靠會員訂閲盈利,是否更新好像并不能帶來更多實質的利潤。
實際上,開源并不意味着放棄商業化,開源和閉源有着不同的盈利邏輯。閉源是直接賣產品,通過訂閲付費賺錢,開源是為了構築堅實的生态壁壘靠定制化服務占領未來的市場。
開源如何賺錢?通俗地講,開源就相當于美食店的試吃,店家每天出 100 份免費甜點,為的是讓顧客買更多的甜點。模廠開放免費的 token 使用次數,就是像美食店一樣打響自己的名氣,吸引有實力的企業和開發者購買定制化服務。
開源模型的第一筆生意是高性能 API 的銷售。基礎服務雖免費,但企業可提供高性能 API 服務,按調用量收費。DeepSeek-R1 的 API 定價為每百萬輸入 Token 1 元,每百萬輸出 tokens 16 元。免費 token 額度用完了或者基礎 API 滿足不了需求,用户就傾向于使用付費版保持業務流程的穩定性。
此外,實力雄厚的政企客户是大模型商業化的主力軍。出于高保密性和定制化需求,不少企業會購買模廠的私有化部署服務。廠商收取技術費用,根據需求提供定制化的模型訓練、微調以及後續的系統維護更新服務。據悉,大模型私有化底座建設基本是千萬打底,某模廠銷售透露,部署他們公司最新的模型最少 2000 萬,可以理解為五星級餐廳的私人晚宴和滿漢全席。
其次,部分廠商選擇開源與閉源并行的雙軌路線。開源基礎版滿足通用需求,閉源高級版服務付費市場。相當于先給你一道開胃菜,你自己選擇要不要再上主食。2023 年的智譜就是一個典型,公司開源 ChatGLM-6B 等模型建立生态,同時推出閉源的千億參數模型 GLM-130B,向 B 端收費。
最後,開源其實是一道商業化的橋梁,目的是建構開發者生态社區,通過降低門檻、提高粘性、分層變現。舉個例子,飯店提供試吃小菜建立了自己的吃貨群,但同時也賣碗筷、賣調料品、賣店裏遊樂設施的體驗服務。
大模型也是一樣的道理,開源吸引的一大批開發者就是他的生态,可以植入廣告收取廣告費,可以賣雲服務,也可以賣配套的 AI 產品。
實際上,開源就是為了搶生态。用户越多,未來的盈利渠道越豐富,但一旦性能被超越,開發者流失,會引發連鎖反應。
所以 Meta 這麼着急發布 Llama4 就是怕自己再不努力,開發者就會轉向 DeepSeek 等更優模型。而前期苦心經營的 AI 生态一松動,看不到用户基數的雲計算合作夥伴(如微軟 Azure)也會離席,導致間接盈利渠道萎縮,商業變現受阻。
更重要的是,前期 AI 大模型主要是打口碑效應,一旦落後,市場競争力就會下降,而失去用户和合作夥伴的 Llama 在行業内部也逐步失去了辨識度。這意味着,提起開源大模型,人們讨論 Llama 的次數将會越來越少。
落後即淘汰的壓力,迫使 Meta 必須在極短時間内推出 Llama 4,哪怕犧牲模型質量。
天下沒有免費的午餐,也沒有免費的生意。
Meta 對于開源的熱衷,隐含着扎克伯格對大模型市場生态的渴望,這在一眾國内公司中也不無體現。
在 DeepSeek 等企業的帶動下,國内大模型公司紛紛加入開源浪潮,例如曾堅持走閉源路線的百度也宣布在 2025 年 6 月全面開源文心 4.5 系列。
不過,Llama4 的失利也提醒我們,模型開源不能陷入惡性内卷,基礎模廠找準差異化線路很重要。
一方面,要堅持創新帶來的性能提升。DeepSeek 的全棧開源能在短時間打破 B 端、G 端兩個市場,關鍵在于其 MoE 底層架構大大降低成本、提升效率。而 Llama 4 迷信 scaling law,通過堆砌參數湧現智能的道路已不可通,未來破局的關鍵在攻克多模态、小樣本前沿領網域。
并且,基準測試不等于真實體驗,不要一味追求 sota 而忽略了實際場景中的應用體驗。與 Llama 4 不同,DeepSeek 前期并沒有給自己貼上登頂 sota 的光環,在海内外用户實測中赢得關注的它更有信服力。
另一方面,戰略是關鍵,做好商業化關乎開源模型的生死存亡。
比如,阿裏 Qwen 系列通過全模态開源吸引開發者使用雲計算等基礎設施,形成場景閉環。他們的模型在前期只是一個引子,明碼标價的商品實則是雲服務。而主攻 AI 的智譜清言沒有其他東西賣,選擇了開源閉源雙軌并行的策略,開源吸引開發者生态,向 B 端和 G 端提供付費的定制解決方案。這説明,企業一定要結合自己的基因思考變現策略,抓準目标市場,想清楚他們的客户期待怎樣的服務。
除了賣模型的人,使用模型的人也要注意,開源模型并非萬全之策,存在隐性限制。
首先,部分開源模型會在許可證中明确禁止商業應用,僅限學術研究,如 Meta llama2 限制月活超 7 億公司使用,削弱了開源的自由;其次,許多開源模型僅公開架構,不公開數據源和代碼集,開發者只能基于現有模型微調;當然,部署也有一定的門檻,模型微調需要英偉達顯卡等昂貴的計算資源,普通開發者難以承擔。
實際選擇開源模型時,AI 開發者和軟體 ISV 服務商一定要謹慎閲讀各種附帶條款和協定,避免許可證限制與法務風險;除了開源模型,開發者也可跟閉源模廠開發商業化版本,減少後期風險。
總之,Llama 的一時落敗告訴我們:沒有技術鞏固的開源生态,終是一盤散沙。開源模型廠商想靠吸引廣大開發者培育用户粘性,必須保持性能領先,告别無效内卷,走向技術創新。