今天小编分享的科学经验:应激的Llama,开源的困局,欢迎阅读。
在 DeepSeek R1-V3、GPT-4o、Claude-3.7 的强势围攻下,Meta 坐不住了。曾作为开源之光的 Llama 在一年的竞争内连连失利,并没有研发出让公众惊艳的功能。创始人扎克伯格下达死命令,今年 4 月一定要更新。
于是我们迎来它仓促的答卷——一款在实测中让人大跌眼镜的模型 Llama4,号称 10m token 的上下文长度频频出错、初代小球测试难以完成、9.11>9.9 的比大小失误……这场本应扎眼的亮相从期待变成群嘲。上线几天内,高管离职、测试作弊等丑闻被内部员工爆料证实。
再加上,开源模型并不靠 C 端会员制付费变现,短期盈利无望。既如此,Llama 为何急着更新?国内外的开源模型又在卷什么呢?
Meta 最新发布的 Llama 4 系列包括 Scout(1000 万 Token 上下文視窗)、Maverick(编码与推理对标 DeepSeek V3)和尚未发布的 Behemoth(2880 亿活跃参数),官方声称其是有史以来最强多模态大模型。
不过,24h 就被打脸了。
发布第二天就有内部员工爆料,Llama4 的基准测试存在严重造假,模型远远达不到开源 sota 标准,但为了赶在四月底前发布,领导将各个 benchmark 的测试集混合在 post-training 过程中,拿出了一个 " 看起来可以 " 的结果。
显而易见,技术掺水的后果是关键性能的严重缺陷。在社交媒体 X 和 Reddit 的用户实测中,Llama4 多项任务明显落后于前代产品与同量级模型,公众并不为这样的噱头买单。
代码能力差强人意。在 Polyglot 编程测试中,Maverick 版本的正确率仅为 15.6%~16%,几乎垫底,与 Meta 声称的 " 编码能力超越 DeepSeek" 严重不符。其 402B 的参数规模并未带来优势,反而被 32B 参数的 Qwen-QwQ 等模型超越,基准测试结果严重失真。
核心卖点多模态能力未达预期,用户实测发现其影像理解能力甚至不如谷歌去年开源的 Gemma 2,且在长上下文任务中表现不稳定,随着 token 长度增加性能显著下降。
Llama4 的登场不仅没什么亮点,还面临着刷分造榜、砸钱走下坡路等污点。既然完全没训练好,Meta 干嘛上赶着自己给自己找不快呢?
它太焦虑了,焦虑到即使只是一个登不上台面的瑕疵品,也要黔驴技穷似地端上桌。
一方面,GPT-4o、Claude3.7 等头部闭源模型在多模态、代码能力上的领先让 Meta 在海外市场苦不堪言;另一方面,DeepSeek V3 等后起之秀的登场又让它在开源社区作为引领者的光环黯然失色。
内外夹击下,扎克伯格不得不设立四月 ddl 逼研发团队拿出作品,试图挽回公众的信心,但如此高压的战线反而弄巧成拙。没有时间搞创新的技术部不得不压缩测试周期,在模型未达预期情况下强行上线。
竞争和管理的双重高压让团队在内卷中丢失了技术本位的初心。其沿用的传统技术 DPO 虽简化了 RLHF 流程,但在数学、代码等复杂任务上表现不稳定。而相比 GPT-4o 的多模态架构,Llama 4 的改进更像是仰赖 Scaling law 的小修小补,疯狂堆叠参数,忽略了对底层架构的探索。
急于求成的 Meta,既没有耐心打磨技术,也没有遵守行业伦理,陷入了恶性内卷的开源困境。
从 2023 年起,一月一更新的头部模型军备赛让模型竞争陷入了恶性内卷。相似的训练数据、趋同的架构让众多产品高度同质化乏善可陈。GPT-4o、Claude 等实力雄厚的闭源模型便脱颖而出。
让人疑惑的是,选择开源路径 Llama,为何也要焦虑?它不靠会员订阅盈利,是否更新好像并不能带来更多实质的利润。
实际上,开源并不意味着放弃商业化,开源和闭源有着不同的盈利逻辑。闭源是直接卖产品,通过订阅付费赚钱,开源是为了构筑坚实的生态壁垒靠定制化服务占领未来的市场。
开源如何赚钱?通俗地讲,开源就相当于美食店的试吃,店家每天出 100 份免费甜点,为的是让顾客买更多的甜点。模厂开放免费的 token 使用次数,就是像美食店一样打响自己的名气,吸引有实力的企业和开发者购买定制化服务。
开源模型的第一笔生意是高性能 API 的销售。基础服务虽免费,但企业可提供高性能 API 服务,按调用量收费。DeepSeek-R1 的 API 定价为每百万输入 Token 1 元,每百万输出 tokens 16 元。免费 token 额度用完了或者基础 API 满足不了需求,用户就倾向于使用付费版保持业务流程的稳定性。
此外,实力雄厚的政企客户是大模型商业化的主力军。出于高保密性和定制化需求,不少企业会购买模厂的私有化部署服务。厂商收取技术费用,根据需求提供定制化的模型训练、微调以及后续的系统维护更新服务。据悉,大模型私有化底座建设基本是千万打底,某模厂销售透露,部署他们公司最新的模型最少 2000 万,可以理解为五星级餐厅的私人晚宴和满汉全席。
其次,部分厂商选择开源与闭源并行的双轨路线。开源基础版满足通用需求,闭源高级版服务付费市场。相当于先给你一道开胃菜,你自己选择要不要再上主食。2023 年的智谱就是一个典型,公司开源 ChatGLM-6B 等模型建立生态,同时推出闭源的千亿参数模型 GLM-130B,向 B 端收费。
最后,开源其实是一道商业化的桥梁,目的是建构开发者生态社区,通过降低门槛、提高粘性、分层变现。举个例子,饭店提供试吃小菜建立了自己的吃货群,但同时也卖碗筷、卖调料品、卖店里游乐设施的体验服务。
大模型也是一样的道理,开源吸引的一大批开发者就是他的生态,可以植入广告收取广告费,可以卖云服务,也可以卖配套的 AI 产品。
实际上,开源就是为了抢生态。用户越多,未来的盈利渠道越丰富,但一旦性能被超越,开发者流失,会引发连锁反应。
所以 Meta 这么着急发布 Llama4 就是怕自己再不努力,开发者就会转向 DeepSeek 等更优模型。而前期苦心经营的 AI 生态一松动,看不到用户基数的云计算合作伙伴(如微软 Azure)也会离席,导致间接盈利渠道萎缩,商业变现受阻。
更重要的是,前期 AI 大模型主要是打口碑效应,一旦落后,市场竞争力就会下降,而失去用户和合作伙伴的 Llama 在行业内部也逐步失去了辨识度。这意味着,提起开源大模型,人们讨论 Llama 的次数将会越来越少。
落后即淘汰的压力,迫使 Meta 必须在极短时间内推出 Llama 4,哪怕牺牲模型质量。
天下没有免费的午餐,也没有免费的生意。
Meta 对于开源的热衷,隐含着扎克伯格对大模型市场生态的渴望,这在一众国内公司中也不无体现。
在 DeepSeek 等企业的带动下,国内大模型公司纷纷加入开源浪潮,例如曾坚持走闭源路线的百度也宣布在 2025 年 6 月全面开源文心 4.5 系列。
不过,Llama4 的失利也提醒我们,模型开源不能陷入恶性内卷,基础模厂找准差异化线路很重要。
一方面,要坚持创新带来的性能提升。DeepSeek 的全栈开源能在短时间打破 B 端、G 端两个市场,关键在于其 MoE 底层架构大大降低成本、提升效率。而 Llama 4 迷信 scaling law,通过堆砌参数涌现智能的道路已不可通,未来破局的关键在攻克多模态、小样本前沿领網域。
并且,基准测试不等于真实体验,不要一味追求 sota 而忽略了实际场景中的应用体验。与 Llama 4 不同,DeepSeek 前期并没有给自己贴上登顶 sota 的光环,在海内外用户实测中赢得关注的它更有信服力。
另一方面,战略是关键,做好商业化关乎开源模型的生死存亡。
比如,阿里 Qwen 系列通过全模态开源吸引开发者使用云计算等基础设施,形成场景闭环。他们的模型在前期只是一个引子,明码标价的商品实则是云服务。而主攻 AI 的智谱清言没有其他东西卖,选择了开源闭源双轨并行的策略,开源吸引开发者生态,向 B 端和 G 端提供付费的定制解决方案。这说明,企业一定要结合自己的基因思考变现策略,抓准目标市场,想清楚他们的客户期待怎样的服务。
除了卖模型的人,使用模型的人也要注意,开源模型并非万全之策,存在隐性限制。
首先,部分开源模型会在许可证中明确禁止商业应用,仅限学术研究,如 Meta llama2 限制月活超 7 亿公司使用,削弱了开源的自由;其次,许多开源模型仅公开架构,不公开数据源和代码集,开发者只能基于现有模型微调;当然,部署也有一定的门槛,模型微调需要英伟达显卡等昂贵的计算资源,普通开发者难以承担。
实际选择开源模型时,AI 开发者和軟體 ISV 服务商一定要谨慎阅读各种附带条款和協定,避免许可证限制与法务风险;除了开源模型,开发者也可跟闭源模厂开发商业化版本,减少后期风险。
总之,Llama 的一时落败告诉我们:没有技术巩固的开源生态,终是一盘散沙。开源模型厂商想靠吸引广大开发者培育用户粘性,必须保持性能领先,告别无效内卷,走向技术创新。