今天小编分享的科技经验:马斯克为何要作开源“秀”,欢迎阅读。
出品|虎嗅科技组
作者|齐健
编辑|王一鹏
头图|视觉中国
3 月 11 日周一,马斯克发推文说要在一周内开源 Grok。众多开发者等着盼着过了一周,到周日 Grok 才正式将代码推到了开源社区。
开源的 Grok-1 是一个基于 Transformer 架构的自回归模型,参数规模达到 3140 亿参数,是目前参数量最大的开源模型之一,Grok-1 与主流开源大模型一样免费可商用。
在开源之前,Grok 最大的亮点是直接调用 X 中的实时数据和 " 幽默 "。
但开源版本的 Grok 已经打了折扣——在开发者手里,Grok 不可能调取 X 的数据。从本次开源的信息来看,2023 年 11 月 Grok 上线以后调用过的 X 数据,也没有被作为训练数据沉淀到 Grok 中。
除开源打折外,Grok 本身的性能也并不占优。刚上线时,Grok 的评分就远落后于当时的 Palm 2、Claude 2 和 GPT-4。最典型的问题是,其支持的上下文长度只有 8192 个 token。
Grok 取得的关注(上线 3 天在 GitHub 收获 3.9 万 Star), 似乎很大一部分都来自马斯克本身的流量热度。开源 Grok 被马斯克说成是为了践行 "AI 造福全人类 " 的目标,但在与 OpenAI 的官司期间开源,有观点认为,Grok 开源的目的之一,就是为马斯克起诉、声讨 OpenAI 提供的事实依据——这是一场由马斯克亲自操盘的 "AI 大秀 "。
开源 Grok 是作秀?
开源是一场让企业与开发者跳双人舞的 " 社区游戏 ",但 Grok 这个 " 舞伴 ",完全不是普通开发者所能掌控的。
在 Grok-1 之前,很多开源大语言模型(LLM)的参数量只有 70 亿,LLaMA-2 开源的最大参数量也只有 700 亿。
而马斯克直接开源了自家尺寸最大的 3140 亿参数模型,据估计 Grok-1 需要约 628 GB GPU 内存才能勉强运行,普通开发者几乎不可能在本地尝试 Grok-1,对于云服务用户来说,至少需要 8 张 80GB 显存的 A100 或 H100 GPU。
在 Grok 的 GitHub 讨论区有用户留言表示:谷歌云上 80GB A100 的 4 卡伺服器每小时运行成本是 20 美元,这不适合我。(GCP instance with 4 A100 80GB; it cost around $20 per hour; this is not for me LOL.)
Grok 开源之后,笔者也加入了一个关于 Grok 的开源讨论群,但到了第二天,群内的讨论焦点,已经转向了只有 40 亿参数的 Qwen-1.5。
不过,Grok-1 也支持 8bit 量化,一些开发者认为,如果模型可以量化到 160GB," 可玩性 " 会大幅提高。算力不太宽裕的开发者,可以等到官方或者其他开发者发布量化版本后再尝试。
至少从短期来看,开源 Grok 对普通开发者并不是很友好。那么开源对于 Grok 本身来说,有什么帮助呢?从传统的开源视角来看,也很难说。
一些人认为开源模型可以汇聚更多开发者力量,帮助优化模型。但今天的开源 AI 与传统的开源軟體逻辑几乎完全不同。代码开源对于 AI 大模型的促进作用,并不像过去的开源軟體那样明显。
传统軟體开发过程中,一款系统、工具或軟體开源以后,开发者可以基于共享代码直接修复 bug,优化程式。然而今天的多数 AI 模型本身就是一个很大的黑盒,要从中找到问题,并对模型的底层算法进行训练、调优并不容易。
"AI 大模型训练是一个很‘集中’的工作。" 生数科技 CEO 唐家渝表示,AI 大模型很难通过 " 分布式 " 的开源来收集开发者的 " 贡献 "。闭源反而是更能集中包括智力的资源、算力的资源,去做不断地迭代的。
一些开发者认为,对于开源 AI 模型的作者来说,最大的好处是打响知名度——以 Grok 目前的模型能力来看,只有吸引一批开发者、公司、机构对模型进行试用、开发,逐步建立起对模型的认可,才能稳固其在 AI 大模型领網域的 " 江湖地位 ",提高这款既不太新,也不太强的 AI 大模型的影响力。
闭源 Grok 把路走窄了?
从 AI 行业角度来看,Grok 的受关注度不高。由于模型跑分不高,过去几个月中发布的 AI 大模型,在对比评测数据集得分时,几乎很少有人对标 Grok。
从业务视角来看,Grok 在 X 平台中的表现也不理想。
Grok 上线到 X 后,与 ChatGPT Plus 一样采取订阅制,但 ChatGPT 的 GPT-3.5 免费开放,而 Grok 则一刀切,只提供给 X Premium 会员。X Premium 会员的订阅费用是 16 美元包月,168 美元包年。
由于一开始就設定了付费门槛,Grok 没有吃到 X 庞大用户基础的红利。
数据网站 SimilarWeb 的统计显示,2024 年 2 月,x.com 的总访问量为 1.04 亿次,平均访问时长只有 24 秒。对比其他几家主流闭源 AI 的同期流量,chat.openai.com 访问量为 15.5 亿次,平均访问时长是 7 分 33 秒;gemini.google.com 访问量为 3.161 亿次,平均访问时长 6 分 22 秒;相对小众一些的 claude.ai 访问量为 2086 万次,平均访问时间为 5 分 48 秒。
X 与三款 AI 对话网站流量 数据来源 |SimilarWeb
虽然影响网站流量的因素很多,且 x.com 网站的閱聽人、属性与其他几家也有明显差异,直接对比流量并不能完全说明问题,但访问时长的巨大差异,也侧面反映了 X 用户大概率没有跟付费的 Grok 聊太多。
马斯克最早给 Grok 的战略定位,可能更多是考虑促进 X 的 Premium 会员销售,以补贴 X 的广告收入。然而,如今 Grok 在 X 中发挥的作用很可能并没有达到马斯克的预期。与其一直在 X Premium 中 " 躺平 ",开源 Grok 或许能给马斯克和 x.AI 打开新局面。
开源激起千层浪
在 AI 大模型热潮中,靠开源大模型树立行业地位的公司并不少见,包括 MistralAI 以及国内的智谱,阿里的通义千问等。
深陷元宇宙泥潭的 Meta 更是依靠开源 LLaMA 模型打了一次翻身仗。在 2023 年中,全球市场最大的变数是 AI 大模型,而 Meta 最大的变数就是开源了一款 AI 大模型。
通过开源 LLaMA,Meta 展现了其在大型语言模型(LLM)领網域的技术实力和开放创新的姿态,这在一定程度上帮助公司缓解了市场对其元宇宙战略的担忧。由此 Meta 的股价也在一年内翻了几番,市值从 3155 亿美元涨到 1.2 万亿美元,涨出了 19 个京东。
LLaMA 的开源,特别是其成本效益高的特点,对 Meta 而言具有战略意义。与 Google 和 Microsoft 等竞争对手的 AI 大模型相比,LLaMA 的小巧和高性能使得 Meta 能够以较低成本部署高效的 AI 模型。这不仅提高了 AI 技术的普及率,也为 Meta 未来在各种应用和用例上的广泛部署提供了可能。有分析人士认为,基于 Meta 的业务范围,从聊天机器人到游戏,再到未来的生产力軟體,生成式 AI 预计将带动一个价值超过 500 亿美元的市场。
虽然 LLaMA 最初的开源一直被业界传说是无意间的 " 泄露 ",但其最终的结果却为 Meta 在 AI 大模型行业奠定了技术和市场的领导地位。
" 开源 " 的战略逻辑,对于马斯克来说并不陌生。
2014 年,马斯克开放了特斯拉的 350 多项电动车专利技术。当时马斯克在接受采访时表示," 特斯拉的首要目标是加速全世界向可持续能源转变 "。事实证明,马斯克大公无私的 " 开源 ",在后来使得他自己成为了最大的受益者。
特斯拉开放专利的做法,一举将全球汽车市场的水搅浑。大量新能源车企借助特斯拉的专利异军突起,直接激活了整个新能源汽车市场。而特斯拉作为行业领军企业,则借助长期积累的行业口碑和技术开发实力,持续保持了行业的领先地位。
虽然开源 Grok 大概不会像特斯拉开放专利那一石激起千层浪,改变整个 AI 行业的格局,但对于目前的 x.AI 来说,应该也会产生一些积极的影响。