今天小编分享的财经经验:说到做到,马斯克开源Grok,3140亿参数免费可商用,欢迎阅读。
文|武静静
编辑|邓咏仪
炮轰 OpenAI 闭源,甚至与 OpenAI 对簿公堂的马斯克,说到做到,真的把自家的 Grok 开源了。
经历了一周的造势,当地时间 3 月 17 日,Grok-1 开源版本如约而至。从参数来看,Grok-1 是目前参数量最大的开源大语言大模型之一,其参数规模达到了 3140 亿,超过 GPT-3.5 当时 1750 亿的参数量。
图片来自 Grok 博客
目前 Grok 没有语言之外的其他能力,但 xAI 称,计划未来将 Grok 打造成多模态的大模型。
从 ChatGPT 发布后,马斯克就站在 OpenAI 对立面,成为排头兵,xAI 也是为此而成立。不少人对 Grok-1 报以期待,想迫不及待试试。
截图自社交媒体平台 X
好于 GPT-3.5 可商用,但难以迭代
xAI 是马斯克 2023 年创立的大模型公司,其设计初衷是模仿科幻小说《银河系漫游指南》,提供尖锐的回复。目前 Grok 技术已集成到社交媒体平台 X 中,可以根据用户的帖子进行回复,订阅 X 高级功能的用户可以直接向 Grok 提问。
从整体测试效果来看,这次开源的 Grok-1 可以说 " 比上不足,比下有余 " ——在各个测试集中呈现的效果要比 GPT-3.5、70b 的 LLAMA2 和 Inflection-1 要好,但距离 Claude2 和 GPT-4 仍然差了一大截。
不过,由于 Grok-1 是 xAI 从零开始训练,在 2023 年 10 月就已经结束了预训练,且没有针对任何特定应用(如对话)进行微调,所以目前无法直接体验到对话的应用。
在社交媒体上,有人评论称,Grok-1 没有对特定任务进行微调,提高了用户使用它的门槛," 市场需要特定的工具,而不是通用的人工智能。"
也有人认为,Grok-1 这种方式可以适应多种不同的任务和应用场景,更适合那些想要用开源模型打造自己专有模型的开发者。
技术架构上,和 GPT-4 一样,Grok-1 采用了大规模参数的专家混合模型(Mixture-of-Experts, MoE)架构,可以将大型网络分解为多个 " 专家 " 子模块,每个子模块负责处理不同类型的信息或任务。
底层技术上,Grok-1 选择使用了基于 JAX(一个由 Google 开发的用于高性能机器学习研究的库)和 Rust(一种注重安全性和并发的系统编程语言)的自定义训练堆栈。
这并不是大型语言模型中常见的选择。大多数知名的大模型比如 OpenAI 的 GPT 系列或 Google 的大模型通常是基于 TensorFlow 或 PyTorch 这样的主流深度学习框架开发的,且有丰富的 API 和社区支持,能让模型开发和训练变得更高效。
但 Grok-1 将 JAX 和 Rust 的结合,优势在于能够在模型性能、效率和可伸缩性方面有所优化。但这也意味着,xAI 可能需要投入更多的资源来维护和支持这种非主流的技术栈。
效率上,Grok-1 模型也找到了更高效训练的方法。在 Grok-1 模型中,只有大约 25% 的权重在任何给定时刻是 " 活跃 " 的,可以把 " 权重 " 理解为参与信息处理的 " 工具 ",这种" 活性权重 "可以减少不必要的计算,提高处理速度,同时也减少了冗余。
此外,Grok-1 的权重和架构是在宽松的 Apache 2.0 许可下发布的,这使得研究者和开发者可以自由地使用、修改和分发模型,打开了更多开放合作和创新的可能性。
眼下,Grok-1 面临的最迫切问题是模型参数太大(3140 亿),这需要巨大的计算资源,所以开源社区无法对 Grok-1 进行迭代。
不过,目前,对话搜索引擎公司 Perplexity CEO Aravind Srinivas 已经在社交媒体上发文称,将会基于 Grok 的基础模型,进行对话式搜索和推理的微调。
OpenAI 对立面:不断壮大的开源力量
Grok-1 的开源也意味着马斯克已经选边站,站在开源这一头,身体力行的参与对抗 OpenAI。
也有人认为,这是马斯克搞的又一次营销噱头。" 一家营利性公司开源的东西往往表明它还不够好。"
但不论动机如何,马斯克此次确实给开源力量增加了有分量的筹码。
一直以来,开源和闭源的争议从未停止。市场争议主要集中在两端,OpenAI 认为闭源能够让技术更安全的被使用,避免技术滥用;开源一方则认为技术不应该掌握在某家公司手中,需要更透明、更公开。几天前,苹果发布的多模态大模型 MM1,也提到要致力于让技术更透明化。
用更直白的话来说,面对一骑绝尘的的 OpenAI,模型层闭源的意义可能并不大,不如开放给社区一起迭代。因此,开源成为更多公司 " 团结起来 " 的选择。
一个典型例子是,Sora 大火之后,中国创业公司潞晨科技团队就火速自研,推出了开源全球首个类 Sora 架构视频生成模型 「Open-Sora 1.0」,该模型包括整个训练流程,包括数据处理、所有训练细节和模型权重。
目前开源力量最大的参与方是 Meta,也成为了 AI 开源社区中的 " 一面旗帜 ",2023 年 7 月,Meta 发布了免费可商用版本大模型 Llama 2。最近,已经有不少媒体报道称,Meta 正在加紧开发新的大语言模型,预计在今年推出能力对标 GPT-4 的开源大模型。马克 · 扎克伯格此前还公开透露,会在 2024 年底前购买约 35 万张英伟达最先进的 H100 AI GPU。
另一个有竞争力的公司是法国生成式 AI 独角兽 Mistral AI,今年 2 月,Mistral AI 发布全新旗舰模型 Mistral Large。Mistral Large 在基础测试中的表现出色,以 81.2% 的分数超越了谷歌 Gemini Pro、GPT-3.5、Meta Llama 2-70B 三款模型。成为仅次于 GPT-4、世界第二大可通过 API 访问的 AI 大模型。
更多公司正在加速参与到大模型开源中,试图瓦解 OpenAI 闭源路线构建起的技术围墙。
欢迎来聊~