马斯克突然开源Grok：3140亿参数巨无霸，免费可商用 - 大酷樂

今天小编分享的科学经验：马斯克突然开源Grok：3140亿参数巨无霸，免费可商用，欢迎阅读。

马斯克说到做到：

旗下大模型Grok 现已开源！

代码和模型权重已上线 GitHub。官方信息显示，此次开源的 Grok-1 是一个3140 亿参数的混合专家模型——

就是说，这是当前开源模型中参数量最大的一个。

消息一出，Grok-1 的 GitHub 仓库已揽获 4.5k 标星，并且还在库库猛涨。

表情包们，第一时间被吃瓜群众们热传了起来。

而 ChatGPT 本 Chat，也现身 Grok 评论区，开始了和马斯克新一天的斗嘴……

那么，话不多说，来看看马斯克这波为怼 OpenAI，究竟拿出了什么真东西。

Grok-1 说开源就开源

此次开源，xAI 发布了 Grok-1 的基本模型权重和网络架构。

具体来说是 2023 年 10 月预训练阶段的原始基础模型，没有针对任何特定应用（例如对话）进行微调。

结构上，Grok-1 采用了混合专家（MoE）架构，包含 8 个专家，总参数量为 314B（3140 亿），处理 Token 时，其中的两个专家会被激活，激活参数量为 86B。

单看这激活的参数量，就已经超过了密集模型 Llama 2 的 70B，对于 MoE 架构来说，这样的参数量称之为庞然大物也毫不为过。

不过，在 GitHub 页面中，官方也提示，由于模型规模较大（314B 参数），需要有足够 GPU 和内存的机器才能运行 Grok。

这里 MoE 层的实现效率并不高，选择这种实现方式是为了避免验证模型的正确性时需要自定义内核。

模型的权重檔案则是以磁力链接的形式提供，檔案大小接近 300GB。

而且这个 " 足够的 GPU"，要求不是一般的高—— YC 上有网友推测，如果是 8bit 量化的话，可能需要 8 块 H100。

除了参数量前所未有，在工程架构上，Grok 也是另辟蹊径——

没有采用常见的 Python、PyTorch 或 Tensorflow，而是选用了 Rust 编程语言以及深度学习框架新秀 JAX。

而在官方通告之外，还有许多大佬通过扒代码等方式揭露了 Grok 的更多技术细节。

比如来自斯坦福大学的 Andrew Kean Gao，就针对 Grok 的技术细节进行了详细解释。

首先，Grok 采用了使用旋转的 embedding 方式，而不是固定位置 embedding，旋转位置的 embedding 大小为 6144，与输入 embedding 相同。

当然，还有更多的参数信息：

視窗长度为 8192tokens，精度为 bf16

Tokenizer vocab 大小为 131072（2^17），与 GPT-4 接近；

embedding 大小为 6144（48 × 128）；

Transformer 层数为 64，每层都有一个解码器层，包含多头注意力块和密集块；

key value 大小为 128；

多头注意力块中，有 48 个头用于查询，8 个用于 KV，KV 大小为 128；

密集块（密集前馈块）扩展因子为 8，隐藏层大小为 32768。

除了 Gao，还有英伟达 AI 科学家 Ethan He（何宜晖）指出，在专家系统的处理方面，Grok 也与另一知名开源 MoE 模型 Mixtral 不同——

Grok 对全部的 8 个专家都应用了 softmax 函数，然后从中选择 top2 专家，而 Mixtral 则是先选定专家再应用 softmax 函数。

而至于有没有更多细节，可能要看官方会不会发布进一步的消息了。

另外，值得一提的是，Grok-1 采用的是 Apache 2.0 license，也就是说，商用友好。

为怼 OpenAI 怒而 Open

大家伙知道，马斯克因为 OpenAI 不 Open，已经向旧金山高等法院提起诉讼，正式把 OpenAI 给告了。

不过当时马斯克自己搞的 Grok 也并没有开源，还只面向的付费用户开放，难免被质疑双标。

大概是为了堵上这个 bug，马斯克在上周宣布：

本周，xAI 将开源 Grok。

虽然时间点上似乎又是马斯克一贯的迟到风格，但 xAI 的这波 Open 如今看来确实不是口嗨，还是给了网友们一些小小的震撼。

有 xAI 新晋员工感慨说：

这将是激动人心的一年，快系好安全带吧。

有人已经期待起 Grok 作为一个开源模型，进一步搅动大模型竞争的这一池水。

不过，也并不是每个人都买马斯克的账：

不过说归说，多线并进的马斯克，最近大事不止开源 Grok 这一件。

作为多公司、多业务的时间管理大师，马斯克旗下，特斯拉刚刚全线推出了端到端纯视觉的自动驾驶系统 FSD V12，所有北美车主用户，都 OTA 更新更新，可以实现所有道路场景的任意点到点 AI 驾驶。

SpaceX 则完成了第三次星舰发射，虽然最后功败垂成，但又史无前例地迈进了一大步。

推特则开源了推荐算法，然后迎来了一波自然流量新高峰。

别人都是 you can you up, no can no bb …马斯克不一样，bb up 不选择，边喊边干，还都干成了。

参考链接：

[ 1 ] https://github.com/xai-org/grok-1

[ 2 ] https://x.ai/blog/grok-os