今天小编分享的科学经验:马斯克突发Grok 1.5!上下文长度至128k、HumanEval得分超GPT-4,欢迎阅读。
就在刚刚,马斯克 Grok 大模型宣布重大更新。
难怪之前突然开源了 Grok-1,因为他有更强的 Grok-1.5了,主打推理能力。
来自 xAI 的官方推送啥也没说,直接甩链接。主打一个 "字少事大"
新版本 Grok 有啥突破?
一是上下文长度飙升,从 8192 增长到128k,和 GPT-4 齐平。
二是推理性能大幅提升,数学能力直接涨点 50% 之多、HumanEval 数据集上得分超过 GPT-4。
消息一出,评论区立刻就躁起来了。
具体跑分结果如何,咱们立马来看。
首先,对于上下文視窗。
这次是一把直接提升到之前的 16 倍,来到 128k 量级。
这也就意味着 Grok 可以处理更长和更复杂的提示,同时保持其遵循指令的能力。
在 " 大海捞针 "(NIAH)测试中,Grok-1.5 在 128K token 的上下文中完美检索嵌入的文本。
整个图一水儿的蓝色(100% 的检索深度):
其次,推理方面。
Grok-1.5 处理编程和数学相关任务的能力大幅提升,全面超越 Grok-1、Mistral Large、Claude 2。
数学方面,Grok-1.5 在 MATH 基准测试上得分 50.6%,超越中杯 Claude 3 Sonnet;GSM8K 上得分 90%。
编程方面,Grok-1.5 在 HumanEval 基准测试上得分 74.1%,超越中杯 Claude 3 Sonnet、Gemini Pro1.5、GPT-4,仅次于大杯 Claude 3 Opus。
看起来,Grok 这次的实力也是不可小觑。
Grok 系列与其他大模型相比还有一个特色,不使用通用的 Python 语言 +Pytorch 框架。
据官方介绍,Grok 1.5 采用分布式训练架构,使用Rust、JAX+Kubernetes构建。
为了提高训练可靠性和维持正常运行时间,团队提出了自定义训练协调器,可自动检测到有问题的节点,然后剔除。
除此之外,他们还优化了 checkpointing、数据加载和训练重启等流程,最大限度地减少故障停机时间。
这,才速速有了现在的 Grok 1.5~
更多信息官方也暂时还没有披露。
可以确定的是,新版本未来几天会先推送给早期测试者。并按照 " 老规矩 ",很快将在平台上线。
网友们表示:Grok 进步真的相当迅速。
不提别的,Grok 新版本各指标已经全面超越 Claude 2。而 xAI 成立仅一年,只比 Anthropic 落后 9 个月。因此:
打赌 12 个月后,xAI 完全有可能成为领导者。
还有人评价更高,认为马斯克这是发了另一个 "GPT-4 等效模型 ",喊着:
OpenAI 搞快点啊。
你期待新版本的 Grok 吗?
参考链接:
[ 1 ] https://twitter.com/xai/status/1773510159740063860
[ 2 ] https://x.ai/blog/grok-1.5