馬斯克突發Grok 1.5！上下文長度至128k、HumanEval得分超GPT-4

今天小編分享的科學經驗：馬斯克突發Grok 1.5！上下文長度至128k、HumanEval得分超GPT-4，歡迎閱讀。

就在剛剛，馬斯克 Grok 大模型宣布重大更新。

難怪之前突然開源了 Grok-1，因為他有更強的 Grok-1.5了，主打推理能力。

來自 xAI 的官方推送啥也沒說，直接甩鏈接。主打一個 "字少事大"

新版本 Grok 有啥突破？

一是上下文長度飙升，從 8192 增長到128k，和 GPT-4 齊平。

二是推理性能大幅提升，數學能力直接漲點 50% 之多、HumanEval 數據集上得分超過 GPT-4。

消息一出，評論區立刻就躁起來了。

具體跑分結果如何，咱們立馬來看。

首先，對于上下文視窗。

這次是一把直接提升到之前的 16 倍，來到 128k 量級。

這也就意味着 Grok 可以處理更長和更復雜的提示，同時保持其遵循指令的能力。

在 " 大海撈針 "（NIAH）測試中，Grok-1.5 在 128K token 的上下文中完美檢索嵌入的文本。

整個圖一水兒的藍色（100% 的檢索深度）：

其次，推理方面。

Grok-1.5 處理編程和數學相關任務的能力大幅提升，全面超越 Grok-1、Mistral Large、Claude 2。

數學方面，Grok-1.5 在 MATH 基準測試上得分 50.6%，超越中杯 Claude 3 Sonnet；GSM8K 上得分 90%。

編程方面，Grok-1.5 在 HumanEval 基準測試上得分 74.1%，超越中杯 Claude 3 Sonnet、Gemini Pro1.5、GPT-4，僅次于大杯 Claude 3 Opus。

看起來，Grok 這次的實力也是不可小觑。

Grok 系列與其他大模型相比還有一個特色，不使用通用的 Python 語言 +Pytorch 框架。

據官方介紹，Grok 1.5 采用分布式訓練架構，使用Rust、JAX+Kubernetes構建。

為了提高訓練可靠性和維持正常運行時間，團隊提出了自定義訓練協調器，可自動檢測到有問題的節點，然後剔除。

除此之外，他們還優化了 checkpointing、數據加載和訓練重啟等流程，最大限度地減少故障停機時間。

這，才速速有了現在的 Grok 1.5～

更多信息官方也暫時還沒有披露。

可以确定的是，新版本未來幾天會先推送給早期測試者。并按照 " 老規矩 "，很快将在平台上線。

網友們表示：Grok 進步真的相當迅速。

不提别的，Grok 新版本各指标已經全面超越 Claude 2。而 xAI 成立僅一年，只比 Anthropic 落後 9 個月。因此：

打賭 12 個月後，xAI 完全有可能成為領導者。

還有人評價更高，認為馬斯克這是發了另一個 "GPT-4 等效模型 "，喊着：

OpenAI 搞快點啊。

你期待新版本的 Grok 嗎？

參考鏈接：

[ 1 ] https://twitter.com/xai/status/1773510159740063860

[ 2 ] https://x.ai/blog/grok-1.5