今天小編分享的科學經驗:馬斯克突發Grok 1.5!上下文長度至128k、HumanEval得分超GPT-4,歡迎閲讀。
就在剛剛,馬斯克 Grok 大模型宣布重大更新。
難怪之前突然開源了 Grok-1,因為他有更強的 Grok-1.5了,主打推理能力。
來自 xAI 的官方推送啥也沒説,直接甩鏈接。主打一個 "字少事大"
新版本 Grok 有啥突破?
一是上下文長度飙升,從 8192 增長到128k,和 GPT-4 齊平。
二是推理性能大幅提升,數學能力直接漲點 50% 之多、HumanEval 數據集上得分超過 GPT-4。
消息一出,評論區立刻就躁起來了。
具體跑分結果如何,咱們立馬來看。
首先,對于上下文視窗。
這次是一把直接提升到之前的 16 倍,來到 128k 量級。
這也就意味着 Grok 可以處理更長和更復雜的提示,同時保持其遵循指令的能力。
在 " 大海撈針 "(NIAH)測試中,Grok-1.5 在 128K token 的上下文中完美檢索嵌入的文本。
整個圖一水兒的藍色(100% 的檢索深度):
其次,推理方面。
Grok-1.5 處理編程和數學相關任務的能力大幅提升,全面超越 Grok-1、Mistral Large、Claude 2。
數學方面,Grok-1.5 在 MATH 基準測試上得分 50.6%,超越中杯 Claude 3 Sonnet;GSM8K 上得分 90%。
編程方面,Grok-1.5 在 HumanEval 基準測試上得分 74.1%,超越中杯 Claude 3 Sonnet、Gemini Pro1.5、GPT-4,僅次于大杯 Claude 3 Opus。
看起來,Grok 這次的實力也是不可小觑。
Grok 系列與其他大模型相比還有一個特色,不使用通用的 Python 語言 +Pytorch 框架。
據官方介紹,Grok 1.5 采用分布式訓練架構,使用Rust、JAX+Kubernetes構建。
為了提高訓練可靠性和維持正常運行時間,團隊提出了自定義訓練協調器,可自動檢測到有問題的節點,然後剔除。
除此之外,他們還優化了 checkpointing、數據加載和訓練重啓等流程,最大限度地減少故障停機時間。
這,才速速有了現在的 Grok 1.5~
更多信息官方也暫時還沒有披露。
可以确定的是,新版本未來幾天會先推送給早期測試者。并按照 " 老規矩 ",很快将在平台上線。
網友們表示:Grok 進步真的相當迅速。
不提别的,Grok 新版本各指标已經全面超越 Claude 2。而 xAI 成立僅一年,只比 Anthropic 落後 9 個月。因此:
打賭 12 個月後,xAI 完全有可能成為領導者。
還有人評價更高,認為馬斯克這是發了另一個 "GPT-4 等效模型 ",喊着:
OpenAI 搞快點啊。
你期待新版本的 Grok 嗎?
參考鏈接:
[ 1 ] https://twitter.com/xai/status/1773510159740063860
[ 2 ] https://x.ai/blog/grok-1.5