馬斯克突發Grok 1.5！上下文長度至128k、HumanEval得分超GPT-4 - 大酷樂

今天小編分享的科學經驗：馬斯克突發Grok 1.5！上下文長度至128k、HumanEval得分超GPT-4，歡迎閲讀。

就在剛剛，馬斯克 Grok 大模型宣布重大更新。

難怪之前突然開源了 Grok-1，因為他有更強的 Grok-1.5了，主打推理能力。

來自 xAI 的官方推送啥也沒説，直接甩鏈接。主打一個 "字少事大"

新版本 Grok 有啥突破？

一是上下文長度飙升，從 8192 增長到128k，和 GPT-4 齊平。

二是推理性能大幅提升，數學能力直接漲點 50% 之多、HumanEval 數據集上得分超過 GPT-4。

消息一出，評論區立刻就躁起來了。

具體跑分結果如何，咱們立馬來看。

首先，對于上下文視窗。

這次是一把直接提升到之前的 16 倍，來到 128k 量級。

這也就意味着 Grok 可以處理更長和更復雜的提示，同時保持其遵循指令的能力。

在 " 大海撈針 "（NIAH）測試中，Grok-1.5 在 128K token 的上下文中完美檢索嵌入的文本。

整個圖一水兒的藍色（100% 的檢索深度）：

其次，推理方面。

Grok-1.5 處理編程和數學相關任務的能力大幅提升，全面超越 Grok-1、Mistral Large、Claude 2。

數學方面，Grok-1.5 在 MATH 基準測試上得分 50.6%，超越中杯 Claude 3 Sonnet；GSM8K 上得分 90%。

編程方面，Grok-1.5 在 HumanEval 基準測試上得分 74.1%，超越中杯 Claude 3 Sonnet、Gemini Pro1.5、GPT-4，僅次于大杯 Claude 3 Opus。

看起來，Grok 這次的實力也是不可小觑。

Grok 系列與其他大模型相比還有一個特色，不使用通用的 Python 語言 +Pytorch 框架。

據官方介紹，Grok 1.5 采用分布式訓練架構，使用Rust、JAX+Kubernetes構建。

為了提高訓練可靠性和維持正常運行時間，團隊提出了自定義訓練協調器，可自動檢測到有問題的節點，然後剔除。

除此之外，他們還優化了 checkpointing、數據加載和訓練重啓等流程，最大限度地減少故障停機時間。

這，才速速有了現在的 Grok 1.5～

更多信息官方也暫時還沒有披露。

可以确定的是，新版本未來幾天會先推送給早期測試者。并按照 " 老規矩 "，很快将在平台上線。

網友們表示：Grok 進步真的相當迅速。

不提别的，Grok 新版本各指标已經全面超越 Claude 2。而 xAI 成立僅一年，只比 Anthropic 落後 9 個月。因此：

打賭 12 個月後，xAI 完全有可能成為領導者。

還有人評價更高，認為馬斯克這是發了另一個 "GPT-4 等效模型 "，喊着：

OpenAI 搞快點啊。

你期待新版本的 Grok 嗎？

參考鏈接：

[ 1 ] https://twitter.com/xai/status/1773510159740063860

[ 2 ] https://x.ai/blog/grok-1.5

熱門排行

高露現身上海虹橋機場黑色外套點綴亮色愛惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：處理器更新為天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懶癌”發病率上升，定期體檢别忽視幸聽楓 | 2023-05-02
宋慧喬獲百想視後韓素希發圖手動加愛心表賁芳蕤 | 2023-05-02
曹操墓，裏面都有啥？衛青柏 | 2023-05-02
中央部署經濟工作，釋放5大信号郜萌運 | 2023-05-02
十年了，他們終于要HE！惠惠君 | 2023-05-07
高德上線手機彎道會車預警功能習又夏 | 2023-05-02
《雲襄傳》終于抬上來啦，男O女A讓人好上頭！集玲琳 | 2023-05-02
等比例長大的童星，李蘭迪算一個郟君昊 | 2023-05-02
陳自瑤抱病為愛女做蛋糕慶生，王浩信點贊沒露賁芳蕤 | 2023-05-02
21家A股遊戲公司2022年收入651億今年“遊衛青柏 | 2023-05-04
這些被抓來做實驗的流浪狗，最終拯救了無數糖集玲琳 | 2023-05-02
信用風險釋放趨緩，結構性風險需重點關注 — 袁曼雁 | 2023-05-02
普京籤署總統令，批準對俄刑法典相關法條的修集玲琳 | 2023-05-02
高端國產車：軍車血統，目前電動車越野的“天花謝飛揚 | 2023-05-02
解除資格！停止一切合作佼昌翰 | 2023-05-02
3699起聯想小新mini主機上架 13代酷睿标壓習又夏 | 2023-05-05
與周立波夫婦鬧糾紛成老賴，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
中銀證券給予南京銀行增持評級袁曼雁 | 2023-05-03
前董事長被免，天山生物全面進入“中植系”時惠惠君 | 2023-05-02
瘋成這樣，怎麼還能被全網吹捧？郜萌運 | 2023-05-02
狂吼11次“讓一下”！交警咆哮開道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收購美國第一共和銀行謝飛揚 | 2023-05-02
事關農村土地承包和農民權益，《農村土地承包郟君昊 | 2023-05-02
台劇赢麻了，又來一部8.9 衛青柏 | 2023-05-02
下降45分，上漲35分！34所自劃線院校復試分數線袁曼雁 | 2023-05-07
"三高"已盯上青少年，做好這件事是關鍵習又夏 | 2023-05-05
五一檔沒一個能打的集玲琳 | 2023-05-05
恐怖韓劇下神壇，這次膽小可入袁曼雁 | 2023-05-05
200户連夜疏散，原因讓人憤怒！“損失超一億”，袁曼雁 | 2023-05-03
這劇是不是用ChatGPT寫的呀？惠惠君 | 2023-05-02
性騷擾慣犯，滾出娛樂圈謝飛揚 | 2023-05-05
48歲何炅自曝已老花眼，黃磊睡前認老，《向往的佼昌翰 | 2023-05-02
一個《長月燼明》倒了，《狐妖》《長相思》《惠惠君 | 2023-05-02
當年輕人開始不随份子錢袁曼雁 | 2023-05-02
張天愛假期曬“酷”存照卷發披肩穿黑色吊嬴覓晴 | 2023-05-02
畢滢用8年時間成功逼宮？曾被傳已婚生子的她，幸聽楓 | 2023-05-03
宋慧喬獲視後首次曬照，拿獎杯笑容温柔郜萌運 | 2023-05-02