說到做到，馬斯克開源Grok，3140億參數免費可商用

今天小編分享的财經經驗：說到做到，馬斯克開源Grok，3140億參數免費可商用，歡迎閱讀。

文｜武靜靜

編輯｜鄧詠儀

炮轟 OpenAI 閉源，甚至與 OpenAI 對簿公堂的馬斯克，說到做到，真的把自家的 Grok 開源了。

經歷了一周的造勢，當地時間 3 月 17 日，Grok-1 開源版本如約而至。從參數來看，Grok-1 是目前參數量最大的開源大語言大模型之一，其參數規模達到了 3140 億，超過 GPT-3.5 當時 1750 億的參數量。

圖片來自 Grok 博客

目前 Grok 沒有語言之外的其他能力，但 xAI 稱，計劃未來将 Grok 打造成多模态的大模型。

從 ChatGPT 發布後，馬斯克就站在 OpenAI 對立面，成為排頭兵，xAI 也是為此而成立。不少人對 Grok-1 報以期待，想迫不及待試試。

截圖自社交媒體平台 X

好于 GPT-3.5 可商用，但難以迭代

xAI 是馬斯克 2023 年創立的大模型公司，其設計初衷是模仿科幻小說《銀河系漫遊指南》，提供尖銳的回復。目前 Grok 技術已集成到社交媒體平台 X 中，可以根據用戶的帖子進行回復，訂閱 X 高級功能的用戶可以直接向 Grok 提問。

從整體測試效果來看，這次開源的 Grok-1 可以說 " 比上不足，比下有餘 " ——在各個測試集中呈現的效果要比 GPT-3.5、70b 的 LLAMA2 和 Inflection-1 要好，但距離 Claude2 和 GPT-4 仍然差了一大截。

不過，由于 Grok-1 是 xAI 從零開始訓練，在 2023 年 10 月就已經結束了預訓練，且沒有針對任何特定應用（如對話）進行微調，所以目前無法直接體驗到對話的應用。

在社交媒體上，有人評論稱，Grok-1 沒有對特定任務進行微調，提高了用戶使用它的門檻，" 市場需要特定的工具，而不是通用的人工智能。"

也有人認為，Grok-1 這種方式可以适應多種不同的任務和應用場景，更适合那些想要用開源模型打造自己專有模型的開發者。

技術架構上，和 GPT-4 一樣，Grok-1 采用了大規模參數的專家混合模型（Mixture-of-Experts, MoE）架構，可以将大型網絡分解為多個 " 專家 " 子模塊，每個子模塊負責處理不同類型的信息或任務。

底層技術上，Grok-1 選擇使用了基于 JAX（一個由 Google 開發的用于高性能機器學習研究的庫）和 Rust（一種注重安全性和并發的系統編程語言）的自定義訓練堆棧。

這并不是大型語言模型中常見的選擇。大多數知名的大模型比如 OpenAI 的 GPT 系列或 Google 的大模型通常是基于 TensorFlow 或 PyTorch 這樣的主流深度學習框架開發的，且有豐富的 API 和社區支持，能讓模型開發和訓練變得更高效。

但 Grok-1 将 JAX 和 Rust 的結合，優勢在于能夠在模型性能、效率和可伸縮性方面有所優化。但這也意味着，xAI 可能需要投入更多的資源來維護和支持這種非主流的技術棧。

效率上，Grok-1 模型也找到了更高效訓練的方法。在 Grok-1 模型中，只有大約 25% 的權重在任何給定時刻是 " 活躍 " 的，可以把 " 權重 " 理解為參與信息處理的 " 工具 "，這種" 活性權重 "可以減少不必要的計算，提高處理速度，同時也減少了冗餘。

此外，Grok-1 的權重和架構是在寬松的 Apache 2.0 許可下發布的，這使得研究者和開發者可以自由地使用、修改和分發模型，打開了更多開放合作和創新的可能性。

眼下，Grok-1 面臨的最迫切問題是模型參數太大（3140 億），這需要巨大的計算資源，所以開源社區無法對 Grok-1 進行迭代。

不過，目前，對話搜索引擎公司 Perplexity CEO Aravind Srinivas 已經在社交媒體上發文稱，将會基于 Grok 的基礎模型，進行對話式搜索和推理的微調。

OpenAI 對立面：不斷壯大的開源力量

Grok-1 的開源也意味着馬斯克已經選邊站，站在開源這一頭，身體力行的參與對抗 OpenAI。

也有人認為，這是馬斯克搞的又一次營銷噱頭。" 一家營利性公司開源的東西往往表明它還不夠好。"

但不論動機如何，馬斯克此次确實給開源力量增加了有分量的籌碼。

一直以來，開源和閉源的争議從未停止。市場争議主要集中在兩端，OpenAI 認為閉源能夠讓技術更安全的被使用，避免技術濫用；開源一方則認為技術不應該掌握在某家公司手中，需要更透明、更公開。幾天前，蘋果發布的多模态大模型 MM1，也提到要致力于讓技術更透明化。

用更直白的話來說，面對一騎絕塵的的 OpenAI，模型層閉源的意義可能并不大，不如開放給社區一起迭代。因此，開源成為更多公司 " 團結起來 " 的選擇。

一個典型例子是，Sora 大火之後，中國創業公司潞晨科技團隊就火速自研，推出了開源全球首個類 Sora 架構視頻生成模型「Open-Sora 1.0」，該模型包括整個訓練流程，包括數據處理、所有訓練細節和模型權重。

目前開源力量最大的參與方是 Meta，也成為了 AI 開源社區中的 " 一面旗幟 "，2023 年 7 月，Meta 發布了免費可商用版本大模型 Llama 2。最近，已經有不少媒體報道稱，Meta 正在加緊開發新的大語言模型，預計在今年推出能力對标 GPT-4 的開源大模型。馬克 · 扎克伯格此前還公開透露，會在 2024 年底前購買約 35 萬張英偉達最先進的 H100 AI GPU。

另一個有競争力的公司是法國生成式 AI 獨角獸 Mistral AI，今年 2 月，Mistral AI 發布全新旗艦模型 Mistral Large。Mistral Large 在基礎測試中的表現出色，以 81.2% 的分數超越了谷歌 Gemini Pro、GPT-3.5、Meta Llama 2-70B 三款模型。成為僅次于 GPT-4、世界第二大可通過 API 訪問的 AI 大模型。

更多公司正在加速參與到大模型開源中，試圖瓦解 OpenAI 閉源路線構建起的技術圍牆。

歡迎來聊～