今天小編分享的科學經驗:馬斯克突然開源Grok:3140億參數巨無霸,免費可商用,歡迎閱讀。
馬斯克說到做到:
旗下大模型Grok 現已開源!
代碼和模型權重已上線 GitHub。官方信息顯示,此次開源的 Grok-1 是一個3140 億參數的混合專家模型——
就是說,這是當前開源模型中參數量最大的一個。
消息一出,Grok-1 的 GitHub 倉庫已攬獲 4.5k 标星,并且還在庫庫猛漲。
表情包們,第一時間被吃瓜群眾們熱傳了起來。
而 ChatGPT 本 Chat,也現身 Grok 評論區,開始了和馬斯克新一天的鬥嘴……
那麼,話不多說,來看看馬斯克這波為怼 OpenAI,究竟拿出了什麼真東西。
Grok-1 說開源就開源
此次開源,xAI 發布了 Grok-1 的基本模型權重和網絡架構。
具體來說是 2023 年 10 月預訓練階段的原始基礎模型,沒有針對任何特定應用(例如對話)進行微調。
結構上,Grok-1 采用了混合專家(MoE)架構,包含 8 個專家,總參數量為 314B(3140 億),處理 Token 時,其中的兩個專家會被激活,激活參數量為 86B。
單看這激活的參數量,就已經超過了密集模型 Llama 2 的 70B,對于 MoE 架構來說,這樣的參數量稱之為龐然大物也毫不為過。
不過,在 GitHub 頁面中,官方也提示,由于模型規模較大(314B 參數),需要有足夠 GPU 和内存的機器才能運行 Grok。
這裡 MoE 層的實現效率并不高,選擇這種實現方式是為了避免驗證模型的正确性時需要自定義内核。
模型的權重檔案則是以磁力鏈接的形式提供,檔案大小接近 300GB。
而且這個 " 足夠的 GPU",要求不是一般的高—— YC 上有網友推測,如果是 8bit 量化的話,可能需要 8 塊 H100。
除了參數量前所未有,在工程架構上,Grok 也是另辟蹊徑——
沒有采用常見的 Python、PyTorch 或 Tensorflow,而是選用了 Rust 編程語言以及深度學習框架新秀 JAX。
而在官方通告之外,還有許多大佬通過扒代碼等方式揭露了 Grok 的更多技術細節。
比如來自斯坦福大學的 Andrew Kean Gao,就針對 Grok 的技術細節進行了詳細解釋。
首先,Grok 采用了使用旋轉的 embedding 方式,而不是固定位置 embedding,旋轉位置的 embedding 大小為 6144,與輸入 embedding 相同。
當然,還有更多的參數信息:
視窗長度為 8192tokens,精度為 bf16
Tokenizer vocab 大小為 131072(2^17),與 GPT-4 接近;
embedding 大小為 6144(48 × 128);
Transformer 層數為 64,每層都有一個解碼器層,包含多頭注意力塊和密集塊;
key value 大小為 128;
多頭注意力塊中,有 48 個頭用于查詢,8 個用于 KV,KV 大小為 128;
密集塊(密集前饋塊)擴展因子為 8,隐藏層大小為 32768。
除了 Gao,還有英偉達 AI 科學家 Ethan He(何宜晖)指出,在專家系統的處理方面,Grok 也與另一知名開源 MoE 模型 Mixtral 不同——
Grok 對全部的 8 個專家都應用了 softmax 函數,然後從中選擇 top2 專家,而 Mixtral 則是先選定專家再應用 softmax 函數。
而至于有沒有更多細節,可能要看官方會不會發布進一步的消息了。
另外,值得一提的是,Grok-1 采用的是 Apache 2.0 license,也就是說,商用友好。
為怼 OpenAI 怒而 Open
大家夥知道,馬斯克因為 OpenAI 不 Open,已經向舊金山高等法院提起訴訟,正式把 OpenAI 給告了。
不過當時馬斯克自己搞的 Grok 也并沒有開源,還只面向的付費用戶開放,難免被質疑雙标。
大概是為了堵上這個 bug,馬斯克在上周宣布:
本周,xAI 将開源 Grok。
雖然時間點上似乎又是馬斯克一貫的遲到風格,但 xAI 的這波 Open 如今看來确實不是口嗨,還是給了網友們一些小小的震撼。
有 xAI 新晉員工感慨說:
這将是激動人心的一年,快系好安全帶吧。
有人已經期待起 Grok 作為一個開源模型,進一步攪動大模型競争的這一池水。
不過,也并不是每個人都買馬斯克的賬:
不過說歸說,多線并進的馬斯克,最近大事不止開源 Grok 這一件。
作為多公司、多業務的時間管理大師,馬斯克旗下,特斯拉剛剛全線推出了端到端純視覺的自動駕駛系統 FSD V12,所有北美車主用戶,都 OTA 更新更新,可以實現所有道路場景的任意點到點 AI 駕駛。
SpaceX 則完成了第三次星艦發射,雖然最後功敗垂成,但又史無前例地邁進了一大步。
推特則開源了推薦算法,然後迎來了一波自然流量新高峰。
别人都是 you can you up, no can no bb …馬斯克不一樣,bb up 不選擇,邊喊邊幹,還都幹成了。
參考鏈接:
[ 1 ] https://github.com/xai-org/grok-1
[ 2 ] https://x.ai/blog/grok-os