大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

馬斯克突然開源Grok:3140億參數巨無霸,免費可商用

2024-03-20 简体 HK SG TW

今天小編分享的科學經驗:馬斯克突然開源Grok:3140億參數巨無霸,免費可商用,歡迎閱讀。

馬斯克說到做到:

旗下大模型Grok 現已開源!

代碼和模型權重已上線 GitHub。官方信息顯示,此次開源的 Grok-1 是一個3140 億參數的混合專家模型——

就是說,這是當前開源模型中參數量最大的一個。

消息一出,Grok-1 的 GitHub 倉庫已攬獲 4.5k 标星,并且還在庫庫猛漲。

表情包們,第一時間被吃瓜群眾們熱傳了起來。

而 ChatGPT 本 Chat,也現身 Grok 評論區,開始了和馬斯克新一天的鬥嘴……

那麼,話不多說,來看看馬斯克這波為怼 OpenAI,究竟拿出了什麼真東西。

Grok-1 說開源就開源

此次開源,xAI 發布了 Grok-1 的基本模型權重和網絡架構。

具體來說是 2023 年 10 月預訓練階段的原始基礎模型,沒有針對任何特定應用(例如對話)進行微調。

結構上,Grok-1 采用了混合專家(MoE)架構,包含 8 個專家,總參數量為 314B(3140 億),處理 Token 時,其中的兩個專家會被激活,激活參數量為 86B。

單看這激活的參數量,就已經超過了密集模型 Llama 2 的 70B,對于 MoE 架構來說,這樣的參數量稱之為龐然大物也毫不為過。

不過,在 GitHub 頁面中,官方也提示,由于模型規模較大(314B 參數),需要有足夠 GPU 和内存的機器才能運行 Grok。

這裡 MoE 層的實現效率并不高,選擇這種實現方式是為了避免驗證模型的正确性時需要自定義内核。

模型的權重檔案則是以磁力鏈接的形式提供,檔案大小接近 300GB。

而且這個 " 足夠的 GPU",要求不是一般的高—— YC 上有網友推測,如果是 8bit 量化的話,可能需要 8 塊 H100。

除了參數量前所未有,在工程架構上,Grok 也是另辟蹊徑——

沒有采用常見的 Python、PyTorch 或 Tensorflow,而是選用了 Rust 編程語言以及深度學習框架新秀 JAX。

而在官方通告之外,還有許多大佬通過扒代碼等方式揭露了 Grok 的更多技術細節。

比如來自斯坦福大學的 Andrew Kean Gao,就針對 Grok 的技術細節進行了詳細解釋。

首先,Grok 采用了使用旋轉的 embedding 方式,而不是固定位置 embedding,旋轉位置的 embedding 大小為 6144,與輸入 embedding 相同。

當然,還有更多的參數信息:

視窗長度為 8192tokens,精度為 bf16

Tokenizer vocab 大小為 131072(2^17),與 GPT-4 接近;

embedding 大小為 6144(48 × 128);

Transformer 層數為 64,每層都有一個解碼器層,包含多頭注意力塊和密集塊;

key value 大小為 128;

多頭注意力塊中,有 48 個頭用于查詢,8 個用于 KV,KV 大小為 128;

密集塊(密集前饋塊)擴展因子為 8,隐藏層大小為 32768。

除了 Gao,還有英偉達 AI 科學家 Ethan He(何宜晖)指出,在專家系統的處理方面,Grok 也與另一知名開源 MoE 模型 Mixtral 不同——

Grok 對全部的 8 個專家都應用了 softmax 函數,然後從中選擇 top2 專家,而 Mixtral 則是先選定專家再應用 softmax 函數。

而至于有沒有更多細節,可能要看官方會不會發布進一步的消息了。

另外,值得一提的是,Grok-1 采用的是 Apache 2.0 license,也就是說,商用友好。

為怼 OpenAI 怒而 Open

大家夥知道,馬斯克因為 OpenAI 不 Open,已經向舊金山高等法院提起訴訟,正式把 OpenAI 給告了。

不過當時馬斯克自己搞的 Grok 也并沒有開源,還只面向的付費用戶開放,難免被質疑雙标。

大概是為了堵上這個 bug,馬斯克在上周宣布:

本周,xAI 将開源 Grok。

雖然時間點上似乎又是馬斯克一貫的遲到風格,但 xAI 的這波 Open 如今看來确實不是口嗨,還是給了網友們一些小小的震撼。

有 xAI 新晉員工感慨說:

這将是激動人心的一年,快系好安全帶吧。

有人已經期待起 Grok 作為一個開源模型,進一步攪動大模型競争的這一池水。

不過,也并不是每個人都買馬斯克的賬:

不過說歸說,多線并進的馬斯克,最近大事不止開源 Grok 這一件。

作為多公司、多業務的時間管理大師,馬斯克旗下,特斯拉剛剛全線推出了端到端純視覺的自動駕駛系統 FSD V12,所有北美車主用戶,都 OTA 更新更新,可以實現所有道路場景的任意點到點 AI 駕駛。

SpaceX 則完成了第三次星艦發射,雖然最後功敗垂成,但又史無前例地邁進了一大步。

推特則開源了推薦算法,然後迎來了一波自然流量新高峰。

别人都是 you can you up, no can no bb …馬斯克不一樣,bb up 不選擇,邊喊邊幹,還都幹成了。

參考鏈接:

[ 1 ] https://github.com/xai-org/grok-1

[ 2 ] https://x.ai/blog/grok-os

熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們