新開源之王來了！1320億參數，邏輯數理全面打赢Grok，還比Llama2-70B快1倍 - 大酷樂

今天小編分享的科學經驗：新開源之王來了！1320億參數，邏輯數理全面打赢Grok，還比Llama2-70B快1倍，歡迎閲讀。

" 最強 " 開源大模型之争，又有新王入局：

大數據巨頭 Databricks，剛剛發布MoE 大模型 DBRX，并宣稱：

它在基準測試中擊敗了此前所有開源模型。

包括同為混合專家模型的 Grok-1 和 Mixtral。

新王攪局，迅速引發了開源社區的熱議。

畢竟，僅從紙面數據來看，DBRX 頗具特點：總參數量為1320 億，但因為是混合專家模型，每次激活參數量僅為 360 億。

就是説，在總參數量接近 Llama2-70B 的 2 倍的情況下，DBRX 的生成速度也比 Llama2-70B 快 1 倍。

△DBRX vs Llama2-70B

另外，DBRX 是在 12T token 上從頭訓練的，訓練數據量是 Llama2 的 6 倍，也就是 Chinchilla 定律推薦量的 18 倍。

網友們的第一反應 be like：

首席科學家：打賭輸了就把頭發染藍

來看 DBRX 的具體細節。

DBRX 由 16 個專家模型組成，每次訓練推理會有 4 個專家處于激活狀态。其上下文長度為 32K。

為了訓練 DBRX，Databricks 團隊從雲廠商那裏租用了 3072 個 H100。

一個細節是，團隊向 Wired 透露，經過兩個月的訓練之後，DBRX 已經在基準測試中取得了不錯的分數。而在那個時候，他們買的雲資源還能再跑一個星期。

團隊因此產生了小小的分歧：是用這些資源來訓練一個小杯版本，還是再投喂給模型一些高質量數據，用課程學習（curriculum learning）的方法來提高 DBRX 在一些特定任務上的能力？

經過一番熱烈的内部讨論，Databricks 團隊最終決定走課程學習路線。

正是這一決策使他們收獲頗豐：

Databricks 首席科學家 Jonathan Frankle（就叫他老弗吧）認為，課程學習使得 DBRX" 產生了有意義的變化 "。

具象化一點來説，就是老弗本來覺得 DBRX 可能搞不太定代碼生成，還打賭説如果他判斷錯了，就去把頭發染成藍色。

而這是他的最新照片：

回到正題，DBRX 的測試結果顯示，它在語言理解、編程、數學和邏輯方面都達到了 SOTA，擊敗包括 Llama2-70B、Mixtral 和 Grok-1 在内的一眾開源大模型。

還在大多數基準測試中都擊敗了 GPT-3.5。

Databricks 這次開源了 DBRX 的兩個版本：DBRX Base 和 DBRX Instruct，前者是預訓練基礎模型，後者則經過指令微調。

老弗還對 Wired 透露，他們團隊接下來計劃對模型訓練的那個 " 最後一周 " 展開研究，看看 DBRX 這樣強大的模型是如何在其中收獲額外技能的。

值得一提的是，去年 6 月，Databricks 以 13 億美元（約 93 億人民币）的價格，買下了僅 62 名員工的 AI 初創公司 MosaicML ——

就是發布了 MPT 系列開源模型的那家。

老弗當時就是 MosaicML 的首席科學家。此後，他和他的團隊一起留在了 Databricks。

開源社區嗨翻

DBRX 發布不到 4 小時，已經有人把它成功部署到蘋果 M2 芯片筆記型電腦上了。

而大模型競技場也第一時間開放了 DBRX-instruct 的投票。

不過，也有人對 DBRX 的 " 開源 " 提出了質疑：

根據 Databricks 公布的協定，基于 DBRX 打造的產品，如果月活超過 7 億，就必須另行向 Databricks 提交申請。

參考連接：

[ 1 ] https://www.databricks.com/blog/announcing-dbrx-new-standard-efficient-open-source-customizable-llms

[ 2 ] https://github.com/databricks/dbrx

[ 3 ] https://www.wired.com/story/dbrx-inside-the-creation-of-the-worlds-most-powerful-open-source-ai-model/