最強開源大模型再度易主，這家初創公司是如何做到的？

今天小編分享的互聯網經驗：最強開源大模型再度易主，這家初創公司是如何做到的？，歡迎閱讀。

文 |

在 Claude 3 Opus 将 GPT-4 挑落馬下的同時，又是一款「最強開源大模型」來了。

當地時間 3 月 27 日，美國初創公司 Databricks 突然公布了旗下開源大語言模型 DBRX，号稱是全球迄今為止最強的開源大模型，參數規模達到 1320 億，表現更是超越 Meta 的 Llama2、「歐洲新秀」Mistral AI 的 Mixtral，以及馬斯克旗下 xAI 公司剛剛開源的 Grok-1。

更重要的是，他們只花了 2 個月和 1000 萬美元，在性能全面超越 GPT-3.5 的同時，訓練時間和成本都只有 GPT-3.5 的一小部分。

不過公允來說，這當然不是一種合理的比較。一方面是 GPT-3.5 發布時的技術和算力成本，都很難和今時今日相提并論；另一方面是，DBRX 采用了與很多大模型不同的：

Mixture of Experts 專家混合架構。

「刷新」開源大模型性能，DBRX 驗證了大模型訓練的另一條路

Databricks 說 DBRX 大模型是全球最強，并非空穴來風。

首先，DBRX 在語言理解、編程和數學等核心能力的基準測試上，很輕松就擊敗了 Llama2-7B、Mixtral 以及 Grok-1。包括在開源基準測試 Gauntlet 的 30 多個測試中，DBRX 也優于所有對比模型。

圖 / Databricks

另外，不只是開源大模型，DBRX 在大部分基準測試中的表現也超越了 GPT-3.5，甚至在多個測試中非常接近公認第一梯隊的 GPT-4。

最後也是關鍵的，盡管 DBRX 擁有 1320 億參數，Llama 2 的參數規模是 700 億，Mixtral 是 450 億，Grok 則達到了 3140 億，但在實際運行中，DBRX 平均只激活約 360 億參數來進行推理。

這也讓 DBRX 擁有了更快的生成速度和更低的推理成本，簡而言之就是更好的使用體驗和性價比。

而做到這一切的基礎，在于前文提到的專家混合框架。

眾所周知，算力、數據和算法是人工智能的三要素。在算法上，谷歌團隊于 2017 年發布的 Transform 架構至今依然是所有大模型的底層架構。DBRX 則在 Transform 架構的基礎，采用了一種最早于 2022 年年底提出的專家混合架構，事實上包括前面提到的 Mistral AI 也在去年推出了基于該架構的 Mixtral 8x7B。

提出專家混合架構的論文，圖 / arXiv

在該架構下，根據具體詢問的内容和問題，模型只會激活不同的「專家」子模塊進行推理，在吞吐量一定的情況下，可以更快地完成推理、給出回答。換言之，DBRX 的參數規模将近 Llama-70B 的兩倍，性能更強也更聰明，同時實際的推理速度和成本也都來得更好：

讓大模型的性能和速度變得「魚和熊掌，可以兼得」。

再加之訓練的最後階段，Databricks 的開發團隊還将重點轉向數據，采用「課程學習」的方式提高了 DBRX 的性能。

最終，「我們将開源大模型推向了新的技術水平，」Databricks 首席神經網絡架構師兼 DBRX 構建團隊負責人 Jonathan Frankle 說。

值得一提的是，Jonathan Frankle 在接受《連線》雜志采訪時還透露，盡管他們相信專家混合框架的潛力，但在 DBRX 真正訓練出來并完成基準測試之前，其實也不敢笃定最後的效果，甚至根本沒想到 DBRX 還有在代碼生成上的優勢。

但不論如何，DBRX 都可能改變大模型的迭代和應用方式，更可以确定的是，開源大模型之争，還在繼續加劇。

開源大模型：從 Meta 獨占鳌頭，到百家争鳴

前段時間，央視報道指出國產大模型之路面臨的三大挑戰，其中之一就是大多數國產模型基于 Meta 的 Llama 大模型，缺乏自主性。

其實不僅在國内，去年 7 月 Llama2 宣布「免費可商用」推出後，一舉成為了全球開發者首選的開源大模型。畢竟只要經過簡單的微調就能直接應用，何樂而不為。

不過 AI 行業的變化來得又快又兇猛：

先是 Mistral AI 發布 Mistral-7B，宣告全面超越更大參數規模的 Llama2-13B；

不久後，阿裡宣布開源 720 億參數的大語言模型通義千問 Qwen-72B，性能超越标杆 Llama2-70B，号稱最強中文開源模型；

稍晚，谷歌也通過發布 Gemma 開始進入開源大模型的競争，憑借 70 億參數碾壓 Llama2-13B（130 億參數）。

現在我們又看到了，Databricks 也帶着最新發布的 DBRX 加入了這場開源大模型之争。

打造 DBRX 的團隊，圖 / Databricks

其實如果從業務層面，這幾家開源大模型并沒有太大的矛盾，比如 Databricks 作為一家面向企業的初創公司，打造 DBRX 的根本目的還是為企業客戶定制大模型。按照官方的說法，從發布之日開始，企業客戶就能在 Databricks 平台上利用 RAG 系統中的長上下文功能，用自己的私有數據構建一個自定義的 DBRX 模型。

但開源大模型之争的根源在于：不管開發者還是用戶，都更傾向于最好的開源項目，群聚效應可能遠比閉源大模型來得明顯。

換句話說，最好的開源大模型往往會吸引閉源大模型之外的絕大部分廠商、開發者和用戶，并基于此推動大模型的快速迭代和生态擴張。如果類比起來，就像是智能手機早期，Android 在一眾移動作業系統（iOS 除外）中脫穎而出，并一舉成為蘋果之外廠商、開發者和用戶的共同選擇，随後走上了體驗改進和生态擴張的快車道。

戰争還在繼續

顯而易見，大模型的戰争還在繼續，就算是 OpenAI 也不敢一刻放松技術上的領先優勢。君不見在最新的 Chatbot Arena 聊天機器人排行榜中，Claude 3 Opus 在經過時間洗禮和群眾檢驗後已經超越了 GPT-4。

Chatbot Arena 對戰圖，圖 / Hugging Face

開源大模型的戰争當然也在繼續，不管是谷歌、Meta、阿裡，還是 Mistral AI、Databricks 以及更多的開源大模型廠商，都還在繼續進行迭代，提高性能、提高效率。畢竟誰也無法笃定在這場快速變化的技術革命中，能不能守住甚至擴大優勢。

Meta Llama2 雖然今天被連續吊打，但别忘了，扎克伯格已經預告了正在訓練的 Llama3。按照雷科技之前的推算，我們可能在 7 月就能看到一場「復仇戰」，屆時 DBRX 能不能守擂成功：

我很好奇。