今天小編分享的互聯網經驗:最強開源大模型再度易主,這家初創公司是如何做到的?,歡迎閱讀。
文 |
在 Claude 3 Opus 将 GPT-4 挑落馬下的同時,又是一款「最強開源大模型」來了。
當地時間 3 月 27 日,美國初創公司 Databricks 突然公布了旗下開源大語言模型 DBRX,号稱是全球迄今為止最強的開源大模型,參數規模達到 1320 億,表現更是超越 Meta 的 Llama2、「歐洲新秀」Mistral AI 的 Mixtral,以及馬斯克旗下 xAI 公司剛剛開源的 Grok-1。
更重要的是,他們只花了 2 個月和 1000 萬美元,在性能全面超越 GPT-3.5 的同時,訓練時間和成本都只有 GPT-3.5 的一小部分。
不過公允來說,這當然不是一種合理的比較。一方面是 GPT-3.5 發布時的技術和算力成本,都很難和今時今日相提并論;另一方面是,DBRX 采用了與很多大模型不同的:
Mixture of Experts 專家混合架構。
「刷新」開源大模型性能,DBRX 驗證了大模型訓練的另一條路
Databricks 說 DBRX 大模型是全球最強,并非空穴來風。
首先,DBRX 在語言理解、編程和數學等核心能力的基準測試上,很輕松就擊敗了 Llama2-7B、Mixtral 以及 Grok-1。包括在開源基準測試 Gauntlet 的 30 多個測試中,DBRX 也優于所有對比模型。
圖 / Databricks
另外,不只是開源大模型,DBRX 在大部分基準測試中的表現也超越了 GPT-3.5,甚至在多個測試中非常接近公認第一梯隊的 GPT-4。
最後也是關鍵的,盡管 DBRX 擁有 1320 億參數,Llama 2 的參數規模是 700 億,Mixtral 是 450 億,Grok 則達到了 3140 億,但在實際運行中,DBRX 平均只激活約 360 億參數來進行推理。
這也讓 DBRX 擁有了更快的生成速度和更低的推理成本,簡而言之就是更好的使用體驗和性價比。
而做到這一切的基礎,在于前文提到的專家混合框架。
眾所周知,算力、數據和算法是人工智能的三要素。在算法上,谷歌團隊于 2017 年發布的 Transform 架構至今依然是所有大模型的底層架構。DBRX 則在 Transform 架構的基礎,采用了一種最早于 2022 年年底提出的專家混合架構,事實上包括前面提到的 Mistral AI 也在去年推出了基于該架構的 Mixtral 8x7B。
提出專家混合架構的論文,圖 / arXiv
在該架構下,根據具體詢問的内容和問題,模型只會激活不同的「專家」子模塊進行推理,在吞吐量一定的情況下,可以更快地完成推理、給出回答。換言之,DBRX 的參數規模将近 Llama-70B 的兩倍,性能更強也更聰明,同時實際的推理速度和成本也都來得更好:
讓大模型的性能和速度變得「魚和熊掌,可以兼得」。
再加之訓練的最後階段,Databricks 的開發團隊還将重點轉向數據,采用「課程學習」的方式提高了 DBRX 的性能。
最終,「我們将開源大模型推向了新的技術水平,」Databricks 首席神經網絡架構師兼 DBRX 構建團隊負責人 Jonathan Frankle 說。
值得一提的是,Jonathan Frankle 在接受《連線》雜志采訪時還透露,盡管他們相信專家混合框架的潛力,但在 DBRX 真正訓練出來并完成基準測試之前,其實也不敢笃定最後的效果,甚至根本沒想到 DBRX 還有在代碼生成上的優勢。
但不論如何,DBRX 都可能改變大模型的迭代和應用方式,更可以确定的是,開源大模型之争,還在繼續加劇。
開源大模型:從 Meta 獨占鳌頭,到百家争鳴
前段時間,央視報道指出國產大模型之路面臨的三大挑戰,其中之一就是大多數國產模型基于 Meta 的 Llama 大模型,缺乏自主性。
其實不僅在國内,去年 7 月 Llama2 宣布「免費可商用」推出後,一舉成為了全球開發者首選的開源大模型。畢竟只要經過簡單的微調就能直接應用,何樂而不為。
不過 AI 行業的變化來得又快又兇猛:
先是 Mistral AI 發布 Mistral-7B,宣告全面超越更大參數規模的 Llama2-13B;
不久後,阿裡宣布開源 720 億參數的大語言模型通義千問 Qwen-72B,性能超越标杆 Llama2-70B,号稱最強中文開源模型;
稍晚,谷歌也通過發布 Gemma 開始進入開源大模型的競争,憑借 70 億參數碾壓 Llama2-13B(130 億參數)。
現在我們又看到了,Databricks 也帶着最新發布的 DBRX 加入了這場開源大模型之争。
打造 DBRX 的團隊,圖 / Databricks
其實如果從業務層面,這幾家開源大模型并沒有太大的矛盾,比如 Databricks 作為一家面向企業的初創公司,打造 DBRX 的根本目的還是為企業客戶定制大模型。按照官方的說法,從發布之日開始,企業客戶就能在 Databricks 平台上利用 RAG 系統中的長上下文功能,用自己的私有數據構建一個自定義的 DBRX 模型。
但開源大模型之争的根源在于:不管開發者還是用戶,都更傾向于最好的開源項目,群聚效應可能遠比閉源大模型來得明顯。
換句話說,最好的開源大模型往往會吸引閉源大模型之外的絕大部分廠商、開發者和用戶,并基于此推動大模型的快速迭代和生态擴張。如果類比起來,就像是智能手機早期,Android 在一眾移動作業系統(iOS 除外)中脫穎而出,并一舉成為蘋果之外廠商、開發者和用戶的共同選擇,随後走上了體驗改進和生态擴張的快車道。
戰争還在繼續
顯而易見,大模型的戰争還在繼續,就算是 OpenAI 也不敢一刻放松技術上的領先優勢。君不見在最新的 Chatbot Arena 聊天機器人排行榜中,Claude 3 Opus 在經過時間洗禮和群眾檢驗後已經超越了 GPT-4。
Chatbot Arena 對戰圖,圖 / Hugging Face
開源大模型的戰争當然也在繼續,不管是谷歌、Meta、阿裡,還是 Mistral AI、Databricks 以及更多的開源大模型廠商,都還在繼續進行迭代,提高性能、提高效率。畢竟誰也無法笃定在這場快速變化的技術革命中,能不能守住甚至擴大優勢。
Meta Llama2 雖然今天被連續吊打,但别忘了,扎克伯格已經預告了正在訓練的 Llama3。按照雷科技之前的推算,我們可能在 7 月就能看到一場「復仇戰」,屆時 DBRX 能不能守擂成功:
我很好奇。