大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 互聯網

最強開源大模型再度易主,這家初創公司是如何做到的?

2024-03-30 简体 HK SG TW

今天小編分享的互聯網經驗:最強開源大模型再度易主,這家初創公司是如何做到的?,歡迎閱讀。

文 |   

在 Claude 3 Opus 将 GPT-4 挑落馬下的同時,又是一款「最強開源大模型」來了。

當地時間 3 月 27 日,美國初創公司 Databricks 突然公布了旗下開源大語言模型 DBRX,号稱是全球迄今為止最強的開源大模型,參數規模達到 1320 億,表現更是超越 Meta 的 Llama2、「歐洲新秀」Mistral AI 的 Mixtral,以及馬斯克旗下 xAI 公司剛剛開源的 Grok-1。

更重要的是,他們只花了 2 個月和 1000 萬美元,在性能全面超越 GPT-3.5 的同時,訓練時間和成本都只有 GPT-3.5 的一小部分。

不過公允來說,這當然不是一種合理的比較。一方面是 GPT-3.5 發布時的技術和算力成本,都很難和今時今日相提并論;另一方面是,DBRX 采用了與很多大模型不同的:

Mixture of Experts 專家混合架構。

「刷新」開源大模型性能,DBRX 驗證了大模型訓練的另一條路

Databricks 說 DBRX 大模型是全球最強,并非空穴來風。

首先,DBRX 在語言理解、編程和數學等核心能力的基準測試上,很輕松就擊敗了 Llama2-7B、Mixtral 以及 Grok-1。包括在開源基準測試 Gauntlet 的 30 多個測試中,DBRX 也優于所有對比模型。

圖 /   Databricks

另外,不只是開源大模型,DBRX 在大部分基準測試中的表現也超越了 GPT-3.5,甚至在多個測試中非常接近公認第一梯隊的 GPT-4。

最後也是關鍵的,盡管 DBRX 擁有 1320 億參數,Llama 2 的參數規模是 700 億,Mixtral 是 450 億,Grok 則達到了 3140 億,但在實際運行中,DBRX 平均只激活約 360 億參數來進行推理。

這也讓 DBRX 擁有了更快的生成速度和更低的推理成本,簡而言之就是更好的使用體驗和性價比。

而做到這一切的基礎,在于前文提到的專家混合框架。

眾所周知,算力、數據和算法是人工智能的三要素。在算法上,谷歌團隊于 2017 年發布的 Transform 架構至今依然是所有大模型的底層架構。DBRX 則在 Transform 架構的基礎,采用了一種最早于 2022 年年底提出的專家混合架構,事實上包括前面提到的 Mistral AI 也在去年推出了基于該架構的 Mixtral 8x7B。

提出專家混合架構的論文,圖 / arXiv

在該架構下,根據具體詢問的内容和問題,模型只會激活不同的「專家」子模塊進行推理,在吞吐量一定的情況下,可以更快地完成推理、給出回答。換言之,DBRX 的參數規模将近 Llama-70B 的兩倍,性能更強也更聰明,同時實際的推理速度和成本也都來得更好:

讓大模型的性能和速度變得「魚和熊掌,可以兼得」。

再加之訓練的最後階段,Databricks 的開發團隊還将重點轉向數據,采用「課程學習」的方式提高了 DBRX 的性能。

最終,「我們将開源大模型推向了新的技術水平,」Databricks 首席神經網絡架構師兼 DBRX 構建團隊負責人 Jonathan Frankle 說。

值得一提的是,Jonathan Frankle 在接受《連線》雜志采訪時還透露,盡管他們相信專家混合框架的潛力,但在 DBRX 真正訓練出來并完成基準測試之前,其實也不敢笃定最後的效果,甚至根本沒想到 DBRX 還有在代碼生成上的優勢。

但不論如何,DBRX 都可能改變大模型的迭代和應用方式,更可以确定的是,開源大模型之争,還在繼續加劇。

開源大模型:從 Meta 獨占鳌頭,到百家争鳴

前段時間,央視報道指出國產大模型之路面臨的三大挑戰,其中之一就是大多數國產模型基于 Meta 的 Llama 大模型,缺乏自主性。

其實不僅在國内,去年 7 月 Llama2 宣布「免費可商用」推出後,一舉成為了全球開發者首選的開源大模型。畢竟只要經過簡單的微調就能直接應用,何樂而不為。

不過 AI 行業的變化來得又快又兇猛:

先是 Mistral AI 發布 Mistral-7B,宣告全面超越更大參數規模的 Llama2-13B;

不久後,阿裡宣布開源 720 億參數的大語言模型通義千問 Qwen-72B,性能超越标杆 Llama2-70B,号稱最強中文開源模型;

稍晚,谷歌也通過發布 Gemma 開始進入開源大模型的競争,憑借 70 億參數碾壓 Llama2-13B(130 億參數)。

現在我們又看到了,Databricks 也帶着最新發布的 DBRX 加入了這場開源大模型之争。

打造 DBRX 的團隊,圖 /   Databricks

其實如果從業務層面,這幾家開源大模型并沒有太大的矛盾,比如 Databricks 作為一家面向企業的初創公司,打造 DBRX 的根本目的還是為企業客戶定制大模型。按照官方的說法,從發布之日開始,企業客戶就能在 Databricks 平台上利用 RAG 系統中的長上下文功能,用自己的私有數據構建一個自定義的 DBRX 模型。

但開源大模型之争的根源在于:不管開發者還是用戶,都更傾向于最好的開源項目,群聚效應可能遠比閉源大模型來得明顯。

換句話說,最好的開源大模型往往會吸引閉源大模型之外的絕大部分廠商、開發者和用戶,并基于此推動大模型的快速迭代和生态擴張。如果類比起來,就像是智能手機早期,Android 在一眾移動作業系統(iOS 除外)中脫穎而出,并一舉成為蘋果之外廠商、開發者和用戶的共同選擇,随後走上了體驗改進和生态擴張的快車道。

戰争還在繼續

顯而易見,大模型的戰争還在繼續,就算是 OpenAI 也不敢一刻放松技術上的領先優勢。君不見在最新的 Chatbot Arena 聊天機器人排行榜中,Claude 3 Opus 在經過時間洗禮和群眾檢驗後已經超越了 GPT-4。

Chatbot Arena 對戰圖,圖 / Hugging Face

開源大模型的戰争當然也在繼續,不管是谷歌、Meta、阿裡,還是 Mistral AI、Databricks 以及更多的開源大模型廠商,都還在繼續進行迭代,提高性能、提高效率。畢竟誰也無法笃定在這場快速變化的技術革命中,能不能守住甚至擴大優勢。

Meta Llama2 雖然今天被連續吊打,但别忘了,扎克伯格已經預告了正在訓練的 Llama3。按照雷科技之前的推算,我們可能在 7 月就能看到一場「復仇戰」,屆時 DBRX 能不能守擂成功:

我很好奇。

熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們