大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

真·MoE?路由LLM最全面探索:一種筆記本也能玩的大模型Scaling Up研究

2025-03-19 简体 HK SG TW

今天小編分享的科學經驗:真·MoE?路由LLM最全面探索:一種筆記本也能玩的大模型Scaling Up研究,歡迎閱讀。

事關路由 LLM(Routing LLM),一項截至目前最全面的研究,來了——

共計收集和整理了涉及8500+ 個LLM,在12 個Benchmark 上的共2 億條性能記錄!

先來簡單科普一下路由 LLM。

這種方法主要是把像 ChatGPT、Qwen、DeepSeek 這些成型的 LLM 當作 " 專家 " ,當給一個輸入的時候,有分類能力的Router(路由器)就會把這個輸入分配給合适的 LLM 處理。

如此一來,就能實現高性能、低計算消耗、低幻覺等目标。

而來自中山大學和普渡大學的研究人員在基于上述海量的記錄做了一番探索之後,發現了一個現象,叫做Model-level Scaling Up。

一言蔽之,就是一個好的 Router,可以讓路由 LLM 範式的性能随着 LLM 候選數量的增加迅速變強。

随後,他們通過這些數據構建了針對 Router 設計的評測RouterEval。

值得注意的是,其他研究人員,也可以通過 RouterEval 在很少的計算資源下(如筆記本、單卡 GPU上)就能參與到該路由 LLM 的研究當中。

2 億條記錄中發現的新現象

當大多數研究人員和開發者第一次聽到 Mixture-of-Expert ( MoE ) 的時候,可能第一反應不是現在常見的對結構中的 FFN 層進行擴展,以 FFN 層作為 "expert"。

而是直接将每一個成型的 LLM,比如 ChatGPT、Qwen、DeepSeek 等直接看做是 "expert"。

實際上,這種範式也稱為路由 LLM(Routing LLMs)。

簡單地說,就是給定一個輸入 input,一個具有一定分類能力的 Router ( 路由器 ) 會将 input 分配給指定的 LLM 進行處理,以達到高性能、低計算消耗或者是低幻覺等各種各樣的目标,或組合目标。

這類問題可以被認為是分類問題、推薦系統問題、Agent 規劃甚至是檢索問題(注意,不是檢索數據 for LLM,而是檢索 LLM for 數據)。

一些典型的例子有:

人機客服切換:機器人客服無法解決問題的時候自動切換到更高級的客服,比如更智能的機器人,甚至人類;

強弱 LLM 切換:比如困難問題給 GPT4 解決(費用貴),簡單問題給 GPT3 解決(費用低)

△路由 LLM ( Routing LLMs)示意圖

路由 LLM 具有很高的應用潛力和兼容性,不同 LLM 都可以被添加到 LLM 候選 Pool 中參與 routing(包括異構 LLM,各種 tuning/pretraining 方法下得到的 LLM,等等),而且可以發揮很強的性能。

比如最近 UCB 提出的 Prompt-to-Leaderboard 以很低的訓練成本,以路由 LLM 的範式下實現和需要數十萬個 GPU 訓練得到的 Grok3 相當的性能,并登上 Arena 排行榜第一。

然而當前路由 LLM 領網域仍然存在一些挑戰影響了 Router 的發展:

缺乏統一的 benchmark。各個研究都在小範圍的構建各種的 benchmark 進行研究;

當前 benchmark 不夠全面:當前的工作一般只涉及少量的 LLM、evaluations,而且大多數是閉源不公開。

于是,研究團隊收集并整理且開源了涉及 8567 個不同 LLMs 在 12 個 evaluations 下 2 億條性能記錄,并通過這些記錄發現:

Model-level Scaling Up 現象:有一定能力的 Router,可以使得 routing llm 範式下的性能随着 llm pool 的擴大而迅速上升。過去的研究由于涉及的不同 LLM 較少,不容易觀察到這個現象。

通過這些數據,我們構建了全面的針對 Router 設計的評測 RouterEval。其全面性可以大大幫助 Router 設計的探索。鑑于該測評已經整理良好且很簡潔,可以被看做是傳統的分類問題,所有研究者都可以以很少的計算消耗(甚至單卡或筆記型電腦)參與該大模型的研究當中。

△Model-level Scaling Up 現象示意圖

利用 2 億條性能記錄,可以構建完美 Router,即 oracle Router ro:

接着,根據上式可以構建不同性能的 Router ro ( p ) ,其中 wm 為随機 Router,當 p → 1 時,Router ro ( p ) 越解決上界分類性能,當 p → 0 時,ro ( p ) 越接近随機 Router。

從上圖結果來看,随着 LLM 候選的數量增加,不同的 evaluation 在具有一定能力的 Router 下呈現了 Scaling Up 現象。

而性能一般的 Router,比如随機 Router 則幾乎沒有 Scaling Up 現象。

且快速超過參考模型 Ref. LLM 的性能(參考模型一般是 GPT4)。

另外團隊還可以發現兩個有趣的現象:

RouterEval 涉及的 LLM 的參數分布

弱 LLM 也能組合出非常強的性能。上圖給出了 RouterEval 中涉及的 LLM 的參數分布,LLM 的參數為 7B 或以下的情況占優。文章發現,即使較弱的 LLM 也可以組合出不錯的性能,比如 5 個性能在少于 0.3 的情況下,ro 可以讓他們互補優勢在 MMLU 上達到 0.95(超越 GPT4)的性能。

少量的 LLM 候選已經足夠。從 Model-level Scaling Up 現象示意圖可以看到 3-10 個 LLM 候選的時候已經可以達到非常不錯的性能。而且此時的部署成本并不高,具有很高的性價比。

當前 Router 的結果

通過測試當前的已有的 Routers 的性能,可以發現現在 Router 仍然有很大的提升空間。

不過幸運的是,RouterEval 進行的 Router 設計的實驗不需要大量的計算資源,且可以融入不同的已有技術,包括 few-show learning,數據增強、推薦系統、正則化方法、預訓練模型、額外數據等等 .

因此 Router 将有希望快速得到實質性改進。

以及,和當前一些其他範式的區别和關系如下:

推薦系統:Routing LLM 其實是特殊的推薦系統,LLM 的 input 是推薦系統中的 user 信息,LLM 候選是推薦系統中的商品 item,而性能記錄則是推薦系統中的歷史用戶書記記錄;

LLM 集成:一般 LLM 集成是 post-decision,即讓多個 LLM 完成推理後再合并。而 Routing LLM 是 pre-decision,即在 LLM 推理前就要決定是哪個 LLM 來處理;

LLM Fusion:LLM 融合主要針對是同質的 LLM 的 " 合作 ",而 Routing LLM 可以讓 " 異質 "(包括不開源)的 LLM 進行 " 合作 "

Mixture-of-Experts ( MoE ) : Routing LLM 是 model-level 的 MoE

當然,研究團隊也提出一些未來的挑戰。

首先就是缺乏數據。

要獲得足夠好的 Router,當然的數據仍然遠遠不夠,因為這些性能記錄的數據一般不開源,且掌握在大公司手中,這需要全社區的共同努力。目前也可以通過算法一定程度緩解數據缺乏的問題。

其次是如何保持在多 LLM 候選情況下的 Router 性能的問題。

當 LLM 候選越多的時候,意味着 Router 要進行更多類的分類,這對于 Router 的訓練來說具有很高的挑戰性;

除此之外,還包括RouterEval 目前只關注在性能。

盡管 routing llm 可以考慮計算消耗、幻覺等其他目标。但是目前性能的水平還遠遠不夠,如果現在就過度關注其他目标的話,可能言辭尚早。另外,計算消耗和幻覺等目标的數據不容易搜集,可能采集不到足夠多的 LLM 的記錄數據,仍然需要全社區的努力。

最後,就是部署的難度。

即使足夠強的 Router 可以獲得,但是此時 LLM 候選的部署可能是新的瓶頸,這在計算機系統等領網域中也有很多的研究角度,如計算負載,高效分配、動态模型激活等。幸運的是,從論文的觀察來看,3-10 個 LLM 已經能得到出色的結果。

GitHub 和論文等地址放下面了,感興趣的小夥伴可以深入研究一下哦 ~

代碼地址:

https://github.com/MilkThink-Lab/RouterEval

論文地址 :

https://arxiv.org/abs/2503.10657

論文合集:

https://github.com/MilkThink-Lab/Awesome-Routing-LLMs

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

—  完  —

學術投稿請于工作日發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

  點亮星标

科技前沿進展每日見

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們