大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

大模型“取长补短”新思路入选NeurIPS‘24,显著优于现有路由方法,南科大港科大出品

2024-11-15 简体 HK SG TW

今天小编分享的科学经验:大模型“取长补短”新思路入选NeurIPS‘24,显著优于现有路由方法,南科大港科大出品,欢迎阅读。

高效组合多个大模型 " 取长补短 " 新思路,被顶会 NeurIPS 2024 接收。

名为RouterDC,是一种基于双重对比学习的路由架构,具有参数高效性(小于 100M 的参数)和计算高效性(不需要对于 LLM 进行梯度回传)的优势。

在具有挑战性语言理解、代码生成和数学推理等推理任务实验中,RouterDC 在分布内(+2.76%)和分布外(+1.90%)设定下,都远超于现有的 routing 方法。

众所周知,LLM 通常在不同数据集上预训练和微调,导致它们在不同任务上的性能强弱不同。

LLM 路由则是一种组合多个 LLM 的新思路,它通过学习一个路由器(Router)来为每一个请求(query)选择最合适的 LLM。在推理时,LLM 路由只需要调用所选的 LLM 进行推理,使其在保持计算高效性的同时利用多个 LLM 的互补能力。

RouterDC 这种新方法,包括一个较小的语言模型作为编码器和一系列与候选 LLM 对应的可学习的LLM embeddings。

对于训练数据中的每个 query,首先将候选 LLM 的预测与真实标签进行比较获得表现最好和最差的 LLM,然后构造两个对比损失:

sample-LLM 对比损失:使得 query embedding(由编码器提取)与表现最佳的 LLM embeddings 相似,同时与表现最差的 LLM embeddings 不相似。

sample-sample 对比损失:提高训练的稳定性,将所有训练 query 聚类成多个组,最大化同组 query 之间的相似性的同时最小化不同组 query 之间的相似性。

这项研究由来自南方科技大学,香港科技大学的研究团队提出,以下是更为详细的介绍。

双对比学习实现 Router 训练

Router 架构

如图 1 所示,RouterDC 包括一个较小的语言模型(mDeBERTaV3-base)作为编码器 ε,和一系列的与候选 LLM 对应的可学习 LLM 嵌入 kT。对于每个 query xi,RouterDC 生成对于 T 个 LLMs 的选择概率如下:

其中,sim ( · , · ) 表示 cosine 相似度。

△图 1:RouterDC 方法示意图

sample-LLM 对比损失

为了训练 router,研究者将 query 的样本嵌入和在其上表现最好的 K+ 个 LLM 对应嵌入拉进,和在其上表现最差的 K- 个 LLM 对应嵌入拉远。因此,样本 -LLM 对比损失可以表示为:

sample-sample 对比损失

研究者通过实验发现,在 routing 问题中只使用样本 -LLM 对比损失并不稳定,使得相似的 query 可能具有不相似的嵌入。

为了提升训练的鲁棒性,训练样本被聚类成不同的组,从而在训练中拉近同一个组内的样本,拉远不同组的样本。和样本 -LLM 对比损失类似,样本 - 样本对比损失可以公式化为:

训练及推理

最终的优化目标为最小化样本 -LLM 对比损失和样本 - 样本对比损失的结合:

推理时,每个测试 query 只需要通过训练好的 router 选取概率最大的 LLM,并使用选择的 LLM 对 query 进行回答。

RouterDC 在训练时不需要任何经过 LLM 的梯度回传,并且在推理时只需要调用进行一次 LLM,同时具有训练和推理的高效性。

实验效果如何?

主要结果

RouterDC 在分布内数据集的测试准确率结果如表 1 所示。可以发现:

RouterDC 显著好于最优的单个模型,平均具有 3.98% 性能提升。在单个任务的层面,RouterDC 在三个任务上相比表现最优的单个模型取得了准确率的提升,其中 GSM8K 提升了 0.51%,ARC-C 提升了 0.57%,HumanEval 提升了 1.63%。

和现有路由方法 CosineClassifier 以及 ZOOTER 对比,RouterDC 在所有任务上都具有更好的表现。和 LoraRetriever 对比,RouterDC 具有平均 2.77% 的准确率提升。

△表 1:分布内任务的测试准确率(%)

为了评估 RouterDC 的泛化能力,表 2 展示了 RouterDC 在三个分布外数据集(PreAlgebra,MBPP,C-EVAL)的测试准确率。

可以看出,RouterDC 再次达到最高的测试准确率,显著超过表现最佳的单个 LLM(dolphin-2.9-llama3-8b)1.9%。

△表 2:分布外任务的测试准确率(%)

sample-sample 损失的作用

为了探究样本 - 样本损失的作用,图 3 展示了在是否有样本 - 样本损失的条件下训练和测试准确率曲线。可以看出,RouterDC(w/o   Lsample-sample)有明显的震荡现象,而 RouterDC 则稳定得多。

△图 2:RouterDC 在 GSM8K 任务上的训练和测试准确率曲线

图 3(a)可视化了使用 RouterDC(w/o Lsample-sample)提取的训练样本的 TSNE 特征,可以看到,属于不同任务的训练样本粗略地混合在一起。而在结合 Lsample-sample 之后,训练样本有了清晰的聚类结构(如图 3(b)所示)。

△图 3:学习到的 router 所提取出训练样本 embedding 的 t-SNE 可视化

RouterDC 具有成本高效性

由于价格(cost)同样是一个评估 LLM 的重要指标,研究者通过 RouterBench 上的两个任务的实验来格外考虑 cost 的影响。如图 16 所示,RouterDC 相比于 CosineClassifier 和 ZOOTER 更加的成本高效。

△图 4:在 RouterBench 上使用不同的 Cost 获取的测试准确率

论文地址:https://arxiv.org/abs/2409.19886

代码地址:https://github.com/shuhao02/RouterDC

—  完  —

投稿请发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們