大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

模型合并就进化,直接拿下SOTA!Transformer作者创业新成果火了

2024-03-25 简体 HK SG TW

今天小编分享的科学经验:模型合并就进化,直接拿下SOTA!Transformer作者创业新成果火了,欢迎阅读。

把 Huggingface 上的现成模型拿来 " 攒一攒 " ——

直接就能组合出新的强大模型?!

日本大模型公司 sakana.ai 腦洞大开(正是 "Transformer 八子 " 之一所创办的公司),想出了这么一个进化合并模型的妙招。

该方法不仅能自动生成新的基础模型,而且性能绝不赖:

他们得到的一个 70 亿参数的日语数学大模型,直接在相关基准测试上取得了 SOTA,打败了 700 亿参数的 Llama-2 等前辈。

最重要的是,得出这样的模型不需要任何梯度训练,因此需要的计算资源大大减少。

英伟达科学家 Jim Fan 看完大赞:

这是我最近读过的最有想象力的论文之一。

合并进化,自动生成新基础模型

从开源大模型排行榜上表现最好的模型,大多不再是 LLaMA 或 Mistral 这种 " 原始 " 模型,而是一些微调或合并模型之后,我们就能看出:

一种新的趋势出现了。

Sakana.ai 介绍,开源基础模型很容易在数百个不同的方向上进行扩展和微调,然后产生在新的领網域表现出色的新模型。

而在这之中,模型合并显现出了巨大前景。

但,它可能是一种 " 黑魔法 ",严重依赖直觉和专业知识。

因此,我们需要更为系统性的方法。

受自然界的自然选择启发,Sakana.ai 盯上了进化算法,引入 " 进化模型合并 "(Evolutionary Model Merge)的概念,提出一种可以发现最佳模型组合的通用方法。

该方法结合了两种不同的思路:

(1)合并数据流空间(层)中的模型,以及(2)合并参数空间(权重)中的模型。

具体而言,第一种数据流空间方法是通过进化来发现不同模型层的最佳组合,以此形成新模型。

在社区以往的做法中,都是靠直觉来确定如何以及模型哪些层可以与另一个模型的层结合。

但其实,Sakana.ai 介绍,这个问题有一个组合数量巨大的搜索空间,最适合由优化算法如进化算法来搜索。

其操作示例如下:

至于第二个参数空间方法则混合多个模型权重来形成新模型。

这种方法其实很无数种实现,再加上混合的每一层原则上可以使用不同的混合比例,就更多了。

而这,利用进化方法就可以有效地找出更为新颖的混合策略。

以下是将两个不同模型的权重进行混合得到新模型的操作示例:

将以上这两种方法合并,就是这样的:

作者介绍,他们希望在相距较远的领網域,例如数学和非英语语言、视觉和非英语语言,来组成之前大家不曾探索过的新兴组合。

结果,还真有点让人惊喜。

新模型轻松拿下 SOTA

用以上进化合并方法,团队得到了 3 个基础模型:

大语言模型 EvoLLM-JP

由日语大模型 Shisa-Gamma 和数学大模型 WizardMath/Abel 合并而成,擅长解决日语数学问题,进化了 100-150 代。

视觉语言模型 EvoVLM-JP

日语大模型 Shisa Gamma 7B v1+LLaVa-1.6-Mistral-7B,是具有日语能力的 VLM。

影像生成模型 EvoSDXL-JP

支持日语的 SDXL 扩散模型。

前两个已在 Hugging Face 和 GitHub 上发布,最后一个也即将推出。

具体来看。

1、EvoLLM-JP

它在 GSM8K 数据集的多语言版本—— MGSM 的日语评估集上取得成绩如下:

可以看到,EvoLLM-JP 用日语解决数学问题的表现超过了它们的原始模型,也超过了 Llama-2、GPT-3.5 等高性能模型。

其中模型 4 是仅在参数空间进行了优化,模型 6 是使用模型 4 在数据流空间中进一步优化的结果。

在既评估数据能力也评估一般日语能力的日语 lm-evaluation-harness 基准上,EvoLLM-JP 则在 9 个任务上的平均得分最高达到了 70.5 ——只用 70 亿参数,它就打败了 700 亿的 Llama-2 等模型。

团队表示,EvoLLM-JP 已经足够优秀,可以作为通用日语大模型,并解决一些有趣的例子:

比如需要特定日本文化知识的数学问题,或者用关西方言讲日本笑话。

2、EvoVLM-JP

在以下两个影像问答的基准数据集上,分数越高,代表模型用日语回答的描述越准确。

结果,它不仅比其所基于的英语 VLM LLaVa-1.6-Mistral-7B 更出色,也比现有的日语 VLM 更厉害。

如下图所示,在回答图中的信号灯为什么颜色之时,只有 EvoVLM-JP 答对:蓝色。(日本的习俗就是把红绿灯称为红蓝灯)

3、EvoSDXL-JP

这个支持日语的 SDXL 模型只需 4 个扩散模型即可执行推理,生成速度相当快。

具体跑分还没出来,但团队透露也是 " 相当有希望的 "。

可以欣赏一些示例:

提示词包括:味噌ラーメン、最高品質の浮世絵、葛飾北斎、江戸時代。

对于以上 3 个新模型,团队指出:

原则上,我们可以采用基于梯度的反向传播来进一步提高以上这些模型的性能。

但我们不用,因为现在的目的就是表明,即使没有反向传播,我们仍然可以得到足够先进的基础模型,挑战当前的 " 昂贵范式 "。

对此,网友们纷纷点赞。

Jim Fan 也补充:

在基础模型领網域,目前社区几乎完全专注于让模型去学习,而不太重视搜索,但后者在训练(也就是本文提出的进化算法)和推理阶段其实都有巨大的潜力。

△马斯克点赞

所以,如网友所说:

我们现在已经处于模型的寒武纪大爆发时代了吗?

论文地址:

https://arxiv.org/abs/2403.13187

参考链接:

[ 1 ] https://sakana.ai/evolutionary-model-merge/

[ 2 ] https://twitter.com/DrJimFan/status/1771927650883522899?s=20

[ 3 ] https://twitter.com/SakanaAILabs/status/1770613032198279663

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們