大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

3B模型不输7B LLaVA!北大多模态MoE模型登GitHub热榜

2024-02-11 简体 HK SG TW

今天小编分享的科学经验:3B模型不输7B LLaVA!北大多模态MoE模型登GitHub热榜,欢迎阅读。

混合专家(MoE)架构已支持多模态大模型,开发者终于不用卷参数量了!

北大联合中山大学、腾讯等机构推出的新模型MoE-LLaVA,登上了 GitHub 热榜。

它仅有 3B 激活参数,表现却已和 7B 稠密模型持平,甚至部分指标比 13B 的模型还要好。

从一张图表中,MoE-LLaVA 可以精准分析之中的细节,连线条的颜色都能把控到位。

推理能力也十分优秀,能够根据照片场景针对性地给出旅行建议。

在物体幻觉基准测试中,MoE-LLaVA 取得了近 87 分的成绩,超过了一众 13B 模型,占据了成为成绩 - 参数量图线左上角的位置。

性能方面,在 8 块 V100 上,仅需两天时间就能完成 MoE-LLaVA 的训练。

与简单粗暴地提高参数量相比,MoE 架构大幅降低了多模态模型的训练和推理成本。

目前,研究团队已经开放了所有的数据、代码和模型,那么它的表现到底如何呢?

成绩不输 13B 稠密模型

在影像问答数据集和 Benchmark 工具上,MoE-LLaVA 都取得了优异的测试成绩。

与前 SOTA 方法 LLaVA-1.5 相比,MoE-LLaVA-2.7B × 4 展现了强大的图片理解能力,在 5 个数据集上的表现非常接近 LLaVA-1.5。

其中,在 SQA 数据集上,MoE-LLaVA 的成绩比 LLaVA-1.5-7B 还要领先 1.9 个百分点。

而相比于小规模多模态模型 TinyGPT-V,MoE-LLaVA-1.8B × 4 在相当的激活参数下,在 GQA 和 VisWiz 数据集中分别超出 27.5 和 10 个百分点,说明了 MoE-LLaVA 拥有强大的视觉理解能力。

为了更全面的验证 MoE-LLaVA 的多模态理解能力,研究团队在 4 个 Benchmark 工具包上评估了它的性能。

Benchmark 工具包中的答案通常是开放性的,而且没有固定模板,目的是验证模型能否能完成自然语言问答任务。

结果,MoE-LLaVA-1.8B × 4 超过了图片分辨率更高的 Qwen-VL,说明 MoE-LLaVA 这一稀疏模型可以用更少的激活参数达到和稠密模型相当甚至更好的性能。

此外,研究团队还采用 POPE 工具评估了验证 MoE-LLaVA 的幻觉,结果它表现最好的性能,意味着它能准确辨别影像内容。

具体来说,MoE-LLaVA-1.8B × 4 以 2.2B 的激活参数量,超过了 13B 的 LLaVA-1.5。

另外,MoE-LLaVA 的 yes ratio 占比处于较均衡状态,说明它能够根据问题做出正确的反馈。

那么,MoE-LLaVA 具体是如何实现的呢?

向多模态模型中引入 MoE 架构

MoE-LLaVA 采用三阶段的训练策略,整体工作流程如下图所示。

前两个阶段中,影像和文本信息分别被视觉编码器(VE)和文本嵌入层(WEL)转化为 token。

具体来看,阶段 1的目标是把视觉 token 转换成 LLM 能理解的形式。

为了实现这一点,研究团队采用一个多层感知机(MLP)将视觉 token 投影到 LLM 的输入網域,使其作为 LLM 能理解的伪文本 token。

在这个阶段,LLM 被训练学会描述图片,为理解更高层次的图片语义的打下基础。

阶段 2是用多模态的指令数据来对 LLM 进行微调,使之成为有多模态理解能力的模型。

这个阶段的指令更加复杂,包含图片逻辑推理、文字识别等高级任务,对模型的多模态理解能力有了更高的要求。

通常来说,如果是稠密多模态模型,训练过程到此就完成了,但研究团队发现同时将 LLM 多模态化和稀疏化是有一定困难的。

为了解决这个问题,研究团队把该阶段的权重作为阶段 3的初始化依据,以降低稀疏模型学习的难度。

作为初始化,研究团队把前馈神经网络(FFN)复制多份,作为专家集合的初始化权重。

当视觉 token 和文本 token 被送入 MoE 架构时,router 会计算每一个 token 和专家们的匹配权重,然后被送入最匹配的 top-k 个专家进行处理,最后根据 router 的权重加权求和汇聚成输出。

当 top-k 个专家被激活时,其余的专家保持静默,这种模型构成了具有无限可能的稀疏通路的 MoE-LLaVA。

整体上,在 ScienceQA 数据集上训练时,所有的 MoE layer 中的专家的负载比较平衡。

然而随着模型逐渐被稀疏化,第 17 到 27 层的专家的负载突然增大,甚至几乎包揽了所有 tokens。

对于浅层的 5-11 层,主要是由专家 2、3、4 共同协作。值得关注的是,专家 1 几乎只在第 1-3 层工作,随着模型变深,专家 1 逐渐退出了工作。

可以看出,MoE-LLaVA 的专家们学到了某种特定的模式,它能够按照一定的规律进行专家们的分工。

进一步地,研究团队还分析了不同专家的模态分布,发现文本和影像的专家分布极其相似。

例如,当专家 3 在 17-27 层工作时,它所处理的文本和影像的占比是相似的,这展现出 MoE-LLaVA 中的专家对于模态并无明显的偏好。

同时,研究团队还在 token 层次上观察了专家们的行为,跟踪了所有 token 在稀疏网络中的轨迹在下游任务。

通过 PCA 降维方式,研究团队分析了对文本和影像所有的激活的通路,得到了主要的 10 条通路。

团队还发现,对于某个未见的文本或影像 token,MoE-LLaVA 始终偏向于派发专家 2 和 3 来处理;专家 1、4 则倾向于处理初始化的 token。

作者简介

MoE-LLaVA 由北大深研院信息工程学院袁粒课题组主导,该课题组主要研究机器视觉、机器学习和腦科学。

去年推出的法律大模型 ChatLaw 和 AI 表格工具酷表(ChatExcel),该课题组都有参与其中。

本文第一作者是该实验室的硕士生林彬,此前他还以一作或共同一作的身份参与过和多模态对齐框架 LanguageBind(入选 ICLR 2024)、视频大模型 Video-LLaVA 等工作。

此外,来自中山大学、腾讯、FarReel AI Lab、鹏城实验室等机构的研究人员也参与了本项目。

Github:

https://github.com/PKU-YuanGroup/MoE-LLaVA

论文地址 :

https://arxiv.org/abs/2401.15947

Demo:

https://huggingface.co/spaces/LanguageBind/MoE-LLaVA

—  完  —

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們