大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距

2025-04-09 简体 HK SG TW

今天小编分享的科学经验:首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距,欢迎阅读。

统一多模态大模型(U-MLLMs)逐渐成为研究热点,近期 GPT-4o,Gemini-2.0-flash 都展现出了非凡的理解和生成能力,而且还能实现跨模态输入输出,比如影像 + 文本输入,生成影像或文本。

相比传统的多模态模型(比如 GPT-4V 或 DALL · E 3),这类模型在任务适应性和灵活性上更具优势。然而,当前研究领網域还存在几个突出的问题:

1. 评测标准混乱:不同研究选用的评测数据集与指标各不相同,使得模型之间难以公平比较;

2. 混合模态生成能力缺乏评测体系:例如,在影像中画辅助线解题、根据推理结果生成影像等案例虽然很有代表性,但没有统一的 benchmark 能够全面测评这类能力。

这些问题严重限制了 U-MLLMs 的发展和落地应用,因此迫切需要一个系统、标准的评测框架。

主要贡献

MME-Unify(简称 MME-U)正是为了解决上述问题而提出的,具体贡献如下:

首次提出统一评测框架:MME-U 是第一个涵盖 " 理解 "、" 生成 " 与 " 统一任务(混合模态生成)" 的 benchmark,支持从不同维度系统性评估 U-MLLMs 的综合能力。

构建覆盖广泛的任务体系:

从 12 个现有数据集中筛选整理,形成 10 大类任务,包含 30 个子任务

理解类任务涵盖:单图感知、多图推理、视频理解等;

生成类任务涵盖:文本生成影像、影像编辑、影像转视频等。

统一评测标准:

将理解任务统一转为多选题,使用准确率作为评测指标;

将生成任务的多种指标标准化、归一化,输出统一分数,便于横向比较。

设计五类 " 统一任务 ",考察模型对多模态信息的协同处理能力:

影像编辑与解释:

模型需理解编辑指令并执行;

常识问答生成影像:

模型需根据问答内容生成合适影像;

辅助线任务:

要求模型画出解几何题所需的辅助线并解题;

找不同(SpotDiff):

在两张图中找并画出差异;

视觉链式推理(Visual CoT):

边推理边生成下一步影像结果。

实测分析 12 个主流 U-MLLMs 表现:包括 Janus-Pro、EMU3、Gemini 2 等,发现它们在多项任务中差异显著,尤其是在复杂生成任务和指令理解方面仍有很大提升空间。

揭示了开放模型与闭源模型之间的差距:闭源模型如 GPT-4o、Gemini 2.0 Flash 在生成质量与细节还原度方面甚至优于一些专用生成模型(如 DALL · E-3);而开放模型的性能则尚显不足。

MME-Unify 不仅为统一多模态大模型的评估提供了缺失已久的标准化工具,也进一步推动了这一方向从 " 炫技 " 向 " 实用 " 迈进,是当前 U-MLLMs 领網域不可或缺的基准评测体系。

分为三个主要评测能力板块,涵盖数据构建、任务设计与评估策略,整体条理清晰、便于理解。

MME-Unify 评测框架设计详解

本节介绍 MME-Unify 的数据构建方式、任务标注流程以及统一的评测方法。MME-U 将多模态统一模型能力划分为三大类:

- 多模态理解能力

- 多模态生成能力

- 统一任务能力

多模态理解(Multimodal Understanding )

数据构建

理解类任务根据视觉输入类型划分为三类:

- SIPU(单图感知与理解):评估图文对的理解能力。

- MITIU(多图 / 图文交叉理解):评估模型处理多张图和交替图文输入的能力。

- VPU(视频感知与理解):评估模型的视频理解能力。

共收集 1900 个样本,覆盖 OCR、图表解析、空间感知、属性 / 行为推理等 24 种任务,其中感知类任务 1600 条,推理类任务 300 条,每类子任务不少于 50 对 QA 样本。

QA 标准化转化

为统一评估标准,所有理解类任务转为四选一多选题,干扰项与正确选项语义接近;无法处理视频的模型则使用关键帧,单图模型取首图。

评估策略

采用规则匹配法过滤答案(如 MME-Realworld),并随机打乱选项顺序以避免位置偏差。最终以平均准确率评估理解能力。

2.2 多模态生成(Multimodal Generation)

任务类型(6 类)

1. FIR:影像细节重建

2. TIE:文本指导影像编辑

3. TIG:文本生成影像

4. CIVG:影像 + 文本生成视频

5. TVG:文本生成视频

6. VP:视频预测(预测后续帧)

每类任务不少于 200 个样本,数据来源包括 COCO、MSR-VTT、Pexel 等。

数据标准化流程

- 属性统一:将 30 多种属性统一为 Text Prompt、Src Image、Ref Image、Video 等。

- 任务专属提示语:为每类生成任务设计 prompt 模板,并统一数据格式。

各任务先用专属指标(如 CLIP-I、FID、FVD)评估;

再将所有指标标准化到 0 – 100 分数区间;

取标准化后的平均分作为最终生成能力分数,实现跨任务可比性。

2.3 统一任务能力(Unify Capability)

MME-Unify 精心设计了5 类混合模态统一任务,每类任务包括文本与影像双重输入输出,体现 U-MLLMs 的综合处理能力:

1. 常识问答生成影像(CSQ)

任务:根据常识谜语类问题选出正确答案并生成相应影像(如 " 国宝 " → 熊猫)。

流程:GPT-4o 生成问题,人工搜图,模型需同时答题并作图。

2. 影像编辑与解释(IEE)

任务:理解复杂编辑指令,生成修改图,并解释修改内容。

构建方式:

文本选项由 GPT-4o 生成,影像干扰项由 InstructPix2Pix 生成。

模型需先解释修改内容(文本问答),再输出修改图(影像问答)。

3. 找不同任务(SpotDiff)

来源:SpotDiff 网站

模型需识别影像对的不同区網域,输出数目和定位图,考察空间记忆和视觉推理能力。

4. 几何题辅助线任务(Auxiliary Lines)

来源:Geometry3K

模型需在图上画出解题辅助线,并作答(含逻辑和视觉两部分),考察推理 + 生成整合能力。

5. 视觉链式推理(Visual CoT)

任务:通过逐步生成导航动作、坐标和迷宫影像来走迷宫,模拟现实中的多步视觉决策过程。

每一步包括动作、坐标和影像输出,后续步骤包含历史信息,实现逐步 reasoning。

统一任务评估策略

文本部分:

用 CLIP-T 相似度判断模型生成解释与正确选项的接近程度;或直接选择选项。

影像部分:

用 CLIP-I 计算生成图与选项影像的相似度,选出最高者。

acc 与 acc+:

acc:文本准确率与影像准确率的平均值;

acc+:文本和影像都答对的样本占比;

对于 Visual CoT,则分别统计动作、坐标、影像的 acc,再取平均。

最终,MME-U 总得分为理解分 + 生成分 + 统一任务分的平均值,构成系统的、全面的模型评估体系。

有趣的实验发现总结

本文对多模态大模型(MLLMs)和统一多模态大模型(U-MLLMs)进行了系统性评测,总共涵盖了 22 个主流模型。研究重点集中在三个维度:理解能力(Understanding)、生成能力(Generation)以及统一能力(Unify Capability)。评估采用 MME-U 评分体系,并包含多个细粒度子任务。以下为实验中的关键发现与亮点总结:

理解能力方面

表现最强的模型

是闭源的  Gemini2.0-flash-exp,在所有理解类任务中遥遥领先。

开源阵营中表现最好的是 Janus-Flow 与 Janus-Pro

,它们采用了两个独立的视觉编码器,分别用于理解与生成任务,成功避开了如 VQGAN 等通用 tokenizer 在影像理解上的局限。

采用单一 tokenizer 的模型(如 Emu3、Show-o)在理解任务上表现普遍较差

,即便模型体量相当,也难以达到 Janus 系列的水准。

MIO-Instruct 展现了强大的理解能力

,其背后是海量多模态数据(包含影像、视频、音频)与复杂三阶段训练流程的支持,强调了数据多样性在理解任务中的重要性。

生成能力方面

在影像生成任务中,U-MLLMs 的表现与专注型生成模型的差距不如理解任务那么大。

举例来说,Gemini2.0-flash-exp 在 Text-to-Image 任务中甚至超过了 DALL · E 3 六个点,展现出强大的生成潜力。

多数 U-MLLMs(如 EMU3、HermersFlow、GILL)在影像生成任务的平均得分均高于 48,显示基础影像生成已具一定可用性。

不过,在视频生成任务上仍是短板。尽管如 Emu3 声称具备视频生成能力,但由于缺乏相应 checkpoint,暂时无法验证。

从影像细节还原的角度看,当前开源 U-MLLMs 与 DALL · E 等模型仍有显著差距,尤其是在特定文本细节(如 T 恤号码、背景标语等)上的还原。

统一能力方面(Unify Tasks)

统一任务对模型提出了更高要求——既要生成合理影像,又要完成对应文本推理。

目前,开源模型中表现最好的 Anole 在简单任务上也仅有约 60% 的准确率

,在复杂统一任务上几乎没有模型超过 30% 准确率。

在视觉链式推理(Visual CoT)任务中,无一模型能够成功完成多步推理与影像生成结合的完整流程。

分析显示,统一任务对模型的多模态交叉能力提出了极高要求,目前仍是行业技术瓶颈。

深入分析与趋势观察

当前模型在基础能力(理解 / 生成)与统一能力之间普遍存在  " 性能权衡困境 ":

例如,MiniGPT-5、GILL、Anole 在统一任务设计上更激进,但牺牲了基础理解与生成能力,导致整体分数偏低。

而如MIO-Instruct 虽然在基础能力上表现优秀,但在图文交错生成的统一任务中表现不佳。

这种表现差异提示:现有训练范式未能有效整合基础任务与跨模态任务的学习目标,可能需要重新设计对齐策略或任务混合训练流程。

总结

整体来看,U-MLLMs 虽然展示了多模态统一任务的潜力,但距离实际可用仍有明显距离。特别是在如何协调理解与生成、单步与多步、图文协同等维度,仍存在诸多技术挑战。MME-Unify 提供了一套系统性测评框架,并量化了主流模型的能力上限,为未来模型设计提供了清晰参照与方向指引。

项目地址:

https://mme-unify.github.io

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

学术投稿请于工作日发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点亮星标

科技前沿进展每日见

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們