大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

一次可输入多张影像,还能多轮对话!最新开源数据集,让AI聊天更接近现实

2024-06-30 简体 HK SG TW

今天小编分享的科学经验:一次可输入多张影像,还能多轮对话!最新开源数据集,让AI聊天更接近现实,欢迎阅读。

大模型对话能更接近现实了!

不仅可以最多输入 20 张影像,还能支持多达 27 轮对话。可处理文本 + 影像 tokens 最多 18k。

这就是最新开源的超长多图多轮对话理解数据集 MMDU(Multi-Turn Multi-Image Dialog Understanding)。

大型视觉语言模型(LVLMs)的核心能力之一是生成自然且有意义的回答,从而能够与人类进行流畅的图文对话。

尽管目前开源的 LVLMs 在如单轮单图输入等简化场景中展示出了不错的潜力,但在具有长上下文长度,且需要多轮对话和多图输入的真实对话场景中,表现则相对不足。

此外,现有的 LVLM Benchmarks 主要采用单项选择题或简短回答的形式,难以全面评估 LVLMs 在真实世界人机互动应用中的表现。

为此,研究团队在论文A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs中提出了全新多图多轮评测基准 MMDU 及大规模指令微调数据集 MMDU-45k,旨在评估和提升 LVLMs 在多轮及多影像对话中的性能。

目前,该研究在 HuggingFace 的 6 月 18 日 Daily Papers 中位居榜首,VQA dataset trending 榜排名 Top3,得到了国内外的广泛关注。

MMDU 基准测试具有以下优势:

(1)多轮对话与多影像输入:MMDU 基准测试最多包括 20 幅影像和 27 轮问答对话,从而超越了先前的多种 benchmark,并真实地复制了复现了现实世界中的聊天互动情景。

(2)长上下文:MMDU 基准测试通过最多 18k 文本 + 影像 tokens,评估 LVLMs 处理和理解带有长上下文历史的情况下理解上下文信息的能力。

(3)开放式评估:MMDU 摆脱传统基准测试依赖的 close-ended 问题和短输出(例如,多项选择题或简短的答案),采用了更贴合现实和精细评估的方法,通过自由形式的多轮输出评估 LVLM 的性能,强调了评估结果的可扩展性和可解释性。

在构建 MMDU 的过程中,研究者们从开源的维基百科中选取具有较高相关程度的影像及文本信息,并在 GPT-4o 模型的辅助下,由人工标注员构建问题和答案对。

具体而言,研究者将 wikipedia 词条通过聚类的方法进行合并,划分为多个不同的类别,并在同一个类别中使用不同的词条(包含图文)进行组合。经过 InternLM-Chat-20B 清洗并去除雜訊之后,交给 GPT-4o 进行对话生成。生成的基于单词条和多词条的对话进行组合,从而构建具有长上下文的多图多轮对话。

生成的对话以的格式标记影像位置,使用者可以将不同的多图多轮对话进一步组合,从而构建所需长度的对话。

△MMDU 和 MMDU-45k 数据生成 pipeline

MMDU Benchmark 包含的问答最长拥有 18k 的影像 + 文本 tokens、20 幅影像及 27 轮对话,其规模是以往同类型 benchmark 的至少五倍,为当前的 LVLMs 提出了新的挑战。MMDU-45k 包含的最长对话数据拥有超 17k 的影像 + 文本 tokens。

45k 的多轮对话共包含超过 410k 的问答,能够显著提升 LVLMs 在长上下文理解,多图多轮对话等方面的能力。

受到利用强大的 LLMs 作为评判的 NLP 研究的启发,MMDU 的研究员们开发了一个使用 GPT-4o 进行模型性能评估的评估流程。

具体来说,模型在 MMDU Benchmark 上生成输出后,GPT-4o 将根据多个维度评估这些输出结果,并将它们与参考答案进行比较。

为确保全面和细致的评估,MMDU 确定了六个评估维度:创造力、丰富度、视觉感知、逻辑连贯性、答案准确性和影像关系理解。为了引导 GPT-4o 提供平衡和公正的评估,每个维度都有精心制定的评估提示。

每个维度的评分范围为 10 分,分为五个区间(0-2、2-4 … 8-10),每个区间都设定了相应的评判标准。GPT-4o 遵循这些标准进行评判过程,并为每个维度提供最终分数。

MMDU 的评估流程中,使用 GPT-4o 作为评判,根据参考答案给出总体分数。在每次评估中,GPT-4o 将同时参考模型的答案和参考答案。它将为每个评估标准(用蓝色表示)提供相应的分数(用绿色表示),并最终以浅橙色总结结果。

通过对 15 个具有代表性的开源和闭源 LVLMs 进行深入分析,研究人员发现开源 LVLMs(如 LLaVa)由于缺乏足够的对话指令微调数据,相比闭源系统(如 GPT-4V)存在较大差距。研究表明,通过对开源 LVLMs 在 MMDU-45k 数据集上进行 finetune,则可以显著缩小这一差距,finetune 后的模型能够生成更长、更精确的对话,同时对于图文交错的多图理解能力有了显著的提升。

△评估不同 LVLMs 在 MMDU 上的表现

团队报告了以下指标:创造力(C)、丰富度(R)、视觉感知(VP)、逻辑连贯性(LC)、答案准确性(AA)、影像关系理解(IRU),以及平均(Avg.)结果。

此外,经过 MMDU-45k 微调之后的模型,在现有基准测试上表现也有所提升(MMStar: +1.1%,MathVista: +1.5%,ChartQA: +1.2%)。这一结果说明,MMDU-45k 能够在各种影像文本相关的任务上提升 LVLMs 的能力。

△在 LVLM 监督微调(SFT)阶段添加 MMDU-45k 数据的优势。

表中报告了 LLaVa 和 InternLM-XC2 在 MMDU 和现有的代表性基准测试上的表现,包括 MMB(MMBench-Dev-EN)、MMMU(MMMU-Val)、MMStar 、MathVista、AI2D、HallBench(HallusionBench)、MMVet 以及 ChartQA。每个部分中的最佳和次佳结果分别用绿色和红色标记。

在多图多轮问答及普通单图问答情境下,经过 MMDU-45k 微调的模型都有显著的性能提升。这一性能提升首先表现在对影像内容的识别上,相比微调前的 LVLMs,微调之后的模型能够更加准确的同时理解多张影像的主要内容,影像的顺序,以及影像之间的关系。此外,微调之后的模型能够生成更为详实和丰富的输出,并能够轻松应对具有超长上下文长度的图文对话情景。

InternLM-Xcomposer2 在 MMDU-45k 数据集上 finetune 前后的表现。错误或幻觉描述在展示中用红色标记,详细且准确的描述则用绿色标记。

—  完  —

投稿请发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們