一次可输入多张影像，还能多轮对话！最新开源数据集，让AI聊天更接近现实

今天小编分享的科学经验：一次可输入多张影像，还能多轮对话！最新开源数据集，让AI聊天更接近现实，欢迎阅读。

大模型对话能更接近现实了！

不仅可以最多输入 20 张影像，还能支持多达 27 轮对话。可处理文本 + 影像 tokens 最多 18k。

这就是最新开源的超长多图多轮对话理解数据集 MMDU（Multi-Turn Multi-Image Dialog Understanding）。

大型视觉语言模型（LVLMs）的核心能力之一是生成自然且有意义的回答，从而能够与人类进行流畅的图文对话。

尽管目前开源的 LVLMs 在如单轮单图输入等简化场景中展示出了不错的潜力，但在具有长上下文长度，且需要多轮对话和多图输入的真实对话场景中，表现则相对不足。

此外，现有的 LVLM Benchmarks 主要采用单项选择题或简短回答的形式，难以全面评估 LVLMs 在真实世界人机互动应用中的表现。

为此，研究团队在论文A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs中提出了全新多图多轮评测基准 MMDU 及大规模指令微调数据集 MMDU-45k，旨在评估和提升 LVLMs 在多轮及多影像对话中的性能。

目前，该研究在 HuggingFace 的 6 月 18 日 Daily Papers 中位居榜首，VQA dataset trending 榜排名 Top3，得到了国内外的广泛关注。

MMDU 基准测试具有以下优势：

（1）多轮对话与多影像输入：MMDU 基准测试最多包括 20 幅影像和 27 轮问答对话，从而超越了先前的多种 benchmark，并真实地复制了复现了现实世界中的聊天互动情景。

（2）长上下文：MMDU 基准测试通过最多 18k 文本 + 影像 tokens，评估 LVLMs 处理和理解带有长上下文历史的情况下理解上下文信息的能力。

（3）开放式评估：MMDU 摆脱传统基准测试依赖的 close-ended 问题和短输出（例如，多项选择题或简短的答案），采用了更贴合现实和精细评估的方法，通过自由形式的多轮输出评估 LVLM 的性能，强调了评估结果的可扩展性和可解释性。

在构建 MMDU 的过程中，研究者们从开源的维基百科中选取具有较高相关程度的影像及文本信息，并在 GPT-4o 模型的辅助下，由人工标注员构建问题和答案对。

具体而言，研究者将 wikipedia 词条通过聚类的方法进行合并，划分为多个不同的类别，并在同一个类别中使用不同的词条（包含图文）进行组合。经过 InternLM-Chat-20B 清洗并去除雜訊之后，交给 GPT-4o 进行对话生成。生成的基于单词条和多词条的对话进行组合，从而构建具有长上下文的多图多轮对话。

生成的对话以的格式标记影像位置，使用者可以将不同的多图多轮对话进一步组合，从而构建所需长度的对话。

△MMDU 和 MMDU-45k 数据生成 pipeline

MMDU Benchmark 包含的问答最长拥有 18k 的影像 + 文本 tokens、20 幅影像及 27 轮对话，其规模是以往同类型 benchmark 的至少五倍，为当前的 LVLMs 提出了新的挑战。MMDU-45k 包含的最长对话数据拥有超 17k 的影像 + 文本 tokens。

45k 的多轮对话共包含超过 410k 的问答，能够显著提升 LVLMs 在长上下文理解，多图多轮对话等方面的能力。

受到利用强大的 LLMs 作为评判的 NLP 研究的启发，MMDU 的研究员们开发了一个使用 GPT-4o 进行模型性能评估的评估流程。

具体来说，模型在 MMDU Benchmark 上生成输出后，GPT-4o 将根据多个维度评估这些输出结果，并将它们与参考答案进行比较。

为确保全面和细致的评估，MMDU 确定了六个评估维度：创造力、丰富度、视觉感知、逻辑连贯性、答案准确性和影像关系理解。为了引导 GPT-4o 提供平衡和公正的评估，每个维度都有精心制定的评估提示。

每个维度的评分范围为 10 分，分为五个区间（0-2、2-4 … 8-10），每个区间都设定了相应的评判标准。GPT-4o 遵循这些标准进行评判过程，并为每个维度提供最终分数。

MMDU 的评估流程中，使用 GPT-4o 作为评判，根据参考答案给出总体分数。在每次评估中，GPT-4o 将同时参考模型的答案和参考答案。它将为每个评估标准（用蓝色表示）提供相应的分数（用绿色表示），并最终以浅橙色总结结果。

通过对 15 个具有代表性的开源和闭源 LVLMs 进行深入分析，研究人员发现开源 LVLMs（如 LLaVa）由于缺乏足够的对话指令微调数据，相比闭源系统（如 GPT-4V）存在较大差距。研究表明，通过对开源 LVLMs 在 MMDU-45k 数据集上进行 finetune，则可以显著缩小这一差距，finetune 后的模型能够生成更长、更精确的对话，同时对于图文交错的多图理解能力有了显著的提升。

△评估不同 LVLMs 在 MMDU 上的表现

团队报告了以下指标：创造力（C）、丰富度（R）、视觉感知（VP）、逻辑连贯性（LC）、答案准确性（AA）、影像关系理解（IRU），以及平均（Avg.）结果。

此外，经过 MMDU-45k 微调之后的模型，在现有基准测试上表现也有所提升（MMStar: +1.1%，MathVista: +1.5%，ChartQA: +1.2%）。这一结果说明，MMDU-45k 能够在各种影像文本相关的任务上提升 LVLMs 的能力。

△在 LVLM 监督微调（SFT）阶段添加 MMDU-45k 数据的优势。

表中报告了 LLaVa 和 InternLM-XC2 在 MMDU 和现有的代表性基准测试上的表现，包括 MMB（MMBench-Dev-EN）、MMMU（MMMU-Val）、MMStar 、MathVista、AI2D、HallBench（HallusionBench）、MMVet 以及 ChartQA。每个部分中的最佳和次佳结果分别用绿色和红色标记。

在多图多轮问答及普通单图问答情境下，经过 MMDU-45k 微调的模型都有显著的性能提升。这一性能提升首先表现在对影像内容的识别上，相比微调前的 LVLMs，微调之后的模型能够更加准确的同时理解多张影像的主要内容，影像的顺序，以及影像之间的关系。此外，微调之后的模型能够生成更为详实和丰富的输出，并能够轻松应对具有超长上下文长度的图文对话情景。