一次可輸入多張影像，還能多輪對話！最新開源數據集，讓AI聊天更接近現實

今天小編分享的科學經驗：一次可輸入多張影像，還能多輪對話！最新開源數據集，讓AI聊天更接近現實，歡迎閲讀。

大模型對話能更接近現實了！

不僅可以最多輸入 20 張影像，還能支持多達 27 輪對話。可處理文本 + 影像 tokens 最多 18k。

這就是最新開源的超長多圖多輪對話理解數據集 MMDU（Multi-Turn Multi-Image Dialog Understanding）。

大型視覺語言模型（LVLMs）的核心能力之一是生成自然且有意義的回答，從而能夠與人類進行流暢的圖文對話。

盡管目前開源的 LVLMs 在如單輪單圖輸入等簡化場景中展示出了不錯的潛力，但在具有長上下文長度，且需要多輪對話和多圖輸入的真實對話場景中，表現則相對不足。

此外，現有的 LVLM Benchmarks 主要采用單項選擇題或簡短回答的形式，難以全面評估 LVLMs 在真實世界人機互動應用中的表現。

為此，研究團隊在論文A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs中提出了全新多圖多輪評測基準 MMDU 及大規模指令微調數據集 MMDU-45k，旨在評估和提升 LVLMs 在多輪及多影像對話中的性能。

目前，該研究在 HuggingFace 的 6 月 18 日 Daily Papers 中位居榜首，VQA dataset trending 榜排名 Top3，得到了國内外的廣泛關注。

MMDU 基準測試具有以下優勢：

（1）多輪對話與多影像輸入：MMDU 基準測試最多包括 20 幅影像和 27 輪問答對話，從而超越了先前的多種 benchmark，并真實地復制了復現了現實世界中的聊天互動情景。

（2）長上下文：MMDU 基準測試通過最多 18k 文本 + 影像 tokens，評估 LVLMs 處理和理解帶有長上下文歷史的情況下理解上下文信息的能力。

（3）開放式評估：MMDU 擺脱傳統基準測試依賴的 close-ended 問題和短輸出（例如，多項選擇題或簡短的答案），采用了更貼合現實和精細評估的方法，通過自由形式的多輪輸出評估 LVLM 的性能，強調了評估結果的可擴展性和可解釋性。

在構建 MMDU 的過程中，研究者們從開源的維基百科中選取具有較高相關程度的影像及文本信息，并在 GPT-4o 模型的輔助下，由人工标注員構建問題和答案對。

具體而言，研究者将 wikipedia 詞條通過聚類的方法進行合并，劃分為多個不同的類别，并在同一個類别中使用不同的詞條（包含圖文）進行組合。經過 InternLM-Chat-20B 清洗并去除雜訊之後，交給 GPT-4o 進行對話生成。生成的基于單詞條和多詞條的對話進行組合，從而構建具有長上下文的多圖多輪對話。

生成的對話以的格式标記影像位置，使用者可以将不同的多圖多輪對話進一步組合，從而構建所需長度的對話。

△MMDU 和 MMDU-45k 數據生成 pipeline

MMDU Benchmark 包含的問答最長擁有 18k 的影像 + 文本 tokens、20 幅影像及 27 輪對話，其規模是以往同類型 benchmark 的至少五倍，為當前的 LVLMs 提出了新的挑戰。MMDU-45k 包含的最長對話數據擁有超 17k 的影像 + 文本 tokens。

45k 的多輪對話共包含超過 410k 的問答，能夠顯著提升 LVLMs 在長上下文理解，多圖多輪對話等方面的能力。

受到利用強大的 LLMs 作為評判的 NLP 研究的啓發，MMDU 的研究員們開發了一個使用 GPT-4o 進行模型性能評估的評估流程。

具體來説，模型在 MMDU Benchmark 上生成輸出後，GPT-4o 将根據多個維度評估這些輸出結果，并将它們與參考答案進行比較。

為确保全面和細致的評估，MMDU 确定了六個評估維度：創造力、豐富度、視覺感知、邏輯連貫性、答案準确性和影像關系理解。為了引導 GPT-4o 提供平衡和公正的評估，每個維度都有精心制定的評估提示。

每個維度的評分範圍為 10 分，分為五個區間（0-2、2-4 … 8-10），每個區間都設定了相應的評判标準。GPT-4o 遵循這些标準進行評判過程，并為每個維度提供最終分數。

MMDU 的評估流程中，使用 GPT-4o 作為評判，根據參考答案給出總體分數。在每次評估中，GPT-4o 将同時參考模型的答案和參考答案。它将為每個評估标準（用藍色表示）提供相應的分數（用綠色表示），并最終以淺橙色總結結果。

通過對 15 個具有代表性的開源和閉源 LVLMs 進行深入分析，研究人員發現開源 LVLMs（如 LLaVa）由于缺乏足夠的對話指令微調數據，相比閉源系統（如 GPT-4V）存在較大差距。研究表明，通過對開源 LVLMs 在 MMDU-45k 數據集上進行 finetune，則可以顯著縮小這一差距，finetune 後的模型能夠生成更長、更精确的對話，同時對于圖文交錯的多圖理解能力有了顯著的提升。

△評估不同 LVLMs 在 MMDU 上的表現

團隊報告了以下指标：創造力（C）、豐富度（R）、視覺感知（VP）、邏輯連貫性（LC）、答案準确性（AA）、影像關系理解（IRU），以及平均（Avg.）結果。

此外，經過 MMDU-45k 微調之後的模型，在現有基準測試上表現也有所提升（MMStar: +1.1%，MathVista: +1.5%，ChartQA: +1.2%）。這一結果説明，MMDU-45k 能夠在各種影像文本相關的任務上提升 LVLMs 的能力。

△在 LVLM 監督微調（SFT）階段添加 MMDU-45k 數據的優勢。

表中報告了 LLaVa 和 InternLM-XC2 在 MMDU 和現有的代表性基準測試上的表現，包括 MMB（MMBench-Dev-EN）、MMMU（MMMU-Val）、MMStar 、MathVista、AI2D、HallBench（HallusionBench）、MMVet 以及 ChartQA。每個部分中的最佳和次佳結果分别用綠色和紅色标記。

在多圖多輪問答及普通單圖問答情境下，經過 MMDU-45k 微調的模型都有顯著的性能提升。這一性能提升首先表現在對影像内容的識别上，相比微調前的 LVLMs，微調之後的模型能夠更加準确的同時理解多張影像的主要内容，影像的順序，以及影像之間的關系。此外，微調之後的模型能夠生成更為詳實和豐富的輸出，并能夠輕松應對具有超長上下文長度的圖文對話情景。