大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

一次可輸入多張影像,還能多輪對話!最新開源數據集,讓AI聊天更接近現實

2024-06-30 简体 HK SG TW

今天小編分享的科學經驗:一次可輸入多張影像,還能多輪對話!最新開源數據集,讓AI聊天更接近現實,歡迎閲讀。

大模型對話能更接近現實了!

不僅可以最多輸入 20 張影像,還能支持多達 27 輪對話。可處理文本 + 影像 tokens 最多 18k。

這就是最新開源的超長多圖多輪對話理解數據集 MMDU(Multi-Turn Multi-Image Dialog Understanding)。

大型視覺語言模型(LVLMs)的核心能力之一是生成自然且有意義的回答,從而能夠與人類進行流暢的圖文對話。

盡管目前開源的 LVLMs 在如單輪單圖輸入等簡化場景中展示出了不錯的潛力,但在具有長上下文長度,且需要多輪對話和多圖輸入的真實對話場景中,表現則相對不足。

此外,現有的 LVLM Benchmarks 主要采用單項選擇題或簡短回答的形式,難以全面評估 LVLMs 在真實世界人機互動應用中的表現。

為此,研究團隊在論文A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs中提出了全新多圖多輪評測基準 MMDU 及大規模指令微調數據集 MMDU-45k,旨在評估和提升 LVLMs 在多輪及多影像對話中的性能。

目前,該研究在 HuggingFace 的 6 月 18 日 Daily Papers 中位居榜首,VQA dataset trending 榜排名 Top3,得到了國内外的廣泛關注。

MMDU 基準測試具有以下優勢:

(1)多輪對話與多影像輸入:MMDU 基準測試最多包括 20 幅影像和 27 輪問答對話,從而超越了先前的多種 benchmark,并真實地復制了復現了現實世界中的聊天互動情景。

(2)長上下文:MMDU 基準測試通過最多 18k 文本 + 影像 tokens,評估 LVLMs 處理和理解帶有長上下文歷史的情況下理解上下文信息的能力。

(3)開放式評估:MMDU 擺脱傳統基準測試依賴的 close-ended 問題和短輸出(例如,多項選擇題或簡短的答案),采用了更貼合現實和精細評估的方法,通過自由形式的多輪輸出評估 LVLM 的性能,強調了評估結果的可擴展性和可解釋性。

在構建 MMDU 的過程中,研究者們從開源的維基百科中選取具有較高相關程度的影像及文本信息,并在 GPT-4o 模型的輔助下,由人工标注員構建問題和答案對。

具體而言,研究者将 wikipedia 詞條通過聚類的方法進行合并,劃分為多個不同的類别,并在同一個類别中使用不同的詞條(包含圖文)進行組合。經過 InternLM-Chat-20B 清洗并去除雜訊之後,交給 GPT-4o 進行對話生成。生成的基于單詞條和多詞條的對話進行組合,從而構建具有長上下文的多圖多輪對話。

生成的對話以的格式标記影像位置,使用者可以将不同的多圖多輪對話進一步組合,從而構建所需長度的對話。

△MMDU 和 MMDU-45k 數據生成 pipeline

MMDU Benchmark 包含的問答最長擁有 18k 的影像 + 文本 tokens、20 幅影像及 27 輪對話,其規模是以往同類型 benchmark 的至少五倍,為當前的 LVLMs 提出了新的挑戰。MMDU-45k 包含的最長對話數據擁有超 17k 的影像 + 文本 tokens。

45k 的多輪對話共包含超過 410k 的問答,能夠顯著提升 LVLMs 在長上下文理解,多圖多輪對話等方面的能力。

受到利用強大的 LLMs 作為評判的 NLP 研究的啓發,MMDU 的研究員們開發了一個使用 GPT-4o 進行模型性能評估的評估流程。

具體來説,模型在 MMDU Benchmark 上生成輸出後,GPT-4o 将根據多個維度評估這些輸出結果,并将它們與參考答案進行比較。

為确保全面和細致的評估,MMDU 确定了六個評估維度:創造力、豐富度、視覺感知、邏輯連貫性、答案準确性和影像關系理解。為了引導 GPT-4o 提供平衡和公正的評估,每個維度都有精心制定的評估提示。

每個維度的評分範圍為 10 分,分為五個區間(0-2、2-4 … 8-10),每個區間都設定了相應的評判标準。GPT-4o 遵循這些标準進行評判過程,并為每個維度提供最終分數。

MMDU 的評估流程中,使用 GPT-4o 作為評判,根據參考答案給出總體分數。在每次評估中,GPT-4o 将同時參考模型的答案和參考答案。它将為每個評估标準(用藍色表示)提供相應的分數(用綠色表示),并最終以淺橙色總結結果。

通過對 15 個具有代表性的開源和閉源 LVLMs 進行深入分析,研究人員發現開源 LVLMs(如 LLaVa)由于缺乏足夠的對話指令微調數據,相比閉源系統(如 GPT-4V)存在較大差距。研究表明,通過對開源 LVLMs 在 MMDU-45k 數據集上進行 finetune,則可以顯著縮小這一差距,finetune 後的模型能夠生成更長、更精确的對話,同時對于圖文交錯的多圖理解能力有了顯著的提升。

△評估不同 LVLMs 在 MMDU 上的表現

團隊報告了以下指标:創造力(C)、豐富度(R)、視覺感知(VP)、邏輯連貫性(LC)、答案準确性(AA)、影像關系理解(IRU),以及平均(Avg.)結果。

此外,經過 MMDU-45k 微調之後的模型,在現有基準測試上表現也有所提升(MMStar: +1.1%,MathVista: +1.5%,ChartQA: +1.2%)。這一結果説明,MMDU-45k 能夠在各種影像文本相關的任務上提升 LVLMs 的能力。

△在 LVLM 監督微調(SFT)階段添加 MMDU-45k 數據的優勢。

表中報告了 LLaVa 和 InternLM-XC2 在 MMDU 和現有的代表性基準測試上的表現,包括 MMB(MMBench-Dev-EN)、MMMU(MMMU-Val)、MMStar 、MathVista、AI2D、HallBench(HallusionBench)、MMVet 以及 ChartQA。每個部分中的最佳和次佳結果分别用綠色和紅色标記。

在多圖多輪問答及普通單圖問答情境下,經過 MMDU-45k 微調的模型都有顯著的性能提升。這一性能提升首先表現在對影像内容的識别上,相比微調前的 LVLMs,微調之後的模型能夠更加準确的同時理解多張影像的主要内容,影像的順序,以及影像之間的關系。此外,微調之後的模型能夠生成更為詳實和豐富的輸出,并能夠輕松應對具有超長上下文長度的圖文對話情景。

InternLM-Xcomposer2 在 MMDU-45k 數據集上 finetune 前後的表現。錯誤或幻覺描述在展示中用紅色标記,詳細且準确的描述則用綠色标記。

—  完  —

投稿請發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

點這裏關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們