大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

首個統一多模态模型評測标準,DeepSeek Janus理解能力領跑開源,但和閉源還有差距

2025-04-09 简体 HK SG TW

今天小編分享的科學經驗:首個統一多模态模型評測标準,DeepSeek Janus理解能力領跑開源,但和閉源還有差距,歡迎閱讀。

統一多模态大模型(U-MLLMs)逐漸成為研究熱點,近期 GPT-4o,Gemini-2.0-flash 都展現出了非凡的理解和生成能力,而且還能實現跨模态輸入輸出,比如影像 + 文本輸入,生成影像或文本。

相比傳統的多模态模型(比如 GPT-4V 或 DALL · E 3),這類模型在任務适應性和靈活性上更具優勢。然而,當前研究領網域還存在幾個突出的問題:

1. 評測标準混亂:不同研究選用的評測數據集與指标各不相同,使得模型之間難以公平比較;

2. 混合模态生成能力缺乏評測體系:例如,在影像中畫輔助線解題、根據推理結果生成影像等案例雖然很有代表性,但沒有統一的 benchmark 能夠全面測評這類能力。

這些問題嚴重限制了 U-MLLMs 的發展和落地應用,因此迫切需要一個系統、标準的評測框架。

主要貢獻

MME-Unify(簡稱 MME-U)正是為了解決上述問題而提出的,具體貢獻如下:

首次提出統一評測框架:MME-U 是第一個涵蓋 " 理解 "、" 生成 " 與 " 統一任務(混合模态生成)" 的 benchmark,支持從不同維度系統性評估 U-MLLMs 的綜合能力。

構建覆蓋廣泛的任務體系:

從 12 個現有數據集中篩選整理,形成 10 大類任務,包含 30 個子任務

理解類任務涵蓋:單圖感知、多圖推理、視頻理解等;

生成類任務涵蓋:文本生成影像、影像編輯、影像轉視頻等。

統一評測标準:

将理解任務統一轉為多選題,使用準确率作為評測指标;

将生成任務的多種指标标準化、歸一化,輸出統一分數,便于橫向比較。

設計五類 " 統一任務 ",考察模型對多模态信息的協同處理能力:

影像編輯與解釋:

模型需理解編輯指令并執行;

常識問答生成影像:

模型需根據問答内容生成合适影像;

輔助線任務:

要求模型畫出解幾何題所需的輔助線并解題;

找不同(SpotDiff):

在兩張圖中找并畫出差異;

視覺鏈式推理(Visual CoT):

邊推理邊生成下一步影像結果。

實測分析 12 個主流 U-MLLMs 表現:包括 Janus-Pro、EMU3、Gemini 2 等,發現它們在多項任務中差異顯著,尤其是在復雜生成任務和指令理解方面仍有很大提升空間。

揭示了開放模型與閉源模型之間的差距:閉源模型如 GPT-4o、Gemini 2.0 Flash 在生成質量與細節還原度方面甚至優于一些專用生成模型(如 DALL · E-3);而開放模型的性能則尚顯不足。

MME-Unify 不僅為統一多模态大模型的評估提供了缺失已久的标準化工具,也進一步推動了這一方向從 " 炫技 " 向 " 實用 " 邁進,是當前 U-MLLMs 領網域不可或缺的基準評測體系。

分為三個主要評測能力板塊,涵蓋數據構建、任務設計與評估策略,整體條理清晰、便于理解。

MME-Unify 評測框架設計詳解

本節介紹 MME-Unify 的數據構建方式、任務标注流程以及統一的評測方法。MME-U 将多模态統一模型能力劃分為三大類:

- 多模态理解能力

- 多模态生成能力

- 統一任務能力

多模态理解(Multimodal Understanding )

數據構建

理解類任務根據視覺輸入類型劃分為三類:

- SIPU(單圖感知與理解):評估圖文對的理解能力。

- MITIU(多圖 / 圖文交叉理解):評估模型處理多張圖和交替圖文輸入的能力。

- VPU(視頻感知與理解):評估模型的視頻理解能力。

共收集 1900 個樣本,覆蓋 OCR、圖表解析、空間感知、屬性 / 行為推理等 24 種任務,其中感知類任務 1600 條,推理類任務 300 條,每類子任務不少于 50 對 QA 樣本。

QA 标準化轉化

為統一評估标準,所有理解類任務轉為四選一多選題,幹擾項與正确選項語義接近;無法處理視頻的模型則使用關鍵幀,單圖模型取首圖。

評估策略

采用規則匹配法過濾答案(如 MME-Realworld),并随機打亂選項順序以避免位置偏差。最終以平均準确率評估理解能力。

2.2 多模态生成(Multimodal Generation)

任務類型(6 類)

1. FIR:影像細節重建

2. TIE:文本指導影像編輯

3. TIG:文本生成影像

4. CIVG:影像 + 文本生成視頻

5. TVG:文本生成視頻

6. VP:視頻預測(預測後續幀)

每類任務不少于 200 個樣本,數據來源包括 COCO、MSR-VTT、Pexel 等。

數據标準化流程

- 屬性統一:将 30 多種屬性統一為 Text Prompt、Src Image、Ref Image、Video 等。

- 任務專屬提示語:為每類生成任務設計 prompt 模板,并統一數據格式。

各任務先用專屬指标(如 CLIP-I、FID、FVD)評估;

再将所有指标标準化到 0 – 100 分數區間;

取标準化後的平均分作為最終生成能力分數,實現跨任務可比性。

2.3 統一任務能力(Unify Capability)

MME-Unify 精心設計了5 類混合模态統一任務,每類任務包括文本與影像雙重輸入輸出,體現 U-MLLMs 的綜合處理能力:

1. 常識問答生成影像(CSQ)

任務:根據常識謎語類問題選出正确答案并生成相應影像(如 " 國寶 " → 熊貓)。

流程:GPT-4o 生成問題,人工搜圖,模型需同時答題并作圖。

2. 影像編輯與解釋(IEE)

任務:理解復雜編輯指令,生成修改圖,并解釋修改内容。

構建方式:

文本選項由 GPT-4o 生成,影像幹擾項由 InstructPix2Pix 生成。

模型需先解釋修改内容(文本問答),再輸出修改圖(影像問答)。

3. 找不同任務(SpotDiff)

來源:SpotDiff 網站

模型需識别影像對的不同區網域,輸出數目和定位圖,考察空間記憶和視覺推理能力。

4. 幾何題輔助線任務(Auxiliary Lines)

來源:Geometry3K

模型需在圖上畫出解題輔助線,并作答(含邏輯和視覺兩部分),考察推理 + 生成整合能力。

5. 視覺鏈式推理(Visual CoT)

任務:通過逐步生成導航動作、坐标和迷宮影像來走迷宮,模拟現實中的多步視覺決策過程。

每一步包括動作、坐标和影像輸出,後續步驟包含歷史信息,實現逐步 reasoning。

統一任務評估策略

文本部分:

用 CLIP-T 相似度判斷模型生成解釋與正确選項的接近程度;或直接選擇選項。

影像部分:

用 CLIP-I 計算生成圖與選項影像的相似度,選出最高者。

acc 與 acc+:

acc:文本準确率與影像準确率的平均值;

acc+:文本和影像都答對的樣本占比;

對于 Visual CoT,則分别統計動作、坐标、影像的 acc,再取平均。

最終,MME-U 總得分為理解分 + 生成分 + 統一任務分的平均值,構成系統的、全面的模型評估體系。

有趣的實驗發現總結

本文對多模态大模型(MLLMs)和統一多模态大模型(U-MLLMs)進行了系統性評測,總共涵蓋了 22 個主流模型。研究重點集中在三個維度:理解能力(Understanding)、生成能力(Generation)以及統一能力(Unify Capability)。評估采用 MME-U 評分體系,并包含多個細粒度子任務。以下為實驗中的關鍵發現與亮點總結:

理解能力方面

表現最強的模型

是閉源的  Gemini2.0-flash-exp,在所有理解類任務中遙遙領先。

開源陣營中表現最好的是 Janus-Flow 與 Janus-Pro

,它們采用了兩個獨立的視覺編碼器,分别用于理解與生成任務,成功避開了如 VQGAN 等通用 tokenizer 在影像理解上的局限。

采用單一 tokenizer 的模型(如 Emu3、Show-o)在理解任務上表現普遍較差

,即便模型體量相當,也難以達到 Janus 系列的水準。

MIO-Instruct 展現了強大的理解能力

,其背後是海量多模态數據(包含影像、視頻、音頻)與復雜三階段訓練流程的支持,強調了數據多樣性在理解任務中的重要性。

生成能力方面

在影像生成任務中,U-MLLMs 的表現與專注型生成模型的差距不如理解任務那麼大。

舉例來說,Gemini2.0-flash-exp 在 Text-to-Image 任務中甚至超過了 DALL · E 3 六個點,展現出強大的生成潛力。

多數 U-MLLMs(如 EMU3、HermersFlow、GILL)在影像生成任務的平均得分均高于 48,顯示基礎影像生成已具一定可用性。

不過,在視頻生成任務上仍是短板。盡管如 Emu3 聲稱具備視頻生成能力,但由于缺乏相應 checkpoint,暫時無法驗證。

從影像細節還原的角度看,當前開源 U-MLLMs 與 DALL · E 等模型仍有顯著差距,尤其是在特定文本細節(如 T 恤号碼、背景标語等)上的還原。

統一能力方面(Unify Tasks)

統一任務對模型提出了更高要求——既要生成合理影像,又要完成對應文本推理。

目前,開源模型中表現最好的 Anole 在簡單任務上也僅有約 60% 的準确率

,在復雜統一任務上幾乎沒有模型超過 30% 準确率。

在視覺鏈式推理(Visual CoT)任務中,無一模型能夠成功完成多步推理與影像生成結合的完整流程。

分析顯示,統一任務對模型的多模态交叉能力提出了極高要求,目前仍是行業技術瓶頸。

深入分析與趨勢觀察

當前模型在基礎能力(理解 / 生成)與統一能力之間普遍存在  " 性能權衡困境 ":

例如,MiniGPT-5、GILL、Anole 在統一任務設計上更激進,但犧牲了基礎理解與生成能力,導致整體分數偏低。

而如MIO-Instruct 雖然在基礎能力上表現優秀,但在圖文交錯生成的統一任務中表現不佳。

這種表現差異提示:現有訓練範式未能有效整合基礎任務與跨模态任務的學習目标,可能需要重新設計對齊策略或任務混合訓練流程。

總結

整體來看,U-MLLMs 雖然展示了多模态統一任務的潛力,但距離實際可用仍有明顯距離。特别是在如何協調理解與生成、單步與多步、圖文協同等維度,仍存在諸多技術挑戰。MME-Unify 提供了一套系統性測評框架,并量化了主流模型的能力上限,為未來模型設計提供了清晰參照與方向指引。

項目地址:

https://mme-unify.github.io

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

—  完  —

學術投稿請于工作日發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

點亮星标

科技前沿進展每日見

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們