GPT-4.5創造力比GPT-4o弱！浙大上海AI Lab發布新基準，尋找多模态創造力天花板

今天小編分享的科學經驗：GPT-4.5創造力比GPT-4o弱！浙大上海AI Lab發布新基準，尋找多模态創造力天花板，歡迎閱讀。

近來風頭正盛的 GPT-4.5，不僅在日常問答中展現出驚人的上下文連貫性，在設計、咨詢等需要高度創造力的任務中也大放異彩。

當 GPT-4.5 在創意寫作、教育咨詢、設計提案等任務中展現出驚人的連貫性與創造力時，一個關鍵問題浮出水面：

多模态大模型（MLLMs）的 " 創造力天花板 " 究竟在哪裡？

寫一篇基于圖片的短篇小說、分析一張復雜的教學課件、甚至設計一份用戶界面……

這些對于人類駕輕就熟的任務，對于現有的部分多模态大模型卻往往是 " 高難動作 "。

但現有的評測基準首先難以衡量多模态大模型的輸出是否具有創造性的見解，同時部分情境過于簡單，難以真實反映模型在復雜場景下的創造性思維。

如何科學量化 " 多模态創造力 " ？

為此，浙江大學聯合上海人工智能實驗室等團隊重磅發布Creation-MMBench——

全球首個面向真實場景的多模态創造力評測基準，覆蓋四大任務類别、51 項細粒度任務，用 765 個高難度測試案例，為 MLLMs 的 " 視覺創意智能 " 提供全方位體檢。

為何我們要關注 " 視覺創造智能 "？

在人工智能的 " 智力三元論 " 中，創造性智能（Creative Intelligence）始終是最難評估和攻克的一環，主要涉及的是在不同背景下生成新穎和适當解決方案的能力。

現有的 MLLM 評測基準，如 MMBench、MMMU 等，往往更偏重分析性或實用性任務，卻忽略了多模态 AI 在真實生活中常見的 " 創意類任務 "。

雖然存在部分多模态基準納入了對模型創意力的考察，但他們規模較小，多為單圖，且情境簡單，普通的模型即可輕松回答出對應問題。

相較而言，Creation-MMBench 設定的情境復雜，内容多樣，且單圖 / 多圖問題交錯，能更好的對多模态大模型創意力進行考察。

舉個例子

讓模型扮演一位博物館講解員，基于展品影像生成一段引人入勝的講解詞。

讓模型化身散文作家，圍繞人物照片撰寫一篇情感性和故事性兼備的散文。

讓模型親自上任作為米其林大廚，給萌新小白解讀菜肴照片并用一份細致入微的菜品引領菜鳥入門。

在這些任務中，模型需要同時具備" 視覺内容理解 + 情境适應 + 創意性文本生成 "的能力，這正是現有基準難以評估的核心能力。

Creation-MMBench 有多硬核？1. 真實場景 × 多模态融合：從 " 紙上談兵 " 到 " 實戰演練 "

四大任務類型：Creation-MMBench 共有 51 個任務，主要可分為四個類别，分别是

文學創作：專注于文學領網域的創作活動，包括詩歌、對話、故事等形式的寫作。這一類别旨在評估模型在藝術性和創造性表達方面的能力，例如生成富有情感的文字、構建引人入勝的叙事或塑造生動的角色形象。典型人物包括故事續寫、詩歌撰寫等。

日常功能性寫作：聚焦于日常生活中常見的功能性寫作任務，例如社交媒體内容撰寫、公益事業倡議等。這類任務強調實用性，考察模型在處理真實場景中常見寫作需求時的表現，例如撰寫電子郵件、回答生活中的實際問題等。

專業功能性寫作：關注專業領網域内的功能性寫作和創造性問題解決能力。具體任務包括室内設計、教案撰寫、風景導遊詞創作等。這一類别要求模型具備較強的專業知識背景和邏輯推理能力，能夠應對較為復雜且高度專業化的工作場景。

多模态理解與創作：注重視覺理解與創造力的結合，涉及文檔解析、攝影作品欣賞等任務。此類别評估模型在處理多模态信息（如文本與影像結合）時的表現，考察其是否能夠從視覺内容中提取關鍵信息，并将其轉化為有意義的創意輸出。

千張跨網域影像：在影像上，Creation-MMBench 橫跨藝術作品、設計圖紙、生活場景等近 30 個類别，涉及千張不同圖片。單任務最多支持 9 圖輸入，逼真還原真實創作環境。

復雜現實情境：對于每一個實例，都基于真實影像進行标注，配套明确角色、特定背景、任務指令與額外要求四部分共同組成問題。同時，相較于其他廣泛使用的多模态評測基準，Creation-MMBench 具有更全面和復雜的問題設計，大多數問題的長度超過 500 個詞元，這有助于模型捕捉更豐富的創意上下文。

2. 雙重評估體系：拒絕 " 主觀臆斷 "，量化創意質量

在評估策略上，團隊選擇了使用多模态大模型作為評判模型，同時使用兩個不同指标進行雙重評估。

視覺事實性評分（VFS）：确保模型不是 " 瞎編 " ——必須讀懂影像細節。

對于部分實例，需要首先對模型對影像的基礎理解能力進行評估，以避免胡亂創作騙得高分。團隊對這類實例逐個制定了視覺事實性标準，對圖片關鍵細節進行嚴卡，按點打分。

創意獎勵分（Reward）：不僅看懂圖，更得寫得好、寫得巧！

除了基礎理解能力外，Creation-MMBench 更注重考察的是模型結合視覺内容的創造性能力與表述能力。因為每個實例的角色、背景、任務指令與額外要求均存在不同，因此團隊成員對每個實例制定了貼合的評判标準，從表達流暢性、邏輯連貫性到創意新穎性等多方面進行評價。

此外，為了确保評判的公正性和一致性，GPT-4o 作為評判模型，會充分結合評判标準、畫面内容、模型回復等内容，在雙向評判（即評估過程中對兩個模型位置進行互換，避免評估偏差）下給出模型回復與參考答案（非标準答案）的相對偏好。

為了驗證評判模型和采用的評判策略的可靠性，團隊招募了志願者對 13% 的樣本進行人工評估，結果如上圖所示。相較于其他評判模型，GPT-4o 展現出了更強的人類偏好一致性，同時也證明了雙向評判的必要性。

實驗結果：開源 vs 閉源，誰才是創意王者？！

團隊基于 VLMEvalKit 工具鏈，對 20 多個主流 MLLMs 進行了全面評估，包括 GPT-4o、Gemini 系列、Claude 3.5，以及 Qwen2.5-VL、InternVL 等開源模型。

整體而言，與 GPT-4o 相比，Gemini-2.0-Pro 展現出了更為出眾的多模态創意性寫作能力，在部分任務如日常功能性寫作上能有效的整合影像生成貼合日常生活的内容。

它強大的先驗知識也在專業功能性寫作上極大的幫助了它，但對于部分細粒度視覺内容理解上，仍與 GPT-4o 存在不小的差距。

令人驚訝的是，主打創意寫作的 GPT-4.5 的整體表現卻弱于 Gemini-pro 和 GPT-4o，但在多模态内容理解及創作任務上展現出了較為出眾的能力。

開源模型如 Qwen2.5-VL-72B，InternVL2.5-78B-MPO 等也展現出了與閉源模型可以匹敵的創作能力，但整體而言仍與閉源模型存在一定差距。

從類别上表現來看，專業功能性寫作由于對專業性知識的需求高、對視覺内容的理解要求深因而對模型的問題難度較大，而日常功能性寫作由于貼近日常社交生活，情境和視覺内容相對簡單，因而整體表現相對較弱的模型也能有良好的表現。盡管大多數模型在多模态理解與創作這一任務類型上視覺事實性評分較高，但它們基于視覺内容的再創作仍然存在一定瓶頸。

為了更好地比較模型的客觀性能與其視覺創造力，團隊使用 OpenCompass 多模态評測榜單的平均分來表示整體客觀性能。

如上圖所示，部分模型盡管在客觀性能上表現強勁，但在開放式視覺創造力任務中卻表現不佳。這些模型往往在有明确答案的任務中表現出色，但在生成具有創造性和情境相關的内容方面卻顯得不足。這種差異說明傳統的客觀指标可能無法完全捕捉模型在復雜現實場景中的創造能力，因而證明了 Creation-MMBench 填補這一領網域的重要性。

進一步探索：視覺微調是把雙刃劍

當前大語言模型的創作能力評判基準多集中于特定主題（如生成科研 idea），相對較為單一且未能揭示 LLM 在多種不同日常場景中的創作能力。

因此團隊使用 GPT-4o 對影像内容進行細致描述，構建了純文本的 Creation-MMBench-TO。

從純語言模型的評測結果來看，閉源 LLM 的創作能力略優于開源的 LLMs，令人驚訝的是，GPT-4o 在 Creation-MMBench-TO 上的創意獎勵分更高。這可能是因為該模型能夠在描述的幫助下更專注于發散思維和自由創作，從而減少基本視覺内容理解對創造力的負面影響。

同時為了進一步調查視覺指令微調對 LLM 的影響，團隊進行了對比實驗，結果表明，經過視覺指令微調的開源多模态大模型在 Creation-MMBench-TO 上的表現始終低于相應的語言基座模型。

這可能是由于微調過程中使用的問答對長度相對有限，限制了模型理解較長文本中詳細内容的能力，進而無法代入情境進行長文本創作，從而導致視覺事實性評分和創意獎勵分均相對較低。

團隊同樣還對部分模型進行了定性研究，如上圖所示。任務類型為軟體工程影像解釋，從屬于專業功能性寫作。

結果顯示，Qwen2.5-VL 由于對特定領網域知識理解不足，将泳道圖誤判為數據流圖，從而導致後續的圖表分析錯誤。

相比之下，GPT-4o 有效避免了這個錯誤，其整體語言更加專業和結構化，展示了對圖表更準确和詳細的解釋，從而獲得了評審模型的青睐。

這個例子也反映了特定學科知識和對影像内容的詳細理解在這一類任務中的重要作用，表現出了開源模型和閉源模型間仍存在一定差距。

總結：

Creation-MMBench 是一個新穎的基準，旨在評估多模态大模型在現實場景中的創作能力。該基準包含 765 個實例，涵蓋 51 個詳細任務。

對于每個實例，他們撰寫了對應的評判标準，以評估模型回復的質量和視覺事實性。

此外，團隊通過用相應的文本描述替換影像輸入，創建了一個僅文本版本 Creation-MMBench-TO。對這兩個基準的實驗全面的評估了主流多模态大模型的創作能力，并探查出了視覺指令微調對模型的潛在負面影響。

Creation-MMBench 現已集成至 VLMEvalKit，支持一鍵評測，完整評估你的模型在創意任務中的表現。想知道你的模型能不能講好一個影像裡的故事？來試試 Creation-MMBench 一鍵跑分，用數據說話。

Paper： https://arxiv.org/abs/2503.14478

Github： https://github.com/open-compass/Creation-MMBench

HomePage： https://open-compass.github.io/Creation-MMBench/

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

學術投稿請于工作日發郵件到：

[email protected]

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文 / 項目主頁鏈接，以及聯系方式哦

我們會（盡量）及時回復你

點亮星标

科技前沿進展每日見