大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

GPT-4.5創造力比GPT-4o弱!浙大上海AI Lab發布新基準,尋找多模态創造力天花板

2025-04-04 简体 HK SG TW

今天小編分享的科學經驗:GPT-4.5創造力比GPT-4o弱!浙大上海AI Lab發布新基準,尋找多模态創造力天花板,歡迎閱讀。

近來風頭正盛的 GPT-4.5,不僅在日常問答中展現出驚人的上下文連貫性,在設計、咨詢等需要高度創造力的任務中也大放異彩。

當 GPT-4.5 在創意寫作、教育咨詢、設計提案等任務中展現出驚人的連貫性與創造力時,一個關鍵問題浮出水面:

多模态大模型(MLLMs)的 " 創造力天花板 " 究竟在哪裡?

寫一篇基于圖片的短篇小說、分析一張復雜的教學課件、甚至設計一份用戶界面……

這些對于人類駕輕就熟的任務,對于現有的部分多模态大模型卻往往是 " 高難動作 "。

但現有的評測基準首先難以衡量多模态大模型的輸出是否具有創造性的見解,同時部分情境過于簡單,難以真實反映模型在復雜場景下的創造性思維。

如何科學量化 " 多模态創造力 " ?

為此,浙江大學聯合上海人工智能實驗室等團隊重磅發布Creation-MMBench——

全球首個面向真實場景的多模态創造力評測基準,覆蓋四大任務類别、51 項細粒度任務,用 765 個高難度測試案例,為 MLLMs 的 " 視覺創意智能 " 提供全方位體檢。

為何我們要關注 " 視覺創造智能 "?

在人工智能的 " 智力三元論 " 中,創造性智能(Creative Intelligence)始終是最難評估和攻克的一環,主要涉及的是在不同背景下生成新穎和适當解決方案的能力。

現有的 MLLM 評測基準,如 MMBench、MMMU 等,往往更偏重分析性或實用性任務,卻忽略了多模态 AI 在真實生活中常見的 " 創意類任務 "。

雖然存在部分多模态基準納入了對模型創意力的考察,但他們規模較小,多為單圖,且情境簡單,普通的模型即可輕松回答出對應問題。

相較而言,Creation-MMBench 設定的情境復雜,内容多樣,且單圖 / 多圖問題交錯,能更好的對多模态大模型創意力進行考察。

舉個例子

讓模型扮演一位博物館講解員,基于展品影像生成一段引人入勝的講解詞。

讓模型化身散文作家,圍繞人物照片撰寫一篇情感性和故事性兼備的散文。

讓模型親自上任作為米其林大廚,給萌新小白解讀菜肴照片并用一份細致入微的菜品引領菜鳥入門。

在這些任務中,模型需要同時具備" 視覺内容理解 + 情境适應 + 創意性文本生成 "的能力,這正是現有基準難以評估的核心能力。

Creation-MMBench 有多硬核?1. 真實場景 × 多模态融合:從 " 紙上談兵 " 到 " 實戰演練 "

四大任務類型:Creation-MMBench 共有 51 個任務,主要可分為四個類别,分别是

文學創作:專注于文學領網域的創作活動,包括詩歌、對話、故事等形式的寫作。這一類别旨在評估模型在藝術性和創造性表達方面的能力,例如生成富有情感的文字、構建引人入勝的叙事或塑造生動的角色形象。典型人物包括故事續寫、詩歌撰寫等。

日常功能性寫作:聚焦于日常生活中常見的功能性寫作任務,例如社交媒體内容撰寫、公益事業倡議等。這類任務強調實用性,考察模型在處理真實場景中常見寫作需求時的表現,例如撰寫電子郵件、回答生活中的實際問題等。

專業功能性寫作:關注專業領網域内的功能性寫作和創造性問題解決能力。具體任務包括室内設計、教案撰寫、風景導遊詞創作等。這一類别要求模型具備較強的專業知識背景和邏輯推理能力,能夠應對較為復雜且高度專業化的工作場景。

多模态理解與創作:注重視覺理解與創造力的結合,涉及文檔解析、攝影作品欣賞等任務。此類别評估模型在處理多模态信息(如文本與影像結合)時的表現,考察其是否能夠從視覺内容中提取關鍵信息,并将其轉化為有意義的創意輸出。

千張跨網域影像:在影像上,Creation-MMBench 橫跨藝術作品、設計圖紙、生活場景等近 30 個類别,涉及千張不同圖片。單任務最多支持 9 圖輸入,逼真還原真實創作環境。

復雜現實情境:對于每一個實例,都基于真實影像進行标注,配套明确角色、特定背景、任務指令與額外要求四部分共同組成問題。同時,相較于其他廣泛使用的多模态評測基準,Creation-MMBench 具有更全面和復雜的問題設計,大多數問題的長度超過 500 個詞元,這有助于模型捕捉更豐富的創意上下文。

2. 雙重評估體系:拒絕 " 主觀臆斷 ",量化創意質量

在評估策略上,團隊選擇了使用多模态大模型作為評判模型,同時使用兩個不同指标進行雙重評估。

視覺事實性評分(VFS):确保模型不是 " 瞎編 " ——必須讀懂影像細節。

對于部分實例,需要首先對模型對影像的基礎理解能力進行評估,以避免胡亂創作騙得高分。團隊對這類實例逐個制定了視覺事實性标準,對圖片關鍵細節進行嚴卡,按點打分。

創意獎勵分(Reward):不僅看懂圖,更得寫得好、寫得巧!

除了基礎理解能力外,Creation-MMBench 更注重考察的是模型結合視覺内容的創造性能力與表述能力。因為每個實例的角色、背景、任務指令與額外要求均存在不同,因此團隊成員對每個實例制定了貼合的評判标準,從表達流暢性、邏輯連貫性到創意新穎性等多方面進行評價。

此外,為了确保評判的公正性和一致性,GPT-4o 作為評判模型,會充分結合評判标準、畫面内容、模型回復等内容,在雙向評判(即評估過程中對兩個模型位置進行互換,避免評估偏差)下給出模型回復與參考答案(非标準答案)的相對偏好。

為了驗證評判模型和采用的評判策略的可靠性,團隊招募了志願者對 13% 的樣本進行人工評估,結果如上圖所示。相較于其他評判模型,GPT-4o 展現出了更強的人類偏好一致性,同時也證明了雙向評判的必要性。

實驗結果:開源 vs 閉源,誰才是創意王者?!

團隊基于 VLMEvalKit 工具鏈,對 20 多個主流 MLLMs 進行了全面評估,包括 GPT-4o、Gemini 系列、Claude 3.5,以及 Qwen2.5-VL、InternVL 等開源模型。

整體而言,與 GPT-4o 相比,Gemini-2.0-Pro 展現出了更為出眾的多模态創意性寫作能力,在部分任務如日常功能性寫作上能有效的整合影像生成貼合日常生活的内容。

它強大的先驗知識也在專業功能性寫作上極大的幫助了它,但對于部分細粒度視覺内容理解上,仍與 GPT-4o 存在不小的差距。

令人驚訝的是,主打創意寫作的 GPT-4.5 的整體表現卻弱于 Gemini-pro 和 GPT-4o,但在多模态内容理解及創作任務上展現出了較為出眾的能力。

開源模型如 Qwen2.5-VL-72B,InternVL2.5-78B-MPO 等也展現出了與閉源模型可以匹敵的創作能力,但整體而言仍與閉源模型存在一定差距。

從類别上表現來看,專業功能性寫作由于對專業性知識的需求高、對視覺内容的理解要求深因而對模型的問題難度較大,而日常功能性寫作由于貼近日常社交生活,情境和視覺内容相對簡單,因而整體表現相對較弱的模型也能有良好的表現。盡管大多數模型在多模态理解與創作這一任務類型上視覺事實性評分較高,但它們基于視覺内容的再創作仍然存在一定瓶頸。

為了更好地比較模型的客觀性能與其視覺創造力,團隊使用 OpenCompass 多模态評測榜單的平均分 來表示整體客觀性能。

如上圖所示,部分模型盡管在客觀性能上表現強勁,但在開放式視覺創造力任務中卻表現不佳。這些模型往往在有明确答案的任務中表現出色,但在生成具有創造性和情境相關的内容方面卻顯得不足。這種差異說明傳統的客觀指标可能無法完全捕捉模型在復雜現實場景中的創造能力,因而證明了 Creation-MMBench 填補這一領網域的重要性。

進一步探索:視覺微調是把雙刃劍

當前大語言模型的創作能力評判基準多集中于特定主題(如生成科研 idea),相對較為單一且未能揭示 LLM 在多種不同日常場景中的創作能力。

因此團隊使用 GPT-4o 對影像内容進行細致描述,構建了純文本的 Creation-MMBench-TO。

從純語言模型的評測結果來看,閉源 LLM 的創作能力略優于開源的 LLMs,令人驚訝的是,GPT-4o 在 Creation-MMBench-TO 上的創意獎勵分更高。這可能是因為該模型能夠在描述的幫助下更專注于發散思維和自由創作,從而減少基本視覺内容理解對創造力的負面影響。

同時為了進一步調查視覺指令微調對 LLM 的影響,團隊進行了對比實驗,結果表明,經過視覺指令微調的開源多模态大模型在 Creation-MMBench-TO 上的表現始終低于相應的語言基座模型。

這可能是由于微調過程中使用的問答對長度相對有限,限制了模型理解較長文本中詳細内容的能力,進而無法代入情境進行長文本創作,從而導致視覺事實性評分和創意獎勵分均相對較低。

團隊同樣還對部分模型進行了定性研究,如上圖所示。任務類型為軟體工程影像解釋,從屬于專業功能性寫作。

結果顯示,Qwen2.5-VL 由于對特定領網域知識理解不足,将泳道圖誤判為數據流圖,從而導致後續的圖表分析錯誤。

相比之下,GPT-4o 有效避免了這個錯誤,其整體語言更加專業和結構化,展示了對圖表更準确和詳細的解釋,從而獲得了評審模型的青睐。

這個例子也反映了特定學科知識和對影像内容的詳細理解在這一類任務中的重要作用,表現出了開源模型和閉源模型間仍存在一定差距。

總結:

Creation-MMBench 是一個新穎的基準,旨在評估多模态大模型在現實場景中的創作能力。該基準包含 765 個實例,涵蓋 51 個詳細任務。

對于每個實例,他們撰寫了對應的評判标準,以評估模型回復的質量和視覺事實性。

此外,團隊通過用相應的文本描述替換影像輸入,創建了一個僅文本版本 Creation-MMBench-TO。對這兩個基準的實驗全面的評估了主流多模态大模型的創作能力,并探查出了視覺指令微調對模型的潛在負面影響。

Creation-MMBench 現已集成至 VLMEvalKit,支持一鍵評測,完整評估你的模型在創意任務中的表現。想知道你的模型能不能講好一個影像裡的故事?  來試試 Creation-MMBench 一鍵跑分,用數據說話。

Paper:  https://arxiv.org/abs/2503.14478

Github:  https://github.com/open-compass/Creation-MMBench

HomePage:  https://open-compass.github.io/Creation-MMBench/

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

—  完  —

學術投稿請于工作日發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

點亮星标

科技前沿進展每日見

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們