大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

小紅書&上交多模态大模型新基準,Gemini 1.5 Pro準确率僅48%

2025-02-13 简体 HK SG TW

今天小編分享的科學經驗:小紅書&上交多模态大模型新基準,Gemini 1.5 Pro準确率僅48%,歡迎閱讀。

多模态大模型理解真實世界的水平到底如何?

有新基準來衡量了。

就在最近,小紅書和上海交通大學聯合提出WorldSense,一個全新的基準測試,用來評估多模态大模型(MLLMs)的多模态真實場景理解能力。

基于 WorldSense,團隊對各種先進的 MLLMs 進行了廣泛評估,結果發現:

開源的視頻 - 音頻模型在該基準上的準确率僅約 25%,幾乎等同于随機猜測;即使是表現最好的專有模型 Gemini 1.5 Pro,準确率也只有 48%,遠不能滿足可靠的真實世界應用需求。

下面具體來看。

WorldSense 介紹

想象一下,當你開車時,不僅要依靠眼睛觀察道路标志、交通信号燈和障礙物,還要用耳朵聽其他車輛的喇叭聲、後方傳來的警笛聲,甚至通過手對方向盤的觸感、車輛行駛時的震動來做出實時決策,确保安全駕駛。

這就是人類在真實場景中自然的多模态信息整合能力。

而現在的多模态大模型,在處理這些復雜的真實世界場景時,表現究竟如何呢?

WorldSense 的誕生,正是為了填補現有評估體系的關鍵空白。

與以往那些存在諸多局限性的基準測試不同,它具備三大核心亮點,為多模态大模型的評估開辟了新的道路。

全模态協同,深度融合感知

在 WorldSense 的設計中,音頻和視頻緊密耦合,每個問題都需要模型充分挖掘音頻和視頻中的線索,将兩者信息有機結合,才能找到正确答案。

比如,在上圖第一個例子中,有個人手裡拿着水果。如果僅依靠視覺信息,我們可能只能看到他拿着東西這個動作,但很難确定他具體在做什麼,是展示水果的顏色、大小,還是在進行其他操作;而僅憑借音頻,我們甚至都難以判斷他手中拿的是什麼水果。

只有将視覺與音頻信息協同起來,模型才能準确理解場景,給出正确答案。這種設計嚴格考驗模型同時處理多種感官輸入、進行精準理解的能力。

最新的開源視頻音頻多模态大模型僅僅獲得了 25% 左右的準确率,而表現最好的 Gemini 1.5 Pro 也只有 48% 的準确率,并且在缺失一個模态的情況下性能下降約 15% 左右。

這進一步說明了全模态協同在真實世界感知的重要性和 WorldSense 中多模态信息的強耦合,也揭示了現有多模态大模型的局限性。

視頻與任務多樣性,全方位場景覆蓋

據介紹,WorldSense 涵蓋了1662 個視聽同步視頻,系統地分為 8 個主要領網域和 67 個細粒度子類别,覆蓋了豐富的真實世界場景。

同時,它還包含 3172 個多選問答對,橫跨 26 種不同的認知任務,從基礎的物體識别、聲音辨别,到復雜的因果推理、抽象概念理解,全方位評估 MLLMs 的多模态理解能力。

高質量标注,可靠性的基石

為了保證評估的可靠性,所有的問答對都是由80 位專家手動标注。

而且,标注過程并非一蹴而就,而是經過多輪嚴格的人工審核,從語言表達的清晰度、邏輯的連貫性,到答案的準确性和唯一性,都進行了反復考量。

不僅如此,還借助自動 MLLM 驗證技術,進一步确保标注質量。

經過這樣雙重保障的标注過程,确保問題和答案的準确性和高質量。

實驗

如前所述,研究團隊基于 WorldSense 對各種先進的 MLLMs 進行了廣泛評估,結果令人深思。

開源的視頻 - 音頻模型在該基準上的準确率僅約 25%,幾乎等同于随機猜測;即使是表現最好的專有模型 Gemini 1.5 Pro,準确率也只有 48%,遠不能滿足可靠的真實世界應用需求。

這表明當前的模型在理解真實世界場景方面還面臨巨大挑戰,同時也凸顯了全模态協同理解的重要性。

為進一步深入剖析這些模型的性能短板,研究人員開展了細粒度分析,從不同音頻類型和任務類别兩個關鍵維度入手,挖掘模型在實際應用中的具體問題。

這一分析為我們深入洞察現有模型的局限性提供了關鍵視角。

最終結果如下:

1、音頻相關任務表現欠佳:模型在音頻識别、計數等任務上表現差,顯著落後于其他任務類型。這是由于音頻信号復雜,現有模型架構和訓練方法難以有效解析利用其中的頻率、音色等信息。

2、情感相關任務挑戰巨大:這類任務需整合面部表情、語氣語調、語音内容等多模态線索,模型表現較差,暗示其訓練數據缺乏情感樣本,且架構算法難以融合多模态信息進行判斷。

3、不同音頻類型下表現各異:以 Gemini 1.5 Pro 為例,其處理事件相關問題的準确率低于語音或音樂任務,其他模型也存在類似情況。這凸顯現有模型缺乏對各種音頻類型通用、穩定的理解能力。

鑑于上述評估中揭示的多模态大模型(MLLMs)在性能上的巨大差距,研究團隊深入探究了提升 MLLMs 性能的潛在方法,具體涵蓋視覺信息、音頻信息以及視頻幀等方面的研究。

視覺信息的影響

研究人員通過設定不同的輸入配置,探究視覺信息對模型性能的影響,這些配置包括僅音頻輸入、音頻結合視頻字幕輸入以及音頻結合視頻幀輸入。

從實驗結果來看,視覺信息通常能提升模型性能。以 Gemini 1.5 Pro 為例,其僅音頻輸入時準确率為 34.6%,而添加視頻幀輸入後,準确率提升至 48.0%。

然而,不同模型受視覺信息的影響存在差異。像 UnifiedIO2 系列模型,在結合視頻字幕輸入時,性能提升效果并不穩定,甚至出現了性能下降的情況。

這一現象表明,一方面,視覺信息若能被模型恰當整合,對增強多模态理解至關重要;另一方面,當前模型在有效利用視覺信息方面的能力仍然有限,可能是因為模型在處理視覺特征與其他模态信息融合時存在困難,或者是在提取視覺關鍵信息上還不夠高效。

音頻信息的作用

在音頻信息的研究上,團隊設定了三種輸入配置進行實驗,分别是僅視頻輸入、視頻結合字幕輸入以及視頻結合原始音頻輸入。

實驗結果呈現出有趣的規律。

對于 Gemini 1.5 Pro 和 OneLLM 等模型,添加字幕能提高準确率,而添加原始音頻後,準确率提升更為顯著,這充分說明字幕和原始音頻中的聲學特征(如語氣、情感、環境聲音等)都為多模态理解提供了有價值的信息,且原始音頻包含了字幕無法捕捉的重要線索,對多模态理解意義重大。

但不同模型對音頻信息的處理能力也有所不同。UnifiedIO2 在整合字幕或音頻時,性能出現了下降,尤其是字幕輸入導致準确率明顯降低,這反映出該模型在多模态處理方面存在困難,可能無法有效融合音頻和視覺等多模态信息。

而 Video - LLaMA2 雖然在添加兩種模态信息時性能都有所提升,但對字幕的依賴更強,在處理原始音頻時表現相對較弱,這表明它更擅長處理文本形式的音頻信息,而在解析復雜聲學信息上能力不足。

此外,研究人員還對僅視頻輸入的 MLLMs 提供轉錄字幕進行評估,發現幾乎所有模型在添加字幕後性能都顯著提升,不過在音樂相關問題上,由于字幕無法有效捕捉旋律、節奏和和聲等固有聲學特征,性能提升并不明顯。

這進一步證明了原始音頻在多模态理解中的獨特價值,同時也表明當前模型在整合聲學和文本信息以實現全面場景理解方面存在較大的提升空間。

視頻幀采樣密度的效果

研究團隊還研究了視頻幀的時間采樣密度對模型性能的影響,通過改變僅視頻輸入的 MLLMs 的輸入幀數來進行實驗。

結果顯示,大多數模型在增加幀密度後,性能有顯著提升。

這是因為更高的幀密度能夠讓模型更好地捕捉視頻中細粒度的時間動态變化和微妙的視覺改變,從而提升對視頻内容的理解。

例如,在一些包含快速動作或微小細節變化的視頻中,增加幀密度能讓模型獲取更多關鍵信息,進而做出更準确的判斷。但也有例外,如 LLaMA - 3.2 在增加幀密度時,性能并未提升。

這可能與該模型自身的架構特點或訓練方式有關,導致它無法有效利用增加的幀信息,這也為後續研究如何優化模型以更好地利用視頻幀信息提供了思考方向。

小結一下,通過對視覺信息、音頻信息以及視頻幀采樣密度的研究,為提升 MLLMs 在真實世界場景中的理解能力提供了重要的參考方向。

未來的研究可以基于這些發現,進一步優化模型架構和訓練方法,以增強模型對多模态信息的處理能力,縮小與人類真實世界理解能力之間的差距。

論文鏈接:

https://arxiv.org/abs/2502.04326

項目主頁:

https://jaaackhongggg.github.io/WorldSense/

—  完  —

投稿請工作日發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

一鍵關注 點亮星标

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們