小紅書&上交多模态大模型新基準，Gemini 1.5 Pro準确率僅48%

今天小編分享的科學經驗：小紅書&上交多模态大模型新基準，Gemini 1.5 Pro準确率僅48%，歡迎閱讀。

多模态大模型理解真實世界的水平到底如何？

有新基準來衡量了。

就在最近，小紅書和上海交通大學聯合提出WorldSense，一個全新的基準測試，用來評估多模态大模型（MLLMs）的多模态真實場景理解能力。

基于 WorldSense，團隊對各種先進的 MLLMs 進行了廣泛評估，結果發現：

開源的視頻 - 音頻模型在該基準上的準确率僅約 25%，幾乎等同于随機猜測；即使是表現最好的專有模型 Gemini 1.5 Pro，準确率也只有 48%，遠不能滿足可靠的真實世界應用需求。

下面具體來看。

WorldSense 介紹

想象一下，當你開車時，不僅要依靠眼睛觀察道路标志、交通信号燈和障礙物，還要用耳朵聽其他車輛的喇叭聲、後方傳來的警笛聲，甚至通過手對方向盤的觸感、車輛行駛時的震動來做出實時決策，确保安全駕駛。

這就是人類在真實場景中自然的多模态信息整合能力。

而現在的多模态大模型，在處理這些復雜的真實世界場景時，表現究竟如何呢？

WorldSense 的誕生，正是為了填補現有評估體系的關鍵空白。

與以往那些存在諸多局限性的基準測試不同，它具備三大核心亮點，為多模态大模型的評估開辟了新的道路。

全模态協同，深度融合感知

在 WorldSense 的設計中，音頻和視頻緊密耦合，每個問題都需要模型充分挖掘音頻和視頻中的線索，将兩者信息有機結合，才能找到正确答案。

比如，在上圖第一個例子中，有個人手裡拿着水果。如果僅依靠視覺信息，我們可能只能看到他拿着東西這個動作，但很難确定他具體在做什麼，是展示水果的顏色、大小，還是在進行其他操作；而僅憑借音頻，我們甚至都難以判斷他手中拿的是什麼水果。

只有将視覺與音頻信息協同起來，模型才能準确理解場景，給出正确答案。這種設計嚴格考驗模型同時處理多種感官輸入、進行精準理解的能力。

最新的開源視頻音頻多模态大模型僅僅獲得了 25% 左右的準确率，而表現最好的 Gemini 1.5 Pro 也只有 48% 的準确率，并且在缺失一個模态的情況下性能下降約 15% 左右。

這進一步說明了全模态協同在真實世界感知的重要性和 WorldSense 中多模态信息的強耦合，也揭示了現有多模态大模型的局限性。

視頻與任務多樣性，全方位場景覆蓋

據介紹，WorldSense 涵蓋了1662 個視聽同步視頻，系統地分為 8 個主要領網域和 67 個細粒度子類别，覆蓋了豐富的真實世界場景。

同時，它還包含 3172 個多選問答對，橫跨 26 種不同的認知任務，從基礎的物體識别、聲音辨别，到復雜的因果推理、抽象概念理解，全方位評估 MLLMs 的多模态理解能力。

高質量标注，可靠性的基石

為了保證評估的可靠性，所有的問答對都是由80 位專家手動标注。

而且，标注過程并非一蹴而就，而是經過多輪嚴格的人工審核，從語言表達的清晰度、邏輯的連貫性，到答案的準确性和唯一性，都進行了反復考量。

不僅如此，還借助自動 MLLM 驗證技術，進一步确保标注質量。

經過這樣雙重保障的标注過程，确保問題和答案的準确性和高質量。

實驗

如前所述，研究團隊基于 WorldSense 對各種先進的 MLLMs 進行了廣泛評估，結果令人深思。

開源的視頻 - 音頻模型在該基準上的準确率僅約 25%，幾乎等同于随機猜測；即使是表現最好的專有模型 Gemini 1.5 Pro，準确率也只有 48%，遠不能滿足可靠的真實世界應用需求。

這表明當前的模型在理解真實世界場景方面還面臨巨大挑戰，同時也凸顯了全模态協同理解的重要性。

為進一步深入剖析這些模型的性能短板，研究人員開展了細粒度分析，從不同音頻類型和任務類别兩個關鍵維度入手，挖掘模型在實際應用中的具體問題。

這一分析為我們深入洞察現有模型的局限性提供了關鍵視角。

最終結果如下：

1、音頻相關任務表現欠佳：模型在音頻識别、計數等任務上表現差，顯著落後于其他任務類型。這是由于音頻信号復雜，現有模型架構和訓練方法難以有效解析利用其中的頻率、音色等信息。

2、情感相關任務挑戰巨大：這類任務需整合面部表情、語氣語調、語音内容等多模态線索，模型表現較差，暗示其訓練數據缺乏情感樣本，且架構算法難以融合多模态信息進行判斷。

3、不同音頻類型下表現各異：以 Gemini 1.5 Pro 為例，其處理事件相關問題的準确率低于語音或音樂任務，其他模型也存在類似情況。這凸顯現有模型缺乏對各種音頻類型通用、穩定的理解能力。

鑑于上述評估中揭示的多模态大模型（MLLMs）在性能上的巨大差距，研究團隊深入探究了提升 MLLMs 性能的潛在方法，具體涵蓋視覺信息、音頻信息以及視頻幀等方面的研究。

視覺信息的影響

研究人員通過設定不同的輸入配置，探究視覺信息對模型性能的影響，這些配置包括僅音頻輸入、音頻結合視頻字幕輸入以及音頻結合視頻幀輸入。

從實驗結果來看，視覺信息通常能提升模型性能。以 Gemini 1.5 Pro 為例，其僅音頻輸入時準确率為 34.6%，而添加視頻幀輸入後，準确率提升至 48.0%。

然而，不同模型受視覺信息的影響存在差異。像 UnifiedIO2 系列模型，在結合視頻字幕輸入時，性能提升效果并不穩定，甚至出現了性能下降的情況。

這一現象表明，一方面，視覺信息若能被模型恰當整合，對增強多模态理解至關重要；另一方面，當前模型在有效利用視覺信息方面的能力仍然有限，可能是因為模型在處理視覺特征與其他模态信息融合時存在困難，或者是在提取視覺關鍵信息上還不夠高效。

音頻信息的作用

在音頻信息的研究上，團隊設定了三種輸入配置進行實驗，分别是僅視頻輸入、視頻結合字幕輸入以及視頻結合原始音頻輸入。

實驗結果呈現出有趣的規律。

對于 Gemini 1.5 Pro 和 OneLLM 等模型，添加字幕能提高準确率，而添加原始音頻後，準确率提升更為顯著，這充分說明字幕和原始音頻中的聲學特征（如語氣、情感、環境聲音等）都為多模态理解提供了有價值的信息，且原始音頻包含了字幕無法捕捉的重要線索，對多模态理解意義重大。

但不同模型對音頻信息的處理能力也有所不同。UnifiedIO2 在整合字幕或音頻時，性能出現了下降，尤其是字幕輸入導致準确率明顯降低，這反映出該模型在多模态處理方面存在困難，可能無法有效融合音頻和視覺等多模态信息。

而 Video - LLaMA2 雖然在添加兩種模态信息時性能都有所提升，但對字幕的依賴更強，在處理原始音頻時表現相對較弱，這表明它更擅長處理文本形式的音頻信息，而在解析復雜聲學信息上能力不足。

此外，研究人員還對僅視頻輸入的 MLLMs 提供轉錄字幕進行評估，發現幾乎所有模型在添加字幕後性能都顯著提升，不過在音樂相關問題上，由于字幕無法有效捕捉旋律、節奏和和聲等固有聲學特征，性能提升并不明顯。

這進一步證明了原始音頻在多模态理解中的獨特價值，同時也表明當前模型在整合聲學和文本信息以實現全面場景理解方面存在較大的提升空間。

視頻幀采樣密度的效果

研究團隊還研究了視頻幀的時間采樣密度對模型性能的影響，通過改變僅視頻輸入的 MLLMs 的輸入幀數來進行實驗。

結果顯示，大多數模型在增加幀密度後，性能有顯著提升。

這是因為更高的幀密度能夠讓模型更好地捕捉視頻中細粒度的時間動态變化和微妙的視覺改變，從而提升對視頻内容的理解。

例如，在一些包含快速動作或微小細節變化的視頻中，增加幀密度能讓模型獲取更多關鍵信息，進而做出更準确的判斷。但也有例外，如 LLaMA - 3.2 在增加幀密度時，性能并未提升。

這可能與該模型自身的架構特點或訓練方式有關，導致它無法有效利用增加的幀信息，這也為後續研究如何優化模型以更好地利用視頻幀信息提供了思考方向。

小結一下，通過對視覺信息、音頻信息以及視頻幀采樣密度的研究，為提升 MLLMs 在真實世界場景中的理解能力提供了重要的參考方向。

未來的研究可以基于這些發現，進一步優化模型架構和訓練方法，以增強模型對多模态信息的處理能力，縮小與人類真實世界理解能力之間的差距。

論文鏈接：

https://arxiv.org/abs/2502.04326

項目主頁：

https://jaaackhongggg.github.io/WorldSense/

— 完 —

投稿請工作日發郵件到：

[email protected]

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文 / 項目主頁鏈接，以及聯系方式哦

我們會（盡量）及時回復你

一鍵關注點亮星标

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！