你正在做的大模型評測，可能有一半都是無用功

今天小編分享的科學經驗：你正在做的大模型評測，可能有一半都是無用功，歡迎閱讀。

評估多模态 AI 模型的那些復雜測試，可能有一半都是 " 重復勞動 "！

來自上海 AI Lab、上海交大以及浙江大學最新研究顯示：當下流行的多模态大模型基準測試中普遍存在大量冗餘。

△圖表 1 Quick Look

他們在超過 20 個主流多模态基準和 100 多個模型做了系統性掃描，結果有一些有意思的發現。

比如實例分析中，許多基準測試将實例數量減少一半，也不會顯著影響被測試 MLLMs 的排名。

而在具體任務中，像影像情感和社會關系這兩大任務，他們評估能力存在顯著的重疊。

而像名人識别這種基于知識的任務，與其他維度的任務保持相對獨立。

研究方法

訓練好的多模态大模型往往需要通過繁雜的基準測試才能讓研究人員評估出其具體的性能。

但是在許多測試環節中，團隊發現似乎多模态基準本身存在着明顯的冗餘性。

例如某些基準内的評測維度雖然名字叫法不同，但是測試的能力非常相似；

例如某些基準的評測實例可以視作 " 自我繁殖 "，不同實例之間彼此高度相似，沒有提供額外的評價信息；

例如某些垂類領網域的多個不同的評測基準似乎彼此之間也較為類似。

于是，他們便開始嘗試思索提出一個衡量多模态基準冗餘度的框架。

首先，團隊定義了三類冗餘度：

1、基準内的子維度之間的冗餘度；

2、基準内的測試實例的冗餘度；

3、單個垂類領網域内不同基準的冗餘度。

從一個先驗出發，當在測試類似的多模态大模型能力時，其性能排序應該存在較強的相關性；反之，如果其性能排序相關性較低，這也就意味着測試的性能具備較強的獨立性。

基于上述先驗，針對性給出了對應的冗餘度框架。

△圖表 2 冗餘度計算框架示意圖

基準内的子維度之間的冗餘度。

假設我們在擁有 m 個子維度的基準上評測了一定數量的多模态大模型性能，并且我們記這些性能在這 m 個子維度上的排序為 R1-Rm。那麼任意兩個維度之間的排序相似性就可以簡單理解為這兩個維度的冗餘性。将所有的排序相似性遍歷求和也就得到了此基準的平均冗餘度。

基準内的測試實例冗餘度。

假設某個基準共有着 n 個測試實例，并且在這個完整的基準上了我們評測了一定數量的多模态大模型并獲得了最終的性能排序 RGT，然後，我們随機抽取實例的一個子集，占總數的 A%，并計算相應的 MLLM 性能排序，記為 RA%。為了量化在 A% 抽樣比率下基準測試的冗餘，我們計算 RA% 與 RGT 之間的相關系數。這一相關性反映了抽樣子集對整個基準測試的代表性。為了減少随機性的影響，抽樣過程重復進行 T=100 次，并記錄平均相關性結果。

單一垂類領網域内的跨基準冗餘

假設某個垂類領網域内（例如專注做數學能力評測）有 l 個基準，我們在這些基準上測試了一定數量的多模态大模型性能，并獲得了這些大模型在各個基準上的排序。那麼針對于某個特定基準，其性能排序與其餘基準排序的相關系數即可代表此基準在這個垂類領網域内的冗餘度，也可也理解為此基準對此垂類領網域的代表程度。

相關性指标

在這項工作中，我們采用了多種指标來描述兩組性能數字之間的相關性，包括斯皮爾曼排名相關系數（SRCC）、皮爾遜線性相關系數（PLCC）和 R2 分數。

SRCC 是一種評估指标，測量排名的相似性，捕捉兩個排名之間相對順序的一致程度。

PLCC 量化線性相似性，評估排名之間的線性關系緊密程度。

R2 分數則評估排名關系解釋的方差比例，作為拟合優度的衡量标準。

Top-K 分析

考慮到頂級 MLLMs 的性能在基準測試中往往更受關注，我們可以通過僅關注給定基準測試中總體性能最高的 Top-K MLLMs 來簡化冗餘分析，而不是将所有 MLLMs 納入計算。通過選擇 Top-K 模型，我們可以更好地針對不同性能層級的基準測試冗餘進行分析。

實驗結果及分析探索維度冗餘

為了全面展示我們冗餘框架在 MLLM 基準測試中的應用，我們使用廣泛采用且維度多樣的 MMBench 基準測試（v1.1）。其測試結果如圖所示，我們可以得到一些有趣的結果。

△ 圖表 3 MMBench Top-50 SRCC 子維度熱圖

根據圖表 3（Top-50 指總排名正數 50 的 MLLMs 性能排序），我們可以快速分析哪些維度表現出高相關性。

例如，任務影像情感和社會關系顯示出強烈的冗餘（0.59），表明它們評估的能力存在顯著重疊。

同樣，結構化影像 - 文本理解與多個其他維度（如空間關系物理屬性推理（0.69）、OCR（0.56）和自然關系（0.49））表現出明顯的冗餘，這反映出執行結構化理解需要綜合運用視覺解析、符号識别、常識推理等多重能力。

另一個有趣的見解來自名人識别，這是一個基于知識的任務，與主要測量感知能力的其他維度保持相對獨立。因此，它表現出顯著較低的冗餘。

△ 圖表 4 MMBench Bottom-50 SRCC 子維度熱圖

圖表 4（Bottom-50 指總排名倒數 50 的 MLLMs 性能排序）則揭示了截然不同的分布模式。

與 Top-50 模型平均維度冗餘度相比，Bottom-50 模型的平均維度冗餘度顯著增高，其中超過 80% 的維度對 SRCC 值超過 0.6。這種系統性高冗餘現象源于 Bottom-50 模型基礎能力的整體薄弱性——當模型處于初級發展階段時，各維度的性能改進呈現強同步性，導致維度區分度顯著降低。

反觀 Top-50 模型，由于已建立較完備的基礎能力體系，其在不同復雜任務中的專項優化會引發維度表現的差異性增長，從而形成更清晰的維度區分特征。

探索實例冗餘

△ 圖表 5 Top-50 實例平均冗餘度

△圖表 6 Bottom-50 實例平均冗餘度

在實驗中他們納入了 VLMEvalKit 中 18 個公開可用的基準測試的評估結果，并展示了随機采樣實例得到的性能排序與采用全部實例排序的平均冗餘度結果。

團隊采用 0.95 的相似性阈值進行劃分（SRCC 和 PLCC 系數超過 0.95 的排名被認為幾乎相同，僅在極少數情況下存在微小差異），這得出一個結論：大多數現有 MLLM 基準測試在對 Top-50 和 Bottom-50 MLLMs 進行排名時，其實例表現出顯著冗餘，至少 50% 的實例是冗餘的。 這意味着許多基準測試可以将實例數量減少一半，而不會顯著影響被測試 MLLMs 的排名。團隊還比較了 Top-50 和 Bottom-50 MLLMs 之間的冗餘趨勢。

值得注意的是，在 SRCC 和 PLCC 的相同 0.95 阈值下，Bottom-50 MLLMs 所需的實例數量顯著少于 Top-50 MLLMs。這意味着準确排名高性能 MLLMs（Top-50）需要更多實例，而排名低性能 MLLMs（Bottom-50）可以用更少的實例實現。

因此，基準測試實例的冗餘與被評估 MLLMs 的能力密切相關： MLLMs 能力越強，基準測試實例的冗餘越低。

探索跨基準冗餘

為了分析跨基準冗餘，聚焦于數學領網域，具體考察了幾個流行的數學基準測試：MathVista、MathVision、MathVerse 和 DynaMath。

利用 OpenCompass 推理排行榜上列出的 37 個 MLLMs 的可用評估結果來進行分析。

△圖表 7 數學領網域内的跨基準冗餘度熱圖

結果顯示，盡管這四個基準測試都旨在評估 MLLMs 的數學能力，但它們之間的相關性并不算特别強。其中，MathVista 表現出最少的冗餘，與其他基準測試的相關性最低。相比之下，MathVerse 和 MathVision 顯示出高冗餘，與其他基準測試表現出強相關性。這些差異表明它們的評估重點領網域存在不同程度的重疊。

為了更好地理解基準測試之間的差異，團隊分析了它們任務的分布。

結果發現 MathVista 包含 30%-40% 的非傳統數學問題，例如與科學圖表理解、通用 VQA 和圖表 / 表格 / 圖形問答相關的任務（示例見圖表 8）。

△圖表 8 基準内偏離核心數學能力的樣例

團隊認為低冗餘可能源于特定領網域的獨特元素或無關任務，并将後者視為數據中的 " 噪聲 "。

例如，通用 VQA 任務雖然廣泛适用，但其與評估數學能力的關系有限，可以歸類為這種噪聲。

為了量化其影響，他們從 MathVista 中移除通用 VQA 任務，并重新計算其與其他基準測試的冗餘。經過這一調整後，MathVista 與其他數學基準測試之間的冗餘顯著增加，與它們任務特征的契合度更高。

此外，我們還排除了 MathVista 中分類數學目标 VQA的CLEVR衍生問題，這些問題與數學能力的關系也有限（示例見圖表 8）。

經過處理，MathVista 與其餘基準的冗餘度得到了進一步提高，也意味着處理後的 MathVista 更加專注在了 " 數學 " 能力的評測上。

因此，他們提出以下領網域内基準設計的原則：

旨在代表某一垂類領網域核心能力的基準應與其他領網域内基準表現出相對高的冗餘，反映對領網域内核心能力的把握。

專注于獨特的能力以填補垂類領網域空缺的基準應與其他基準顯示較低的冗餘，從而為領網域内特定主題提供獨特視角。

總結

本文重點探索了 MLLM 基準測試中普遍存在的冗餘問題，探索了三個層面識别了冗餘：維度冗餘、實例冗餘和跨基準冗餘。

通過提出的冗餘度框架，可以為社區帶來以下改進：

優化基準設計：

1 ) . 确定基準内的某些維度是否需要單獨評估，或者可以合并；

2 ) . 識别準确評估所需的最小且足夠的實例數量；

3 ) . 評估在特定領網域内引入新基準的必要性。

提升 MLLM 評估效率：

1 ) . 确定某一基準是否偏離了領網域的分布；

2 ) . 識别評估領網域内模型性能所需的錨定基準。

通過系統性地解決冗餘問題，不僅可以提升基準設計的原則，還能減輕 MLLM 評估的資源需求，創造一個更精簡有效的評估生态系統。

論文鏈接：

https://arxiv.org/abs/2501.13953

Github 鏈接：https://github.com/zzc-1998/Benchmark-Redundancy

* 本文系量子位獲授權刊載，觀點僅為原作者所有。

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

一鍵關注點亮星标

科技前沿進展每日見