大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

你正在做的大模型評測,可能有一半都是無用功

2025-03-19 简体 HK SG TW

今天小編分享的科學經驗:你正在做的大模型評測,可能有一半都是無用功,歡迎閱讀。

評估多模态 AI 模型的那些復雜測試,可能有一半都是 " 重復勞動 "!

來自上海 AI Lab、上海交大以及浙江大學最新研究顯示:當下流行的多模态大模型基準測試中普遍存在大量冗餘。

△圖表 1 Quick Look

他們在超過 20 個主流多模态基準和 100 多個模型做了系統性掃描,結果有一些有意思的發現。

比如實例分析中,許多基準測試将實例數量減少一半,也不會顯著影響被測試 MLLMs 的排名。

而在具體任務中,像影像情感和社會關系這兩大任務,他們評估能力存在顯著的重疊。

而像名人識别這種基于知識的任務,與其他維度的任務保持相對獨立。

研究方法

訓練好的多模态大模型往往需要通過繁雜的基準測試才能讓研究人員評估出其具體的性能。

但是在許多測試環節中,團隊發現似乎多模态基準本身存在着明顯的冗餘性。

例如某些基準内的評測維度雖然名字叫法不同,但是測試的能力非常相似;

例如某些基準的評測實例可以視作 " 自我繁殖 ",不同實例之間彼此高度相似,沒有提供額外的評價信息;

例如某些垂類領網域的多個不同的評測基準似乎彼此之間也較為類似。

于是,他們便開始嘗試思索提出一個衡量多模态基準冗餘度的框架。

首先,團隊定義了三類冗餘度:

1、基準内的子維度之間的冗餘度;

2、基準内的測試實例的冗餘度;

3、單個垂類領網域内不同基準的冗餘度。

從一個先驗出發,當在測試類似的多模态大模型能力時,其性能排序應該存在較強的相關性;反之,如果其性能排序相關性較低,這也就意味着測試的性能具備較強的獨立性。

基于上述先驗,針對性給出了對應的冗餘度框架。

△圖表 2 冗餘度計算框架示意圖

基準内的子維度之間的冗餘度。

假設我們在擁有 m 個子維度的基準上評測了一定數量的多模态大模型性能,并且我們記這些性能在這 m 個子維度上的排序為 R1-Rm。那麼任意兩個維度之間的排序相似性就可以簡單理解為這兩個維度的冗餘性。将所有的排序相似性遍歷求和也就得到了此基準的平均冗餘度。

基準内的測試實例冗餘度。

假設某個基準共有着 n 個測試實例,并且在這個完整的基準上了我們評測了一定數量的多模态大模型并獲得了最終的性能排序 RGT,然後,我們随機抽取實例的一個子集,占總數的 A%,并計算相應的 MLLM 性能排序,記為 RA%。為了量化在 A% 抽樣比率下基準測試的冗餘,我們計算 RA% 與 RGT 之間的相關系數。這一相關性反映了抽樣子集對整個基準測試的代表性。為了減少随機性的影響,抽樣過程重復進行 T=100 次,并記錄平均相關性結果。

單一垂類領網域内的跨基準冗餘

假設某個垂類領網域内(例如專注做數學能力評測)有 l 個基準,我們在這些基準上測試了一定數量的多模态大模型性能,并獲得了這些大模型在各個基準上的排序。那麼針對于某個特定基準,其性能排序與其餘基準排序的相關系數即可代表此基準在這個垂類領網域内的冗餘度,也可也理解為此基準對此垂類領網域的代表程度。

相關性指标

在這項工作中,我們采用了多種指标來描述兩組性能數字之間的相關性,包括斯皮爾曼排名相關系數(SRCC)、皮爾遜線性相關系數(PLCC)和 R2 分數。

SRCC 是一種評估指标,測量排名的相似性,捕捉兩個排名之間相對順序的一致程度。

PLCC 量化線性相似性,評估排名之間的線性關系緊密程度。

R2 分數 則評估排名關系解釋的方差比例,作為拟合優度的衡量标準。

Top-K 分析

考慮到頂級 MLLMs 的性能在基準測試中往往更受關注,我們可以通過僅關注給定基準測試中總體性能最高的 Top-K MLLMs 來簡化冗餘分析,而不是将所有 MLLMs 納入計算。通過選擇 Top-K 模型,我們可以更好地針對不同性能層級的基準測試冗餘進行分析。

實驗結果及分析探索維度冗餘

為了全面展示我們冗餘框架在 MLLM 基準測試中的應用,我們使用廣泛采用且維度多樣的 MMBench 基準測試(v1.1)。其測試結果如圖所示,我們可以得到一些有趣的結果。

△  圖表 3 MMBench Top-50 SRCC 子維度熱圖

根據圖表 3(Top-50 指總排名正數 50 的 MLLMs 性能排序),我們可以快速分析哪些維度表現出高相關性。

例如,任務影像情感和社會關系顯示出強烈的冗餘(0.59),表明它們評估的能力存在顯著重疊。

同樣,結構化影像 - 文本理解與多個其他維度(如空間關系物理屬性推理(0.69)、OCR(0.56)和自然關系(0.49))表現出明顯的冗餘,這反映出執行結構化理解需要綜合運用視覺解析、符号識别、常識推理等多重能力。

另一個有趣的見解來自名人識别,這是一個基于知識的任務,與主要測量感知能力的其他維度保持相對獨立。因此,它表現出顯著較低的冗餘。

△  圖表 4 MMBench Bottom-50 SRCC 子維度熱圖

圖表 4(Bottom-50 指總排名倒數 50 的 MLLMs 性能排序)則揭示了截然不同的分布模式。

與 Top-50 模型平均維度冗餘度相比,Bottom-50 模型的平均維度冗餘度顯著增高,其中超過 80% 的維度對 SRCC 值超過 0.6。這種系統性高冗餘現象源于 Bottom-50 模型基礎能力的整體薄弱性——當模型處于初級發展階段時,各維度的性能改進呈現強同步性,導致維度區分度顯著降低。

反觀 Top-50 模型,由于已建立較完備的基礎能力體系,其在不同復雜任務中的專項優化會引發維度表現的差異性增長,從而形成更清晰的維度區分特征。

探索實例冗餘

△  圖表 5 Top-50 實例平均冗餘度

△圖表 6 Bottom-50 實例平均冗餘度

在實驗中他們納入了 VLMEvalKit 中 18 個公開可用的基準測試的評估結果,并展示了随機采樣實例得到的性能排序與采用全部實例排序的平均冗餘度結果。

團隊采用 0.95 的相似性阈值進行劃分(SRCC 和 PLCC 系數超過 0.95 的排名被認為幾乎相同,僅在極少數情況下存在微小差異),這得出一個結論:大多數現有 MLLM 基準測試在對 Top-50 和 Bottom-50 MLLMs 進行排名時,其實例表現出顯著冗餘,至少 50% 的實例是冗餘的。  這意味着許多基準測試可以将實例數量減少一半,而不會顯著影響被測試 MLLMs 的排名。團隊還比較了 Top-50 和 Bottom-50 MLLMs 之間的冗餘趨勢。

值得注意的是,在 SRCC 和 PLCC 的相同 0.95 阈值下,Bottom-50 MLLMs 所需的實例數量顯著少于 Top-50 MLLMs。這意味着準确排名高性能 MLLMs(Top-50)需要更多實例,而排名低性能 MLLMs(Bottom-50)可以用更少的實例實現。

因此,基準測試實例的冗餘與被評估 MLLMs 的能力密切相關: MLLMs 能力越強,基準測試實例的冗餘越低。

探索跨基準冗餘

為了分析跨基準冗餘,聚焦于數學領網域,具體考察了幾個流行的數學基準測試:MathVista、MathVision、MathVerse 和 DynaMath。

利用 OpenCompass 推理排行榜上列出的 37 個 MLLMs 的可用評估結果來進行分析。

△圖表 7 數學領網域内的跨基準冗餘度熱圖

結果顯示,盡管這四個基準測試都旨在評估 MLLMs 的數學能力,但它們之間的相關性并不算特别強。其中,MathVista 表現出最少的冗餘,與其他基準測試的相關性最低。相比之下,MathVerse 和 MathVision 顯示出高冗餘,與其他基準測試表現出強相關性。這些差異表明它們的評估重點領網域存在不同程度的重疊。

為了更好地理解基準測試之間的差異,團隊分析了它們任務的分布。

結果發現 MathVista 包含 30%-40% 的非傳統數學問題,例如與科學圖表理解、通用 VQA 和圖表 / 表格 / 圖形問答相關的任務(示例見圖表 8)。

△圖表 8 基準内偏離核心數學能力的樣例

團隊認為低冗餘可能源于特定領網域的獨特元素或無關任務,并将後者視為數據中的 " 噪聲 "。

例如,通用 VQA 任務雖然廣泛适用,但其與評估數學能力的關系有限,可以歸類為這種噪聲。

為了量化其影響,他們從 MathVista 中移除通用 VQA 任務,并重新計算其與其他基準測試的冗餘。經過這一調整後,MathVista 與其他數學基準測試之間的冗餘顯著增加,與它們任務特征的契合度更高。

此外,我們還排除了 MathVista 中分類數學目标 VQA的CLEVR衍生問題,這些問題與數學能力的關系也有限(示例見圖表 8)。

經過處理,MathVista 與其餘基準的冗餘度得到了進一步提高,也意味着處理後的 MathVista 更加專注在了 " 數學 " 能力的評測上。

因此,他們提出以下領網域内基準設計的原則:

旨在代表某一垂類領網域核心能力的基準應與其他領網域内基準表現出相對高的冗餘,反映對領網域内核心能力的把握。

專注于獨特的能力以填補垂類領網域空缺的基準應與其他基準顯示較低的冗餘,從而為領網域内特定主題提供獨特視角。

總結

本文重點探索了 MLLM 基準測試中普遍存在的冗餘問題,探索了三個層面識别了冗餘:維度冗餘、實例冗餘和跨基準冗餘。

通過提出的冗餘度框架,可以為社區帶來以下改進:

優化基準設計: 

1 ) . 确定基準内的某些維度是否需要單獨評估,或者可以合并;

2 ) . 識别準确評估所需的最小且足夠的實例數量;

3 ) . 評估在特定領網域内引入新基準的必要性。

提升 MLLM 評估效率:

1 ) . 确定某一基準是否偏離了領網域的分布;

2 ) . 識别評估領網域内模型性能所需的錨定基準。

通過系統性地解決冗餘問題,不僅可以提升基準設計的原則,還能減輕 MLLM 評估的資源需求,創造一個更精簡有效的評估生态系統。

論文鏈接:

https://arxiv.org/abs/2501.13953

Github 鏈接:https://github.com/zzc-1998/Benchmark-Redundancy

* 本文系量子位獲授權刊載,觀點僅為原作者所有。

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

—  完  —

一鍵關注 點亮星标

科技前沿進展每日見

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們