大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

GPT-4o數學能力跑分直掉50%,上海AI Lab開始給大模型重新出題了

2024-12-19 简体 HK SG TW

今天小編分享的科學經驗:GPT-4o數學能力跑分直掉50%,上海AI Lab開始給大模型重新出題了,歡迎閱讀。

新模型在 MATH 上(以數學競賽為主)動辄跑分 80% 甚至 90% 以上,卻一用就廢。

這合理嗎??

為了真實檢驗模型數學推理能力,上海人工智能實驗室司南 OpenCompass 團隊放大招了。

推出新的復雜數學評測集 LiveMathBench,以全新性能指标 G-Pass@16 來連續評估模型的性能潛力和穩定性。

好家夥!團隊在模拟真實用戶使用采樣策略、重復多次評測大模型的數學推理能力時發現:

大部分的模型平均會有五成以上的性能下降,即使是最強推理模型 o1-mini 也會下降 3 成 6,更有模型直接下降九成。

具體咋回事兒下面接着看。

全新評價指标 : G-Pass@k

研究團隊重新思考了大模型評測常用的技術指标,如傳統經常采用的 Pass@k, Best-of-N, Majority Voting,這些指标主要關注模型的性能潛力,缺少對模型的魯棒性的評測。

而真實場景中,為了提高回復的多樣性,模型往往使用采樣解碼的方式進行推理,這也會帶來大量的随機性。在復雜推理任務中,這種随機性會嚴重影響模型的性能,而用戶更預期在真實問題中,模型能又穩又好。

Pass@k 指标回顧

經典的 Pass@k 指标關注模型在多次生成中至少給出一次正确答案的概率。假設模型生成次數為,正确答案數為,c 表示其中正确解的數量,那麼 Pass@k 的計算方式如下:

兼顧性能潛力與穩定性的評測指标 G-Pass@K

Pass@k 體現了模型的性能潛力,卻不能體現模型的穩定性,基于這一目的團隊将 Pass@k 推廣為 Generalized Pass@k(以下簡稱 G-Pass@k)。

通過引入阈值,該工作關注模型在次生成中至少給出 ⎡ · ⎤次正确答案的概率。

一般來說,認為模型的每次生成是 i.i.d.(Independent and Identically Distributed)的,那麼模型給出的正确答案數服從二項分布,這可以通過超幾何分布逼近二項分布。基于此,可以得出 G-Pass@k 的定義:

在較小時,G-Pass@k衡量模型的性能潛力;較大時,G-Pass@k衡量模型的穩定性,或者說模型對于問題的掌握程度,因此研究者可以通過 G-Pass@k 連續地觀察模型的性能潛力與穩定性。

進⼀步地,研究團隊還定義了 mG-Pass@k 用于對模型的性能進行整體觀測。

具體來說,mG-Pass@k 是 — G-Pass@k 曲線下的面積,為了更好地模拟真實場景,團隊重點考慮∊ [ 0.5,0.1 ] 的情況,即:

G-Pass@K 是 Pass@K 是泛化形式

當⎡ · ⎤ =1 時,Pass@K 是 G-Pass@k 等價,這意味着 Pass@K 是 G-Pass@k 的特例,讀者可以參考論文附錄提供的證明。

研究團隊給出了兩者關系的對比分析,如下圖所示:

圖中展示了不同的和 c 下 Pass@K 和 G-Pass@k 的值,可以看出在較小時,兩者反映的是模型的潛力,然而這種分數可能是偏高的,在 24/80 的整體通過率下,Pass@K 指标的值可以接近 80%。

但當關注較高的時,更能夠觀察到模型在實際生成時的真實性能。

LiveMathBench:避免數據污染的復雜數學評測集

研究團隊構建了一個新的 benchmark LiveMathBench 用于驗證實驗。

具體來說,他們收集了最近發布的中國數學奧林匹克,中國高考最新模拟題,美國數學競賽和美國普特南數學競賽中最新的題目,盡量減少數據污染的可能性。

整個 LiveMathBench(202412 版本)包括 238 道題目,每個題目提供中文 / 英文兩個版本的題目,覆蓋不同的難度。研究團隊計劃後續持續更新 LiveMathBench 中的題目,來持續觀測 LLM 的真實數學水平。

另外,研究團隊還在兩個公開 Benchmark MATH500 和 AIME2024 上進行了實驗。

對于 MAH500,研究團隊選擇了難度為 L5 的題目,命名為MATH500-L5;對于 AIME2024,研究團隊使用了 Part1 和 Part2 兩個部分全部 45 道題目,命名為 AIME2024-45。

實驗

在實驗設定方面,對于每道題目,進行了 16*3=48 次生成并報告 G-Pass@16 分數。研究團隊在通用模型、數學模型和類 o1 模型三種不同類型的大模型中選擇了具有代表性的大模型進行實驗。

LiveMathBench 性能對比如下:

根據實驗結果,可以看到:

大部分閉源模型和開源模型在 [email protected] 指标上也都不超過 30 分。

最強的 o1-mini 模型在 [email protected] 獲得了最高分 42 分,相對性能下降比例也是所有模型中最低的(36.9%),雖體現出相對較高的穩定性,但仍然難以忽視。

Math-500-L5/AIME2024-45 性能對比如下。

對于開源數據集:

在常用的高中競賽級别題目 MATH500-L5 上,多數模型不管是貪婪解碼的表現還是穩定性 [email protected] 的表現都相比 LiveMathBench 都有所提升,而 AIME2024 則相反,大多數模型的 [email protected] 分數都只有個位數,甚至部分模型接近 0 分;

對于難度頗高的 AIME2024,雖然 o1-min 和 QwQ-32B-Preview 在貪婪解碼下表現突出,但面對高難度題目下的穩定性還是難以保證,如 QwQ-32B-Preview 甚至跌到了不到原來的 1/5,而其在 MATH500-L5 中卻比較穩定,達到了原分數的 3/5,這也說明了最新的高難度數學題目對模型的穩定性帶來了更大的壓力。

最後,模型在不同難度題目上的能力分析如下 。

下表展示了關鍵模型在 LiveMathBench 兩個子集上的性能表現。

其中 CCEE 代表中國高考題目,主要涉及到基礎的高中數據知識;而 WLPMC 代表來自普特南(Putnam)競賽的題目,普特南競賽是久負盛名的美國大學生數學競賽,其題目難度要高于高考題目。

由實驗結果可以看出,先進的推理模型,例如 DeepSeek-V2.5, Qwen2.5-72B-Instruct, QwQ 等在 Pass@16 指标下在兩個子集上都有較好的性能,但大部分模型在 WLPMC 上的穩定性下降更為嚴重。

因此可以有如下猜想,推理模型容易學習到訓練數據中的平凡解,導致 Pass@k 等指标的上升,然而在困難的問題上,這種提升并不與模型真實推理性能提升相關。在強基座模型的訓練中,更應該關注推理穩定性的表現,以提升其真實推理能力。

重要觀測觀察一:閉源和開源模型均不能穩定地進行復雜推理

研究人員對當前主流的約 20 個模型進行了測試,發現盡管多數模型在貪婪解碼的準确率 Greedy Accuracy 和 Pass@16 上表現相對較好,但當使用 G-Pass@K 指标進⾏評估時,性能卻顯著下降。

當設定為 1.0 時,即要求模型在所有 16 次采樣中都提供正确答案, 幾乎所有模型的表現都急劇下降。

例如,在對 LiveMathBench 的測評中,Llama-3.1-8B-Instruct 模型的準确率從 18.1% 下降到 0.8%(G-Pass@16=1.0),降幅高達 95.7%。即使是較大的模型,如 NuminaMath-72B-CoT,其準确率也從 34.45% 下降到 3.7%,減少了 89.3%。

在大約 20 個測試模型中,平均性能下降了 60%。即便是表現最為穩定的 OpenAI o1-mini,其準确率也從 66.5% 下降到 42.0%,降幅為 36.9%。

即使将放寬到 0.5,即只要求一半的樣本正确即可通過,通用模型、數學推理模型和 o1-like 模型仍分别經歷了 14.0%、22.5% 和 4.8% 的平均性能下降。

這表明,在復雜條件下,多數模型難以在多次采樣中保持一致的推理能力。

不過目前的評估指标通常依賴單次貪婪解碼,可能無法充分反映這些模型在實際應用中的魯棒性和穩定性。

因此,研究團隊指出,需要對模型的推理能力進行更嚴格的評估,尤其是在那些需要在多次采樣中保持一致性和可靠性的重要應用中。

觀察二:增大模型規模對推理能力的提升有限

研究人員觀察到,以同系列模型 Qwen2.5-32B-Instruct 與 Qwen2.5-72B-Instruct 為例,雖然它們的模型規模相差一倍以上,但無論指标采用 G-Pass@K 還是 Greedy Accuracy,無論評測數據集是最新的 LiveMathBench 還是現有開源數據集,兩者的表現均相似。

另外,在更大體量的模型 Mistral-Large-Instruct-2411(123B)上,盡管模型規模繼續增大,但其性能和穩定性相比 Qwen2.5-72B-Instruct 卻出現下滑。

這表明,對于需要深度理解和邏輯推理的任務,簡單增大參數并不能顯著提升性能或穩定性。

這可能是因為這些任務不僅需要模型具備記憶和模式識别能力,更需要強大的推理和上下文理解能力。

觀察三:模型的性能潛力和實際表現之間的巨大差距

研究團隊在評估模型性能時發現,理論最大能力 G-Pass@16 → 0、實際表現能力 Greedy Accuracy 和多次采樣下的穩定能力 G-Pass@16=1.0 之間存在顯著差距。

盡管模型在理論上具備相當高的潛在性能,但在實際應用中未能充分展現這一水平,尤其是在輸出穩定性方面。一些模型在單次貪婪解碼中表現出高準确率,顯示出處理特定任務的潛力,但在保持一致高準确率方面卻不穩定,遠未達到最佳性能。

這反映了現有模型在推理穩定性和一致性上的不足,這在訓練和評估中常被忽略。

模型在單次推理表現中易受輸入數據變化、初始化狀态或随機采樣的影響,導致不同采樣解碼的結果不一致。

研究人員指出,在高可靠性和一致性要求的實際應用中,如何在保持接近最佳性能的同時确保輸出的穩定性,是一個亟待解決的問題。

總結

本研究深入分析了當前大型模型的數學推理能力,提出了全新的性能指标 G-Pass@16  ,用于連續評估模型的性能潛力和穩定性。

此外,還設計了避免數據污染的 LiveMathBench 數據集。

實驗結果顯示,目前的大型模型在推理性能方面未達到預期,尤其在多次重復采樣時,性能出現顯著下降。研究團隊期望學術界和工業界能夠在推理能力的魯棒性研究上持續探索與推進。

論文鏈接:https://arxiv.org/abs/2412.13147

項目地址:https://github.com/open-compass/GPassK

—  完  —

投稿請發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

點這裡關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們