大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

簡單示例提升DeepSeek-R1美國數學邀請賽AIME分數:以步驟為粒度對齊上下文學習與推理

2025-02-20 简体 HK SG TW

今天小編分享的科學經驗:簡單示例提升DeepSeek-R1美國數學邀請賽AIME分數:以步驟為粒度對齊上下文學習與推理,歡迎閲讀。

僅需簡單提示,滿血版 DeepSeek-R1 美國數學邀請賽 AIME 分數再提高。

上海交大、港中文、上海 AI 實驗室等帶來最新成果BoostStep對齊推理和上下文學習粒度,大幅提升上下文學習性能,突破少樣本學習上限。

大語言模型使用多步推理解決復雜數學問題,即先将復雜問題分解為多個步驟并逐步進行推理。

研究人員實驗發現後者是推理效果的瓶頸:大模型雖能進行有效的問題拆解,但在單步推理時往往出現錯誤。

上下文學習則通過引入相似例子為大語言模型提供完整思路與單步推理的指導,而傳統的上下文學習在步驟粒度沒有與推理進行對齊,在輔助關鍵的單步推理時仍有顯著缺陷。

具體而言,傳統的少樣本學習往往以題目為粒度進行檢索與指導,因此會缺乏解決關鍵推理步驟所需的示例。此外,無關的步驟甚至還對推理有負面影響。

為此,來自上海交通大學,香港中文大學和上海人工智能實驗室的研究人員提出BoostStep 策略,以步驟為粒度對上下文檢索和推理的粒度進行了對齊,通過" 首次嘗試 "策略為每個推理步驟提供高度相關的 ICL 示例。

BoostStep 提供了更細粒度的指導,避免無關信息幹擾,在不同數學測試集上為 GPT-4o 帶來 4.6% 的提升,大幅超過傳統少樣本學習的 1.2%。

此外,BoostStep 具有傳統少樣本學習不具備的 " 簡單指導困難 " 的潛力,僅用 MATH 數據集簡單示例就能幫助 Deepseek-R1-671B 模型在美國數學邀請賽(AIME)上獲得 2.2% 的提升。

△圖 1:BoostStep 效果與應用場景總覽動機:傳統的少樣本學習無法有效提升單步推理能力

上下文學習是提升模型數學推理能力常用的策略。

具體而言,引入相似的例題有兩種指導效果,其一是可以給模型提供大致的推理思路,其二是在具體單步推理時提供指引,這也對應模型在解決復雜問題時采用的多步分解,逐一推理策略。

研究人員實驗發現後者是制約當前模型推理的關鍵:給 GPT-4o-mini 提供标準解答過程,讓其判斷另一段錯誤的解答過程是由于總體推理思路出錯還是具體單步推理有誤。

針對較弱的模型(如 LLama-3.1-8B),有 91.3% 的錯誤是由于單步推理,而到了更加先進的模型(如 GPT-4o),這個數字提升到了 99.2% 這個誇張的比例,説明相較于問題分解,單步推理能力是目前大模型推理的短板。

然而,以題目為粒度的上下文學習很難在單步推理時的指導有限。由于傳統的少樣本學習是以整道題目為粒度進行檢索和引導,無法在更細粒度的步驟層面确保例題和正在進行的推理依然具有強相關性,而這些無關的步驟甚至還會對推理產生負面作用。此外,例題是在推理開始前就提供給模型,因此缺乏在推理過程中的實時指導。

由此,研究人員提出 BoostStep 策略,将上下文學習中檢索和指導的粒度由整道題目細化到每一個步驟,來确保提供的示例在步驟粒度仍然高度一致。

方法:通過 " 初次嘗試 " 策略以步驟為粒度提供指導

想要實驗步驟粒度的上下文學習,需要構建步驟粒度的題庫,并設計出更加合适的檢索策略,以下會對 BoostStep 的方法進行詳細闡述。

步驟粒度題庫的構建

目前的開源數學數據集往往只包含題目和其對應的完整解答過程,并沒有細分到每一步。某些方法(如 PRM800K)通過明确的語義分割,如句号、換行符等将一段完整的解答分割為不同的步驟。這種策略簡潔有效,然而,其并不符合步驟的本質。步驟之所以成為推理的原子粒度,正是由于每一步只負責解決一個很小的目标,包含一個完整的思維過程。而通過語義分隔符會破壞這種原子性,如将一個完整的枚舉過程拆成很多步。

由此,研究人員以推理内容本身為依據,通過提示詞讓 GPT-4o 進行步驟的分解,這種策略保證了分割好的步驟的粒度與未來進行的推理高度一致,從而能夠給出全面而有效的指導。實驗證明這種策略相較于語義分割策略有顯著的優勢,在 AMC 和 MATH 評測集上能獲得約 3.5% 的提升。

" 首次嘗試 " 檢索策略

上下文學習的核心在于檢索到高度相關的例子,因而檢索策略對上下文學習的效果至關重要。傳統以題目為粒度的少樣本學習通常是從題庫中搜索與待測題目最為接近的題目,這種策略簡潔有效,因為相似的題目往往包含相似的解答過程。

然而,到了更加細粒度的步驟粒度,情況則更加復雜。以上一步為檢索根據會搜索到無關的步驟,這是由于步驟之間具有一定的獨立性,相似的上一步完全可以用于得到截然不同的下一步。而根據之前所有步驟進行檢索又會喪失對當下步驟的突出,無法檢索到最合适的例子。

研究人員認為最準确的預估當下步驟的策略正是讓模型嘗試進行一次推理,并基于此提出了 " 首次嘗試 " 的檢索策略。

具體而言,在每一步進行推理時,模型首先進行一次零樣本嘗試,并根據該嘗試從題庫中檢索得到最相似的步驟,在這一步的指導下完成最終的推理。

下圖是一個 BoostStep 進行首次嘗試、例題查找與再次推理的具體示例。在首次嘗試時正切公式運用錯誤,但得以精确了解當前步驟的推理内容,從而檢索到合适的例子,并在正式推理時正确應用正切公式。

實驗:BoostStep 在性能、潛力、泛化等方面均大幅優于傳統的少樣本學習 3.1 性能

BoostStep 能夠在推理中根據當前的 step 實時提供更加合适的步驟示例,因而能提供更加有效的引導。BoostStep 在不同數學評測集上能夠為 GPT-4o 和 Qwen2.5-Math-72B 帶來 4.6% 與 2.2% 的進一步提升,遠遠超過傳統題目粒度的少樣本學習。

△圖 3:在不同數學評測集與不同基模型上 BoostStep 的效果均優于傳統少樣本學習 3.2 潛力

傳統的少樣本學習很難做到通過簡單的示例提升困難問題上的推理性能,這限制了上下文學習的潛力。而 BoostStep 通過将引導細分到步驟層級突破了這層限制。借助 MATH 數據集中較為簡單的示例,BoostStep 能夠幫助最強的推理模型 Qwen-QwQ 和 DeepseekR1 在最難的美國數學邀請賽(AIME)上分别獲得平均 3.4% 和 2.2% 的提升。

△圖 4:BoostStep 能夠利用簡單示例提升強推理模型在高難度評測集上的推理性能 3.3 泛化性

傳統的少樣本學習需要提供的例子與待解決的問題高度相似,否則不僅無法提供有效的引導,甚至會對推理帶來負面效果,這大大限制了上下文學習的泛化性。而由于不同的題目仍然可能包含高度相似的步驟,BoostStep 可以有效降低對題目相似性的要求,從而大幅提升上下文學習的泛化性。研究人員以 MATH 中的題目為示例,嘗試指導模型在多模态數學評測集 MathVision 和 MathVerse 上的推理。當例題與待解決問題不相似時,傳統的少樣本學習甚至不如直接推理,而 BoostStep 能夠取得持續可觀的提升。

△圖 5BoostStep 在與題庫相似度較低的多模态數學評測集上能取得持續提升,具有更好的泛化性 3.4 魯棒性

為了測試不同方法的魯棒性,研究人員在檢索時通過手動選取第 t 像的例子來降低例題的相似度,模拟檢索不匹配的情況。實驗證明傳統的少樣本學習會在 t=4 時出現顯著的性能下降,甚至低于直接推理,而 BoostStep 下降幅度較小,且持續優于零樣本推理,敏感性較低。

△圖 6:BoostStep 對題庫的相似度有較低的敏感性,從而具有更強的魯棒性擴展應用:與樹搜索策略結合獲取進一步提升

樹搜索是數學推理中常用的策略,通常的策略包含兩個階段:在每步生成時生成多個候選節點,并通過過程監督模型進行篩選。而 Booststep 在以上兩個階段均可以通過引入相似的步驟樣例提升單步推理生成與正确性判斷的質量。

研究人員使用 GPT-4o 作為生成模型,GPT-4o-mini 作為過程監督模型,并且采用逐對過程監督模型的設定,通過消融實驗證明在推理和判斷階段引入步驟樣例均能顯著提升總體推理質量,帶來 8.5% 的巨大提升。

△圖 7:在樹搜索的生成與判斷是否引入過程示例的消融實驗結論

本文提出 BoostStep 算法,以步驟為粒度對齊推理與上下文學習,能夠在推理過程中實時提供與當前步驟高度相關的示例提升推理質量,相較于傳統少樣本學習具有更強的表現、潛力、泛化性和魯棒性,且可即插即用地應用于樹搜索算法中提升生成和篩選的質量。

論文鏈接:https://arxiv.org/abs/2501.03226  

代碼鏈接:https://github.com/beichenzbc/BoostStep  

—  完  —

投稿請工作日發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

一鍵關注 點亮星标

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們