大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

不蒸餾R1也能超越DeepSeek,上海 AI Lab 用RL突破數學推理極限

2025-02-17 简体 HK SG TW

今天小編分享的科學經驗:不蒸餾R1也能超越DeepSeek,上海 AI Lab 用RL突破數學推理極限,歡迎閱讀。

僅通過強化學習,就能超越 DeepSeek!

上海 AI Lab 提出了基于結果獎勵的強化學習新範式——

從 Qwen2.5-32B-Base 模型出發,僅通過微調和基于結果反饋的強化學習,在不蒸餾超大模型如 DeepSeek-R1 的情況下,就能超越 DeepSeek-R1-Distill-Qwen32B 和 OpenAI-O1 系列的超強數學推理性能。

團隊發現,當前大模型數學推理任務面臨 " 三重門 " 困局:

稀疏獎勵困境:最終答案對錯的二元反饋,使復雜推理的優化變得困難

局部正确陷阱:長思維鏈中部分正确步驟反而可能誤導模型學習

規模依賴魔咒:傳統蒸餾方法迫使研究者陷入 " 參數規模軍備競賽 "

因此,研究團隊重新審視了當前基于結果獎勵的強化學習算法,經過嚴格的理論推導與證明,重新設計了一個新的結果獎勵強化學習算法,并在這個過程中得出了三點重要結論:

對于正樣本:在二元反饋環境下,通過最佳軌迹采樣(BoN)的行為克隆即可學習最優策略

對于負樣本:需要使用獎勵重塑來維護策略優化目标的一致性

對于長序列:不同的序列部分對結果的貢獻不同,因此需要更細粒度的獎勵分配函數,這個函數可以通過結果獎勵習得

通俗來說,就是通過對正确樣本模仿學習,錯誤樣本偏好學習,關鍵步驟重點學習,無需依賴超大規模的模型(例如 DeepSeek-R1)進行蒸餾,僅通過強化學習即可達到驚人的效果。

除此之外,團隊也對不同起點模型進行了強化學習訓練對比和分析,發現強化學習的起點模型和訓練數據分布對最終的模型效果也很重要。因此,研究團隊将 RL 訓練的數據、起點和最終模型一起完整開源,來推動社區的公平比較和進一步研究。項目鏈接已放文末。

從頭設計結果獎勵強化學習

針對數學推理任務中強化學習面臨的稀疏獎勵和局部正确難題,團隊提出新的策略優化框架OREAL。

通過理論創新實現針對性的算法改進,在用實驗說明 " 怎麼做更好 " 之前,首先論證 " 為什麼這麼做更好 "

正負樣本獎勵重塑,解決稀疏獎勵困境

在數學推理任務的采樣流程中,團隊經過理論分析推導,提出核心見解:在二元反饋機制下,采樣任意數量包含正确答案的 BoN(Best-of-N)設定,其正确軌迹的分布具有一致性特征。這一發現表明,通過直接行為克隆(behaviorcloning)采樣得到的正确軌迹,已經構成了正樣本訓練中的最優設定。

在對正樣本做模仿學習的基礎上,團隊提出直接懲罰負樣本會導致梯度偏差問題,對負樣本的訓練原則應當是維護優化梯度形式與學習 BoN 分布一致。通過深入分析正負樣本的訓練梯度,研究者們提出了基于平均準确率 p 的獎勵重塑因子來維護上述一致性,為 GRPO 等算法的改進提供了理論依據。這種設定使模型既能有效吸收成功經驗,又能精确識别關鍵錯誤邊界,對訓練性能有明顯幫助。

結果獎勵「因果溯源」,跳出局部正确陷阱

針對復雜的長推理鏈問題,OREAL 創新性地設計了 token 重要性估計器。通過構建序列累計形式的獎勵函數,我們将結果獎勵逆向分解到每個推理步驟(見下面的 token-level RM 熱力圖)。這種方法能夠精确定位核心錯誤步驟,在訓練時實現更精細的梯度更新,顯著提升了模型在長序列任務中的表現。

OREAL 框架

将幾項認知組合起來,團隊提出的最優強化學習策略可以概括為:在正确樣本上模仿學習,在錯誤樣本上偏好學習,對關鍵步驟做重點學習。

通過合理的分析和實踐,一步步将強化學習性能推到最佳水平。

強化學習超越蒸餾,擺脫規模依賴魔咒

團隊在 7B 和 32B 兩個規模的模型上僅使用 4 千條高質量訓練樣本進行了訓練和測試,

在 7B 量級上,Oreal-7B 在 MATH-500 上取得了 91.0 的 pass@1 準确率。這是首次通過強化學習而非蒸餾方法達到了如此高的精度。這一成績不僅為基于 RL 的方法樹立了新的裡程碑,還超越了更大參數量的模型,包括 QWQ-32B-Preview 和 OpenAI-O1-Mini。

此外,将 Oreal 應用于此前最佳的 7B 模型(DeepSeek-r1-Distill-Qwen-7B)後,得到的新模型 OREAL-DSR1-Distill-Qwen-7B 在 MATH-500 上取得了 94.0 的 pass@1 精度,創下了 7B 模型的記錄。千問的基座,經過 DeepSeek 的蒸餾訓練,再經過上海 AI Lab 的強化學習訓練,達到了中國原創新高度。

對于 32B 模型,Oreal-32B 在 MATH-500 上也達到了 95.0 的分數,超越了同級别的 DeepSeek-r1-Distill-Qwen-32B,實現 32B 模型的新 SOTA。

One More Thing

最後,研究團隊還對比了不同基座模型下的性能表現,發現不同性能起點的策略模型 RL 後性能上限是不同的,起點模型越強,RL 後的性能越好。

并且,盡管在多個基座模型上,大部分 benchmark 性能都會在 RL 後有所提升,偶爾也會出現持平(OREAL-32B 在 AIME2025-I)或者性能下降(相比于 DSR1-Distill-Qwen-7B 在 AIME2024)。

研究認為,這些情況的出現可能與訓練語料的質量、難度和數量等方面準備的不夠充分有關,這也給未來的研究留下了空間。

因此,除了強大的 RL 算法,團隊還提出兩個關鍵因素對于 RL 在數學推理任務中的成功至關重要:

強大的起點模型是 RL 可以有效激發模型潛在能力的前提。

在 RL 階段使用的數據也必須在質量、難度、數量和多樣性方面都得到充分保證。高質量的數據集能夠讓模型通過面對廣泛的挑戰和學習機會,充分發揮其潛力。

模型數據全面開源,助力強化學習研究

研究團隊同時也注意到,盡管 DeepSeek-R1 的出現引發了社區對于大語言模型強化學習的學習和研究熱情,大家使用的訓練起點模型、訓練數據、訓練算法和超參細節都不盡相同,影響了算法和模型性能的清晰比較。

因此,研究團隊将整個 RL 訓練過程中用到的訓練數據、起點模型和 RL 後模型都進行了全面開源,訓練代碼也将開源到 XTuner。

歡迎下載體驗:

項目鏈接:

https://github.com/InternLM/OREAL

論文地址:

https://arxiv.org/abs/2502.06781

RL 訓練數據鏈接:

https://huggingface.co/datasets/internlm/OREAL-RL-Prompts

系列模型地址:

https://huggingface.co/collections/internlm/oreal-67aaccf5a8192c1ba3cff018

—  完  —

投稿請工作日發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

一鍵關注 點亮星标

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們