大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

DeepSeek新數學模型刷爆記錄!7B小模型自主發現671B模型不會的新技能

2025-05-01 简体 HK SG TW

今天小編分享的科學經驗:DeepSeek新數學模型刷爆記錄!7B小模型自主發現671B模型不會的新技能,歡迎閱讀。

DeepSeek 放大招!新模型專注數學定理證明,大幅刷新多項高難基準測試。

在普特南測試上,新模型 DeepSeek-Prover-V2 直接把記錄刷新到49 道。

目前的第一名在 657 道題中只做出10 道題,為 Kimi 與合作成果 Kimina-Prover。

而未針對定理證明優化的 DeepSeek-R1 只做出1 道。

讓還沒發布的 R2 更令人期待了。

除測評結果之外,論文中特别報告了 " 通過強化學習發現新技能 " 現象。

正如 R1 帶來了 " 啊哈時刻 ",Prover-V2 也有令人意想不到的能力。

具體來說,在普特南測試中,參數量較小的 DeepSeek-Prover-V2-7B 用非 CoT 生成模式成功解決了 13 個 671B 模型未能解決的問題。

團隊仔細檢查該模型的輸出後發現,其推理方法存在一個獨特模式:7B 模型處理涉及有限基數的問題時,經常使用 Cardinal.toNat 和 Cardinal.natCast_inj,而 671B 模型生成的輸出中明顯沒有這些内容。

要注意,7B 模型是在 DeepSeek-Prover-V1.5-Base 模型基礎上,先使用 671B 模型在強化學習階段收集的數據微調,再執行強化學習得來的。

也就是說,7B 模型學會了 671B 模型沒有學會的新技能。

那麼,DeepSeeK-Prover-V2 如何煉成的呢?與前代相比又有哪些改進?

形式化和非形式化數學證明統一模型

DeepSeek 數學定理證明 DeepSeek-Prover 系列模型已推出 3 款:

2024 年 3 月的 DeepSeek-Prover(後簡稱為 Prover-V1)

2024 年 8 月的 DeepSeek-Prover-V1.5(後簡稱為 Prover-V1.5)

2025 年 5 月的 DeepSeek-Prover-V2(後簡稱為 Prover-V2)

Prover-V1 主要探索了通過大規模合成數據集微調 DeepSeek-Math-7B,來推進定理證明。

Prover-V1.5 在此基礎上增加了證明助手反饋的強化學習(RLPAF)和蒙特卡洛樹搜索方法。

Prover-V2 進一步提出 " 子目标分解的強化學習 ",并且基礎模型從 DeepSeek-Math-7B 更新到 DeepSeek-V3。

整合 DeepSeek-V3 的高上下文視窗和強大的自然語言推理能力,把形式化和非形式化數學證明統一到一個模型中。

Prover-V2 還繼承了 Prover-V1.5 提出的 CoT 和非 CoT 生成兩種模式。

接下來,詳細介紹 Prover-V2 的各主要環節。

通過遞歸證明搜索合成冷啟動推理數據

利用 DeepSeek-V3 作為子目标分解和形式化的統一工具構建冷啟動數據集,提示 DeepSeek-V3 将定理分解為高級證明草圖,同時在 Lean 4 中将這些證明步驟形式化,從而產生一系列子目标。

使用一個較小的 70 億參數模型來處理每個子目标的證明搜索,從而減輕相關的計算負擔。一旦一個具有挑戰性的問題的分解步驟得到解決,就将完整的逐步形式化證明與來自 DeepSeek-V3 的相應思維鏈進行配對,以創建冷啟動推理數據。

使用合成冷啟動數據進行子目标分解的強化學習

團隊精心挑選了一組具有挑戰性的問題,這些問題無法由 70 億參數量的證明器模型以端到端的方式解決,但所有分解後的子目标都已成功解決。

通過組合所有子目标的證明,為原始問題構建了一個完整的形式化證明。

然後,将此證明附加到 DeepSeek-V3 的思維鏈中,該思維鏈概述了相應的引理分解,從而實現了非形式化推理與後續形式化的有機結合。

在合成冷啟動數據上對證明器模型進行微調後進行強化學習階段,進一步增強其将非正式推理與形式化證明構建相銜接的能力。遵循推理模型的标準訓練目标,使用二元的正确或錯誤反饋作為獎勵監督的主要形式。

具體訓練細節

兩階段訓練:

DeepSeek-Prover-V2 分兩階段建立互補證明生成模式。

第一階段用高效非思維鏈(non-CoT)模式,聚焦快速生成 Lean 證明代碼,加快迭代和數據收集。

第二階段基于第一階段成果,采用高精度思維鏈(CoT)模式,闡述中間推理步驟,用冷啟動思維鏈數據強化學習,提升復雜問題推理能力。

專家迭代:

其中非 CoT 模式訓練遵循專家迭代範式,用最佳證明策略為難題生成證明嘗試,經 Lean 驗證,成功的納入監督微調(SFT)數據集。與之前版本相比,訓練問題分布有調整,引入了額外問題和子目标分解生成的問題。

監督微調:

對 DeepSeek-V3-Base-671B 做監督微調,訓練語料庫包含兩個互補來源的數據:

一是通過專家迭代收集的非 CoT 數據,這些數據生成的 Lean 代碼不包含中間推理步驟,主要用于強化模型在 Lean 定理證明生态系統中的形式驗證技能。

二是冷啟動 CoT 數據,這些數據将 DeepSeek-V3 的先進數學推理過程提煉為結構化的證明路徑,明确地模拟了将數學直覺轉化為形式證明結構的認知過程。

強化學習:

采用 GRPO 算法,與傳統的 PPO 不同,GRPO 無需單獨的裁判模型,它通過為每個定理提示采樣一組候選證明,并根據它們的相對獎勵來優化策略。

訓練過程中使用二元獎勵機制,即生成的 Lean 證明若被驗證正确則獲得獎勵 1,否則為 0。

為确保學習效果,精心挑選訓練提示,僅包含那些有足夠挑戰性但又能被監督微調後的模型解決的問題。

蒸餾 DeepSeek-Prover-V2 7B

将 DeepSeek-Prover-V1.5-Base-7B 上下文視窗擴展到 32768 個 token,用 DeepSeek-Prover-V2-671B 數據微調,融入非 CoT 證明數據,以便利用小模型生成簡潔的形式化輸出,提供一種經濟高效的證明選項。

此外,對 DeepSeek-Prover-V2-7B 執行與 671B 模型訓練中相同的強化學習階段,以進一步提升其性能。

ProverBench:AIME 和教科書問題的形式化

與 Prover-V2 一起推出 ProverBench,這是一個包含 325 個問題的基準數據集。其中,有 15 個問題是從近期美國數學邀請賽(AIME 24 和 25)的數論與代數題目中形式化而來,提供了真實的高中競賽水平挑戰。其餘 310 個問題則取自精心挑選的教科書示例和教學教程,構成了一套多樣化且基于教學需求的形式化數學問題集合。該基準旨在能夠對高中競賽問題和本科階段數學問題進行更全面的評估。

DeepSeek-Prover-V2 系列在三個數據集上評測的最後總成績如下:

DeepSeek 全明星陣容

Prover-V2 的作者共 18 人,共同一作 Z.Z. Ren, 邵智宏、辛華劍都是參與過 V3、R1 以及 Prover 系列前作的主力成員。

作者名單中出現了幾位未參與前兩代版本(Prover-V1、Prover-V1.5)的研究者。

比如Shirong Ma,清華本碩。公開資料顯示,他于去年畢業後即加入 DeepSeek,現為 DeepSeek 研究員,此前參與了從 DeepSeek LLM v1 到 R1 以及 DeepSeek-Coder 等工作。

還有Zhe Fu、Yuxuan Liu。

雖然他們都沒出現在 Prover-V1、Prover-V1.5 的作者名單中,但均為 DeepSeek 資深成員。

在 Prover-V1/V1.5 同一期發布的《Fire-Flyer AI-HPC》研究中可見其署名。

該研究提出的 Fire-Flyer AI-HPC 架構,通過軟硬體協同設計降低訓練成本,解決傳統超算架構在 AI 訓練需求上的不足。

不過這次 Prover-V2 的論文中并未提及在訓練或推理基礎設施具體有哪些優化策略。

最後還有一位新面孔 Hongxuan Tang,暫未了解到具體信息。

Prover-V2 發布後迅速引發社區關注,GitHub 倉庫 12 小時内即獲得 350+ 星标。

在 X(原 Twitter)、抱抱臉等平台,網友們展開熱烈讨論。

Prover-V2 核心貢獻者邵智宏在個人賬号主動推介研究成果。

X 工程師 @kache 特别贊賞道:

感謝你們對開放科學研究的奉獻。

普林斯頓大學助理教授 Chi Jin 表示:

恭喜這項驚人的工作!在 miniF2F 上攻克最後 10%-20% 的問題标志着能力上的重大飛躍。當前形式化數學領網域的競争态勢堪稱激烈,難以置信 Kimina 僅保持了兩周 SOTA 就被 DeepSeek 超越。

就連 Kimina-Prover 核心貢獻者 @Marco Dos Santos 都來送上了祝賀:

祝賀 DeepSeek AI 團隊将 miniF2F 任務的 SOTA 提升到了 89%!

很高興看到長思維鏈方法正在被其他團隊獨立探索且呈現出一些有趣的差異。形式數學如今比以往任何時候都更受歡迎!

另外,網友們最關注的問題仍然是:R2 什麼時候發布啊~

論文:

https://github.com/deepseek-ai/DeepSeek-Prover-V2/blob/main/DeepSeek_Prover_V2.pdf

模型:

https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B

DeepSeek-Prover

https://arxiv.org/abs/2405.14333

DeepSeek-Prover-V1.5

https://arxiv.org/abs/2408.08152

參考鏈接:

[ 1 ] https://trishullab.github.io/PutnamBench/leaderboard.html

[ 2 ] https://x.com/zhs05232838/status/1917600755936018715

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

—  完  —

點亮星标

科技前沿進展每日見

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們