7B開源數學模型幹翻千億GPT-4，中國團隊出品 - 大酷樂

今天小編分享的科學經驗：7B開源數學模型幹翻千億GPT-4，中國團隊出品，歡迎閲讀。

7B 開源模型，數學能力超過了千億規模的 GPT-4！

它的表現可謂是突破了開源模型的極限，連阿裏通義的研究員也感嘆縮放定律是不是失效了。

無需借助任何外部工具，它就能在競賽水平的 MATH 數據集上達到 51.7% 的準确率。

在開源模型中，它第一個在該數據集上達到一半的準确率，甚至超過了早期和 API 版本的 GPT-4。

這一表現讓整個開源社區為之震撼，Stability AI 的創始人 Emad Mostaque 也表示研發團隊屬實讓人印象深刻，而且潛力被低估了。

它，就是深度求索團隊最新開源的 7B 數學大模型 DeepSeekMath。

7B 模型力壓群雄

為了評估 DeepSeekMath 的數學能力，研究團隊使用了中（MGSM-zh、CMATH）英（GSM8K、MATH）雙語的數據集進行了測試。

在未使用輔助工具、僅靠思維鏈（CoT）提示的情況下，DeepSeekMath 的表現均超越了其他開源模型，其中包括 70B 的數學大模型 MetaMATH。

和自家推出的 67B 通用大模型相比，DeepSeekMath 的成績也有大幅提升。

如果考慮閉源模型，DeepSeekMath 也是在幾個數據集上都超越了 Gemini Pro 和 GPT-3.5，在中文的 CMATH 上超越了 GPT-4，MATH 上的表現也與之接近。

但要注意的是，GPT-4 按泄露規格是一個千億參數的龐然大物，而 DeepSeekMath 參數量只有 7B。

如果允許使用工具（Python）進行輔助，DeepSeekMath 在競賽難度（MATH）數據集上的表現還能再提高 7 個百分點。

那麼，DeepSeekMath 優異表現的背後，都應用了哪些技術呢？

基于代碼模型打造

為了獲得比從通用模型更好的數學能力，研究團隊使用了代碼模型 DeepSeek-Coder-v1.5 對其進行初始化。

因為團隊發現，無論是在兩階段訓練還是一階段訓練設定下，代碼訓練相比于通用數據訓練都可以提升模型的數學能力。

在 Coder 的基礎上，研究團隊繼續訓練了 5000 億 token，數據分布如下圖：

訓練數據方面，DeepSeekMath 使用的是從 Common Crawl 提取的 120B 高質量數學網頁數據，得到了 DeepSeekMath Corpus，總數據量是開源數據集 OpenWebMath 的 9 倍。

數據采集過程是迭代式進行的，經過四次迭代，研究團隊收集了 3500 多萬個數學網頁，Token 數量達到了 1200 億。

為了确保訓練數據中不包含測試集的内容（因為 GSM8K、MATH 中的内容在互聯網上大量存在），研究團隊還專門進行了過濾。

為了驗證 DeepSeekMath Corpus 的數據質量，研究團隊分别用 MathPile 等多個數據集訓練了 1500 億 token，結果 Corpus 在多個數學基準上效果明顯領先。

對齊階段，研究團隊首先構建了一個 776K 樣本的中英文數學指導監督微調（SFT）數據集，其中包括 CoT、PoT 和工具集成推理等三種格式。

而在強化學習（RL）階段，研究團隊使用了一種名為 " 基于組的相對策略優化 "（Group Relative Policy Optimization ，GRPO）的高效算法。

GRPO 是近端策略優化（PPO）的一種變體，過程中傳統的價值函數被替換為一個基于組的相對獎勵估計，可以減少訓練過程中的計算和内存需求。

同時，GRPO 通過迭代過程進行訓練，獎勵模型會根據策略模型的輸出不斷更新，以确保策略的持續改進。

曾推出首個國產開源 MoE 模型

推出 DeepSeekMath 的深度求索團隊，是國内開源模型領網域的一名 " 頭部選手 "。

此前，該團隊就曾推出過首個國產開源 MoE 模型 DeepSeek MoE，它的 7B 版本以 40% 的計算量擊敗了相同規模的密集模型 Llama 2。

作為通用模型，DeepSeek MoE 在代碼和數學任務上的表現就已十分亮眼，而且資源消耗非常低。

代碼方面，該團隊推出的 DeepSeek-Coder 的編程能力在代碼生成、跨檔案代碼補全、以及程式解數學題等多個任務上均超過了同等規模的開源标杆 CodeLllama。

同時，它也擊敗了 GPT-3.5-Turbo，成為最接近 GPT-4-Turbo 的開源代碼模型。

如前文所説，此次推出的 DeepSeekMath，也正是在 Coder 的基礎之上打造的。

而在 X 上，已經有人開始在期待 Coder 和 Math 的 MoE 版本了。

論文地址：

https://arxiv.org/abs/2402.03300

參考鏈接：

[ 1 ] https://twitter.com/deepseek_ai/status/1754701472363958581

[ 2 ] https://mp.weixin.qq.com/s/CPyKHnBNzJuCn-wZ1wpPoA

— 完 —

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~

>

熱門排行

消息稱 vivo X Fold5 折疊屏手機配骁龍 8 G 佼昌翰 | 2025-04-26
智能進化科技驅動：寶馬上海車展定義未來汽惠惠君 | 2025-04-26
特朗普吓退外資？高盛：外國投資者近兩月累計抛嬴覓晴 | 2025-04-26
馬斯克殺回汽車行業：特斯拉自動駕駛出租車開郜萌運 | 2025-04-26
6月降息？美聯儲“喉舌”緊急提醒：勿過度腦補寸飛蘭 | 2025-04-26
香港中文大學MBA招生宣講會（廣州站）賁芳蕤 | 2025-04-26
炮制假非遺、AI生成假神醫，涉事企業被立案調賁芳蕤 | 2025-04-26
悄悄變大的牙縫，可能是這些習慣惹的禍！這些情袁曼雁 | 2025-04-26
一路攀升！Opta預測利物浦奪冠概率的變化：賽季嬴覓晴 | 2025-04-26
埃隆·馬斯克旗下XAI公司正與投資者洽談計嬴覓晴 | 2025-04-26
高露現身上海虹橋機場黑色外套點綴亮色愛惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：處理器更新為天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懶癌”發病率上升，定期體檢别忽視幸聽楓 | 2023-05-02
宋慧喬獲百想視後韓素希發圖手動加愛心表賁芳蕤 | 2023-05-02
十年了，他們終于要HE！惠惠君 | 2023-05-07
曹操墓，裏面都有啥？衛青柏 | 2023-05-02
中央部署經濟工作，釋放5大信号郜萌運 | 2023-05-02
高德上線手機彎道會車預警功能習又夏 | 2023-05-02
陳自瑤抱病為愛女做蛋糕慶生，王浩信點贊沒露賁芳蕤 | 2023-05-02
等比例長大的童星，李蘭迪算一個郟君昊 | 2023-05-02
高端國產車：軍車血統，目前電動車越野的“天花謝飛揚 | 2023-05-02
《雲襄傳》終于抬上來啦，男O女A讓人好上頭！集玲琳 | 2023-05-02
這些被抓來做實驗的流浪狗，最終拯救了無數糖集玲琳 | 2023-05-02
信用風險釋放趨緩，結構性風險需重點關注 — 袁曼雁 | 2023-05-02
21家A股遊戲公司2022年收入651億今年“遊衛青柏 | 2023-05-04
與周立波夫婦鬧糾紛成老賴，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
普京籤署總統令，批準對俄刑法典相關法條的修集玲琳 | 2023-05-02
中銀證券給予南京銀行增持評級袁曼雁 | 2023-05-03
解除資格！停止一切合作佼昌翰 | 2023-05-02
3699起聯想小新mini主機上架 13代酷睿标壓習又夏 | 2023-05-05
前董事長被免，天山生物全面進入“中植系”時惠惠君 | 2023-05-02
瘋成這樣，怎麼還能被全網吹捧？郜萌運 | 2023-05-02
狂吼11次“讓一下”！交警咆哮開道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收購美國第一共和銀行謝飛揚 | 2023-05-02
台劇赢麻了，又來一部8.9 衛青柏 | 2023-05-02
下降45分，上漲35分！34所自劃線院校復試分數線袁曼雁 | 2023-05-07
事關農村土地承包和農民權益，《農村土地承包郟君昊 | 2023-05-02
"三高"已盯上青少年，做好這件事是關鍵習又夏 | 2023-05-05
五一檔沒一個能打的集玲琳 | 2023-05-05
恐怖韓劇下神壇，這次膽小可入袁曼雁 | 2023-05-05
這劇是不是用ChatGPT寫的呀？惠惠君 | 2023-05-02
200户連夜疏散，原因讓人憤怒！“損失超一億”，袁曼雁 | 2023-05-03
性騷擾慣犯，滾出娛樂圈謝飛揚 | 2023-05-05
48歲何炅自曝已老花眼，黃磊睡前認老，《向往的佼昌翰 | 2023-05-02
一個《長月燼明》倒了，《狐妖》《長相思》《惠惠君 | 2023-05-02
張天愛假期曬“酷”存照卷發披肩穿黑色吊嬴覓晴 | 2023-05-02
當年輕人開始不随份子錢袁曼雁 | 2023-05-02
畢滢用8年時間成功逼宮？曾被傳已婚生子的她，幸聽楓 | 2023-05-03
宋慧喬獲視後首次曬照，拿獎杯笑容温柔郜萌運 | 2023-05-02