7B開源數學模型幹翻千億GPT-4，中國團隊出品

今天小編分享的科學經驗：7B開源數學模型幹翻千億GPT-4，中國團隊出品，歡迎閱讀。

7B 開源模型，數學能力超過了千億規模的 GPT-4！

它的表現可謂是突破了開源模型的極限，連阿裡通義的研究員也感嘆縮放定律是不是失效了。

無需借助任何外部工具，它就能在競賽水平的 MATH 數據集上達到 51.7% 的準确率。

在開源模型中，它第一個在該數據集上達到一半的準确率，甚至超過了早期和 API 版本的 GPT-4。

這一表現讓整個開源社區為之震撼，Stability AI 的創始人 Emad Mostaque 也表示研發團隊屬實讓人印象深刻，而且潛力被低估了。

它，就是深度求索團隊最新開源的 7B 數學大模型 DeepSeekMath。

7B 模型力壓群雄

為了評估 DeepSeekMath 的數學能力，研究團隊使用了中（MGSM-zh、CMATH）英（GSM8K、MATH）雙語的數據集進行了測試。

在未使用輔助工具、僅靠思維鏈（CoT）提示的情況下，DeepSeekMath 的表現均超越了其他開源模型，其中包括 70B 的數學大模型 MetaMATH。

和自家推出的 67B 通用大模型相比，DeepSeekMath 的成績也有大幅提升。

如果考慮閉源模型，DeepSeekMath 也是在幾個數據集上都超越了 Gemini Pro 和 GPT-3.5，在中文的 CMATH 上超越了 GPT-4，MATH 上的表現也與之接近。

但要注意的是，GPT-4 按洩露規格是一個千億參數的龐然大物，而 DeepSeekMath 參數量只有 7B。

如果允許使用工具（Python）進行輔助，DeepSeekMath 在競賽難度（MATH）數據集上的表現還能再提高 7 個百分點。

那麼，DeepSeekMath 優異表現的背後，都應用了哪些技術呢？

基于代碼模型打造

為了獲得比從通用模型更好的數學能力，研究團隊使用了代碼模型 DeepSeek-Coder-v1.5 對其進行初始化。

因為團隊發現，無論是在兩階段訓練還是一階段訓練設定下，代碼訓練相比于通用數據訓練都可以提升模型的數學能力。

在 Coder 的基礎上，研究團隊繼續訓練了 5000 億 token，數據分布如下圖：

訓練數據方面，DeepSeekMath 使用的是從 Common Crawl 提取的 120B 高質量數學網頁數據，得到了 DeepSeekMath Corpus，總數據量是開源數據集 OpenWebMath 的 9 倍。

數據采集過程是迭代式進行的，經過四次迭代，研究團隊收集了 3500 多萬個數學網頁，Token 數量達到了 1200 億。

為了确保訓練數據中不包含測試集的内容（因為 GSM8K、MATH 中的内容在互聯網上大量存在），研究團隊還專門進行了過濾。

為了驗證 DeepSeekMath Corpus 的數據質量，研究團隊分别用 MathPile 等多個數據集訓練了 1500 億 token，結果 Corpus 在多個數學基準上效果明顯領先。

對齊階段，研究團隊首先構建了一個 776K 樣本的中英文數學指導監督微調（SFT）數據集，其中包括 CoT、PoT 和工具集成推理等三種格式。

而在強化學習（RL）階段，研究團隊使用了一種名為 " 基于組的相對策略優化 "（Group Relative Policy Optimization ，GRPO）的高效算法。

GRPO 是近端策略優化（PPO）的一種變體，過程中傳統的價值函數被替換為一個基于組的相對獎勵估計，可以減少訓練過程中的計算和内存需求。

同時，GRPO 通過迭代過程進行訓練，獎勵模型會根據策略模型的輸出不斷更新，以确保策略的持續改進。

曾推出首個國產開源 MoE 模型

推出 DeepSeekMath 的深度求索團隊，是國内開源模型領網域的一名 " 頭部選手 "。

此前，該團隊就曾推出過首個國產開源 MoE 模型 DeepSeek MoE，它的 7B 版本以 40% 的計算量擊敗了相同規模的密集模型 Llama 2。

作為通用模型，DeepSeek MoE 在代碼和數學任務上的表現就已十分亮眼，而且資源消耗非常低。

代碼方面，該團隊推出的 DeepSeek-Coder 的編程能力在代碼生成、跨檔案代碼補全、以及程式解數學題等多個任務上均超過了同等規模的開源标杆 CodeLllama。

同時，它也擊敗了 GPT-3.5-Turbo，成為最接近 GPT-4-Turbo 的開源代碼模型。

如前文所說，此次推出的 DeepSeekMath，也正是在 Coder 的基礎之上打造的。

而在 X 上，已經有人開始在期待 Coder 和 Math 的 MoE 版本了。

論文地址：

https://arxiv.org/abs/2402.03300

參考鏈接：

[ 1 ] https://twitter.com/deepseek_ai/status/1754701472363958581

— 完 —

點這裡關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~