微軟出招！新模型數學超GPT-4o編程勝Llama3.3，訓練新範式引熱議：midtraining - 大酷樂

今天小編分享的科學經驗：微軟出招！新模型數學超GPT-4o編程勝Llama3.3，訓練新範式引熱議：midtraining，歡迎閲讀。

OpenAI 谷歌天天刷流量，微軟也坐不住了，推出最新小模型 Phi-4。

參數量僅 14B，MMLU 性能就和 Llama 3.3/ Qwen2.5 等 70B 級别大模型坐一桌。

數學能力上，Phi-4 在美國數學競賽 AMC 10/12 上超過了 GPT-4o 等一眾大模型，分數衝上 90。

編程能力也是開源模型一流，超過了 70B 的 Llama 3.3 和 72B 的 Qwen 2.5。

更引起熱議的是，微軟在技術報告中還提出了一個新的訓練範式——midtraining。

這一舉動讓 Phi-4 擁有了更強的長文本處理能力，視窗長度達到 16K 後，召回率依然保持在 99%。

小模型挑戰復雜推理

在常見基準測試中，Phi-4 取得了優異的文本處理和復雜推理水平：

在 MMLU 上，Phi-4 以 84.8% 的準确率超過了 GPT-4o-mini 的 81.8% 和 Llama-3.3 的 86.3%；

在研究生水平 STEM 問答 GPQA 上，Phi-4 準确率達到 56.1%，高于同尺寸模型 Qwen-2.5 的 42.9%，甚至超過了 GPT-4o 的 50.6%；

在數學測試集 MATH 上，Phi-4 以 80.4% 的準确率超過 GPT-4o-mini 的 73%，并接近 GPT-4o 的 74.6%；

編程能力方面，Phi-4 在 HumanEval 上以 82.6% 超過了其他開源模型，以及 GPT-4o-mini。

在難度稍高的 MMLU 和 HumanEval+ 上，Phi-4 的表現也超過了其他開源模型；在 ArenaHard、LiveBench 和 IFEval 上則表現欠佳。

另外，微軟還用内部的基準 PhiBench 對模型能力進行了更全面的評估，結果 Phi-4 取得了 56.2% 的綜合得分，展現出在推理、知識、編程等方面的全面能力，但相比于 Qwen 2.5-72B 等模型，還是暴露了有待提高之處。

在 Phi-4 的宣傳頁中，微軟還展示了其在一個具體的數學推理題目上的表現。

Phi-4 非常有條理地考慮了各種可能出現的情況，并計算出了正确答案。

除了這些常規能力，微軟團隊還專門在長文本上測試了 Phi-4 的表現。

在 8K 和 16K 兩種視窗長度中，研究團隊利用 HELMET 基準評估了 Pho-4 和其他模型在 RAG、QA 問答、長文本摘要等任務上的水平。

結果，Phi-4 在多個任務上與同尺寸的 Qwen 2.5-14B 相當，部分指标還可與 70B 的 Llama 3.3 一決高下。

不過，Phi-4 在某些任務（如 RAG 和文檔排序）上，仍有進一步提升的空間。

不同于一般大模型的預訓練 + 後訓練的兩階段模式，微軟在兩個階段中間新加入了一個 midtraining 階段。

在 10 萬億 tokens 規模的預訓練完成後，Phi-4 可以處理 4k 長度的上下文視窗，而 midtraining 的目的是在此基礎上進一步将視窗長度提升到 16k。

研究團隊發現，天然的長上下文數據（如完整的學術論文）比人工拼接短樣本更有利于訓練長上下文能力。

因此，團隊從學術文章、書籍、代碼庫等高質量非合成文本中篩選出長度大于 8K tokens 的樣本作為訓練集，并且對長度超過 16K tokens 的樣本進行加權，以匹配目标長度。

為進一步豐富長上下文訓練數據，研究團隊專門生成了滿足大于 4K 長度要求的新合成數據，與真實長文本數據共同組成了 midtraining 階段的數據集。

最終，midtraining 階段的數據包含 30% 新引入的長文本數據（篩選 + 合成）和 70% 預訓練階段的歷史數據，規模為 2500 億 tokens。

同時，為了适應 16K 的長序列訓練，研究團隊将 rope 位置編碼的基頻從預訓練階段的 2K 擴大到 250K；同時，為保證訓練穩定性，團隊将學習率降低為預訓練階段的十分之一。

最終，Phi-4 在 HELMET 等長文本基準測試中表現出色，證明了 midtraining 階段的有效性。

除此之外，在後訓練階段，研究團隊還提出了一種新穎的對比學習方法——樞軸 tokens 搜索（PTS）。

通過識别對模型輸出影響最大的關鍵 tokens，并圍繞它們構造正負樣本對，PTS 可以生成高信噪比的對比學習數據，顯著提升訓練效率和效果。

除了 PTS 生成的對比學習數據，研究團隊還引入了人類反饋對比學習（Human Feedback DPO）。

他們招募了大量人員對模型輸出進行評判，并據此構造優質的正負樣本對，使得模型更加貼近人類偏好。

One More Thing

不過 midtraining 并不是微軟首次提出，早在 7 月份，OpenAI 就已經開始為倫敦的 midtraining 團隊招人了。

論文地址：

https://arxiv.org/abs/2412.08905

— 完 —

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~

>