10美元成功復現DeepSeek頓悟時刻，3B模型爆發超強推理！微軟論文實錘湧現

今天小編分享的互聯網經驗：10美元成功復現DeepSeek頓悟時刻，3B模型爆發超強推理！微軟論文實錘湧現，歡迎閲讀。

復刻 DeepSeek 的神話，還在繼續。

之前，UC 伯克利的博士只用 30 美元，就復刻了 DeepSeek 中的頓悟時刻，震驚圈内。

這一次，來自荷蘭阿姆斯特丹的研究人員 Raz，再次打破紀錄，把復刻成本降到了史上最低——

只要 10 美元，就能復現 DeepSeek 頓悟時刻！

Raz 本人也表示，自己驚訝極了。

即使是一個非常簡單的強化學習設定，并沒有太多 RL 算法的復雜性（比如 PPO、TRPO、GRPO 等），也能在有限的計算資源下產生湧現的結果。

在具體設計過程中，他特别考慮強化學習中 LLM 中的應用和傳統強化學習問題（如機器人、Atari 遊戲等）在狀态空間和動作空間的不同。

因此，Raz 選擇從非常簡單的 RL 算法—— Reinforce-Lite 入手。

采用輕量級強化學習算法—— Reinforce-Lite 生成的推理過程之一。我們将一步步看到，端到端的強化學習微調模型如何表現出智能、回溯、自我反思、邏輯推理等迹象

結果，令人出乎意料的事情發生了：只用不到 10 美元的成本，他就在一個 3B 模型上復刻了 DeepSeek 的頓悟時刻。

幾乎就像是這個 3B 模型本身就具備了做出驚人事情的潛力，我們需要的，只是通過正确的方式賦予它一定的自主性而已。

接下來，讓我們看一下 Raz 的博客，感受一下這次超經濟實惠的 AI 推理，是怎樣突破的。

復刻 DeepSeek 頓悟時刻，只用不到 10 美元

我們能否在計算資源有限（只有 48GB RTX6000 顯卡和 10 美元）的情況下，讓一個 3B 模型具備回溯、自我反思、邏輯推理等推理能力？

研究人員猜測，通過強化學習也許能做到。

強化學習是最強大的學習算法之一，它一次又一次地為我們帶來令人驚嘆的成果。

DeepMind 的 AlphaGo、OpenAI 的 DOTA 2、MuJoCo 和 Atari 實驗、LLM 的 RLHF 對齊，以及最近 DeepSeek 全面布局的 RL 技術，無比證明它的強大威力。

然而，由于 RL 有許多動态部分，一涉及到眾多組件，強化學習就變得復雜了。

在此過程中，強化學習需要精心設計重要元素，如合适的信用分配機制、演員 - 評論員的适當超參數調整、強化學習算法類型（基于模型 / 無模型）等，這就導致了強化學習在更廣泛的範圍内應用受限。

如果在 LLM 環境中使用強化學習，可能涉及的模型可以多達 5 個：

策略模型：正在訓練的模型

舊策略模型：用于計算替代目标

參考模型：用于計算 KL 散度（KL-divergence）

獎勵模型：用于學習獎勵函數

評判模型：用于計算價值函數

Reinforce-Lite：一個比 PPO 更簡單、更穩定且更高效的微調方案

3B 模型端到端強化學習訓練的計算需求

由于涉及眾多組件，不僅帶來了計算負擔，還帶來了訓練穩定性方面的復雜性和挑戰。

因此，研究人員開始思考：能否從零開始重新構想整個算法，回歸第一性原理？

他們的答案就是——一個簡單的替代方案，Reinforce-Lite。

這種方法消除了對替代目标比率和舊策略模型的需求，通過單一策略神經網絡來穩定訓練過程，同時，還能為模型注入推理能力。

為此，我們需要理解的第一個問題就是——

使用替代目标比率（如 PPO/GRPO）是過度優化？

OpenAI vs DOTA 5v5：基于大規模強化學習訓練

在 MuJoCo、Atari、Dota 等傳統強化學習環境中，PPO 對每個批次進行多次更新是至關重要的，這是因為在這些環境中數據收集成本非常高昂，而重復使用樣本可以提高樣本效率。

然而在 LLM 中，這種方法既無必要，又會帶來巨大的計算開銷。

LLM 可以并行生成多樣化的響應，自然形成豐富的數據集，因此就無需重復更新。

所有響應都可以使用相同的策略網絡生成，一旦在序列生成結束時獲得獎勵，就可以進行梯度反向傳播。

此外，在文本生成這樣的高維動作空間中，每個 batch 多次更新可能導致過拟合，而非有意義的策略改進。

相反，如果每個 batch 單次更新，再結合分組歸一化等技術，就可以在顯著降低計算成本的同時，保持訓練穩定性。

考慮到 LLM 訓練本身就需要大量資源，在不影響性能的前提下簡化優化過程，顯然是更有效的選擇。

從技術角度來看，這也消除了為計算替代目标比率而保留舊策略模型的需求。

LLM 強化學習與經典強化學習的區别

總之，在這個算法中——

移除 KL 散度，不需要參考模型 ❌ ——改用梯度裁剪。雖然不是自适應的方法，但能有效完成任務。

移除替代目标，不需要舊策略模型 ❌

使用分組相對獎勵進行優勢計算（類似 DeepSeek 的 GRPO 方式），不需要價值網絡 ❌

這樣，我們就得到了一個輕量級的強化學習算法。

通過以上簡化，優化問題最終就回歸為經典的 Reinforce 算法——

Reinforce-Lite

在優勢計算方面，研究人員采用分組相對策略優化（GRPO）的歸一化技術，将每個問題的 10 個回應結果作為一組，并通過其歸一化方法來降低梯度更新中的方差。

讓我們來看看它在 PyTorch 中的具體實現。

初始化一個經過指令微調的 LLM，并通過合适的提示詞使其在标籤中包含推理步驟。

為模型輸出定義一個獎勵函數（例如，在 GSM8K 基準中的正确率）。通過正則表達式從标籤中提取數值，并與數據集中的實際答案進行比較。

通過直接計算相對于獎勵的梯度來優化策略，無需使用替代損失函數。

采用分組相對歸一化優勢計算值，從而消除對批評模型的依賴。采用 10 作為分組大小。

使用标準的對數概率梯度技巧對模型進行更新。

GSM8K 數據集

為了驗證自己的假設，研究人員将使用 GSM8K，這是一個包含小學數學問題及其答案的 Grade School Math 8K 數據集，格式如下：

問題：Natalia 在 4 月份向她的 48 個朋友賣出了發夾，而在 5 月份她售賣的發夾數量是 4 月份的一半。Natalia 在 4 月和 5 月總共售賣了多少個發夾？

Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?

答案：Natalia 在 5 月售賣了 48/2 = 24 個發夾。Natalia 在 4 月和 5 月總共售賣了 48+24 = 72 個發夾。#### 72

Natalia sold 48/2 = 24 clips in May. Natalia sold 48+24 = 72 clips altogether in April and May. #### 72

雖然答案中就包含了完整的推理步驟，但讓研究人員感興趣的，只有 ### 後的最終答案。

對此，研究人員引導策略模型，以格式輸出了最終答案，并用它來驗證模型計算的答案是否正确。

這更像是一個蒙特卡洛問題——在每個回合結束時，才能獲得獎勵。

獎勵建模

研究人員把獎勵機制設計得很簡單易懂，對于策略模型：

答案錯誤時，給予負獎勵 -1

答案正确時，給予正獎勵 +1

訓練設定

接下來，研究人員使用 Reinforce-Lite 算法，在 RTX A6000 顯卡上訓練了 3B 模型，訓練時間為 12 小時，并采用大小為 10 的分組。

在訓練初期，可以觀察到：模型不斷嘗試增加輸出序列 / 輸出 token 的長度，但會經常遇到内存溢出（OOM）問題，這就限制了模型嘗試更長的推理過程，并從中有效學習。

獎勵圖表展示的是分組響應的平均得分。理想情況下，平均值越接近 1，表示模型在大多數采樣響應中的準确率越高。

在這次實驗中，研究人員只訓練了數百次迭代，可以觀察到當策略模型嘗試不同策略時，得分會出現一定波動。

這種波動可以通過熵正則化來平衡探索與利用之間的關系，這是他們未來探索的一個方向。

對比測試 Reinforce-Lite 和 Instruct 模型

研究在 GSM8K 數據集上評估了 Reinforce-Lite，發現在有限訓練時間内，Reinforce-Lite 相比指令模型在得分上實現了小幅提升。

具體來説，Meta Llama 3.2 模型提升了 2.0％（從 70.5 提升至 72.5），而在 FP16 格式下運行的 Phi 3.5 Instruct 則提升了 0.6％（從 83.4 提升至 84.0）。

推理軌迹分析

觀察一些推理軌迹後可以發現，經過 Reinforce-Lite 微調的模型展現出了多種推理能力，包括：

邏輯思維

搜索策略

結果驗證

通過表格進行中間計算

試錯方法等

注意！這些推理軌迹，在常規的指令模型中均未觀察到。

比如在下圖中，模型展現出了基本的數學推理能力。它能夠通過代數表達式設立問題，并通過解方程來求解。

過程中，它能識别出不合理的解，在原方案不可行時選擇調整解決方案，最終還能通過比較不同選擇的成本，來做出最優決策。

在這道題中，模型表現出的處理包含條件推理和糾錯的能力，也令人印象深刻。

它首先設定了問題背景，計算派對開始時的總人數。然後根據已知條件（總共 40 人，1/4 人離開），計算出有 10 人離開派對。

然而，在計算離開的女性人數時，模型居然得出了一個負數，它意識到了自己的推理中，一定出現了邏輯錯誤。

為此，它重新審視了情況，修正了自己的推理，正确計算出派對上剩下了 8 名女性，從而得出正确答案。

這道題中，模型設定初始繃帶數量為 x，根據給定條件将繃帶數量的變化轉換為代數方程，但解出的方程結果是 x=-6。

它意識到自己的錯誤後，回顧了之前的步驟，識别出自己在計算第三天的繃帶使用量時犯了錯。修正方程後，它重新計算出了正确結果。

整個過程中，它展現出了較強的自我糾錯和邏輯推理能力，能在復雜計算過程中發現并修正問題。

關鍵要點總結

總結來説，這項研究主要有以下發現。

結構化推理能力提升

從生成的序列中可以觀察到，經過 RL 微調的模型在評估得分上實現了小幅提升。

簡化算法復雜度，無需 PPO 的復雜性

研究表明，對 LLM 進行微調只需要一個策略網絡即可，無需采用 PPO 的復雜機制。

優化計算效率

Reinforce-Lite 作為一個計算友好型算法，支持端到端的 RL 訓練，同時顯著降低了訓練復雜度。

增強模型自主性

算法成功地賦予了 LLM 自主能力，讓模型會通過嘗試不同策略來獲取獎勵。

更長的推理回合，需要更多内存

随着訓練的進行，可以發現模型傾向于進行更長的推理過程，但在使用 48GB GPU 訓練 3GB 模型（FP16）時，如果超過 1024 個 token，就會頻繁出現内存溢出問題。

在沒有 KL 散度的情況下确保穩定性

研究人員發現，使用簡單的梯度裁剪就能有效替代 KL 散度計算，這是一種高效的替代方案，用于防止策略偏離。在整個訓練過程中，模型策略保持穩定，未出現劇烈波動。

DeepSeek-R1 啓發，7B 模型實現高級推理技能

巧的是，最近來自微軟亞洲研究院的一項工作，也證明了 RL 的巨大潛力——通過有效且穩定的 RL 訓練後，一個 7B 模型，居然就發展出了反思、驗證和總結的高級推理技能！

而這些技能，在邏輯語料庫中是完全缺失的。

受 DeepSeek-R1 成功的啓發，研究團隊探索了基于規則的強化學習（RL）在大規模推理模型中的潛力。

為了分析推理機制，他們選擇了具有可控復雜度和直接答案驗證方式的「合成邏輯謎題」作為訓練數據。

在此過程中，團隊取得了一些關鍵性的技術突破，并促成了有效且穩定的 RL 訓練：

一個着重強調思考和回答過程的 system prompt

一個用于懲罰取巧輸出的嚴格格式獎勵函數

一個能實現穩定收斂的簡單訓練方案

其中，訓練框架采用 REINFORCE++ 算法和來自 DeepSeek-R1 的獎勵設計進行後訓練。

随着 RL 訓練的進行，可以觀察到模型自然地分配更多的訓練步驟用于推理。這種計算擴展從生成數百個 token 擴展到數千個 token，使其能夠更深入地探索和完善其思維過程。

結果顯示，只有 70 億參數的 Qwen2.5-7B，在經過 5K 個邏輯問題的訓練後，就發展出了一些在邏輯語料庫中原本不存在的高級推理技能——如反思、驗證和總結能力。

研究中，考驗模型的這道邏輯題是這樣的。

問題：一個非常特殊的島嶼上只住着騎士和騙子。騎士總是説真話，騙子總是説謊。你遇到兩位島民：Zoey 和 Oliver。Zoey 説：「Oliver 不是騎士。」Oliver 説：「Oliver 是騎士且 Zoey 是騙子。」請問，誰是騎士，誰是騙子？

正确答案：（1）Zoey 是騙子；（2）Oliver 是騎士。

這個「騎士與騙子」謎題，因其合成設計和邏輯精确性而非常适合進一步分析。

首先，謎題對于模型來説都是未見過大數據，非常适合用來測試泛化能力。

其次，通過改變字元數量（2 到 8 個）和邏輯運算的復雜性（1 到 4 種布爾運算符組合），可以調節難度。

而且，每個謎題都有一個單一、明确的正确答案，正确性由生成算法保證。解答需要嚴格的演繹推理，因此減少了獎勵作弊的風險。

總之，每個謎題都遵循正式規則構建，能确保每個問題都有一個獨特的解決方案，并可以确定性地驗證。這消除了自然語言任務中常見的模糊性，使我們能夠清晰地區分真正的推理能力和表面上的記憶。

在獎勵建模中，研究在模型輸出中不斷檢測作弊行為，并不斷改進獎勵設計。

最終，他們設計出了一種幾乎無法作弊的基于規則的獎勵系統，僅包含兩種獎勵類型：格式獎勵和答案獎勵。

以下就是不同的推理模型和通用模型在不同難度的 K&K 邏輯謎題上的表現。

在 RL 訓練後，可以在模型中觀察到以下湧現的行為。

1. 會出現猶豫和自我驗證

在思考環節，模型會不時使用「我不是完全确定，讓我們重新檢查這一步」這類反思性表達。

這種自我審視的行為特征在預訓練階段是完全不存在的，而是通過獎勵正确答案、懲罰錯誤答案的強化學習機制逐步培養形成的。

2. 多輪徑探索和回溯

經過 RL 訓練後，模型會主動提出多個解決方案（「讓我們測試兩種可能性」），并通過回溯來檢查解決方案的一致性。

3. 應用公式

盡管訓練數據集中并未包含，但模型不僅能夠通過系統性試錯方法解決謎題，還自主整合了形式邏輯推理能力（比如運用「如果 P，則 Q」的邏輯藴含公式），這種推理模式與人類的問題解決方式高度相似。

4. 忽然開始説中文

模型在分析問題陳述時會臨時插入中文表達，随後又能自然地轉換為英語來提供解決方案。

這一現象表明，模型正在使用語言混合機制作為一種潛在的備選處理策略，或是形成了某種特殊的内部表征模式。

在具有挑戰性的數學基準測試 AIME 和 AMC 上，模型展現出了卓越的泛化能力——成績分别提高了 125% 和 38%。

這種跨領網域泛化能力表明，RL 訓練的推理啓發式方法發展出了抽象的問題解決模式，而不是依賴于特定領網域的模式匹配。

所以，這項研究的訓練期間，也出現「頓悟時刻」了嗎？

換句話説就是，在強化學習過程中，模型的推理能力是否會發生顯著的飛躍，出現多步驗證或反思，而且這些行為不是在訓練語料中明确植入的，而是模型與 RL 環境的互動所自然產生的？

研究人員發現，模型并沒有出現「等一下，等一下」這樣特定的語言表述，但圖 4 顯示出，它在第 10 步時表現出了一些復雜的推理行為（例如自我反思、探索、驗證、總結）。

由此，研究人員的結論是，RL 學習過程可能沒有突如其來的「頓悟時刻」——復雜的推理行為并不是在某個特定的訓練步驟中突然出現的。

1. 反思性詞匯（如「檢查」和「驗證」）的頻率緩慢增加（a）-（c）；2. 會話性短語（例如「讓我們」）和謹慎詞匯（例如「還」）變得更加頻繁（d）-（e）；3. 中文詞匯開始出現在英文回復中（f）。所有這些詞匯的頻率都在穩步發展，沒有突然的跳躍，表明可能不存在明顯的「頓悟時刻」

除了上述技術貢獻外，研究還有幾個有趣的發現：

更長的回答并不能保證更好的推理。長度本身不是評估訓練時間的有效指标。最有效的推理來自最短路徑。

語言混合會阻礙推理。這一觀察強調了在獎勵建模中需要語言一致性懲罰。

增加「思考」token 确實有幫助。RL 訓練自然地提高了與反思相關詞匯的頻率，表明某些 token 頻率與性能之間存在相關性。

監督微調（SFT）依賴記憶；RL 實現泛化。SFT 嚴重依賴記憶，往往導致表面的捷徑學習，而 RL 則在最小依賴數據集結構的情況下自我演化。

冷啓動是一個優勢，但非必需。無論是從基礎模型還是指令模型開始，訓練動态都保持驚人的相似性，盡管後者表現略好。

課程學習仍然重要。在固定的數據篩選比例下，精心設計的課程學習方法總是優于随機打亂。

本文來源：新智元，原文标題：《10 美元成功復現 DeepSeek 頓悟時刻，3B 模型爆發超強推理！微軟論文實錘湧現》