GRPO在《時空謎題》中擊敗o1、o3-mini和R1

今天小編分享的互聯網經驗：GRPO在《時空謎題》中擊敗o1、o3-mini和R1，歡迎閲讀。

近日，海外大模型產品平台 OpenPipe 上發布了一項研究，闡述其如何通過 GRPO 在重度推理遊戲《時空謎題》中超越 R1、o1、o3-mini 等模型。研究作者分别為來自 Ender Research 的強化學習研究員 Brad Hilton 和 OpenPipe 的創始人 Kyle Corbitt。

他們的研究表示，他們不僅将模型與 Sonnet 3.7 的差距縮小至個位百分比，同時實現超過 100 倍的推理成本優化。

報告中還分享了任務設計與超參數調整的經驗，并公開了基于 torchtune 框架構建的完整訓練方案。

一、背景介紹

自 OpenAI 去年發布突破性的 o 系列推理模型以來，采用強化學習（RL）訓練的大型語言模型（LLMs）迎來爆發式增長。谷歌 DeepMind、阿裏巴巴、DeepSeek、Anthropic 相繼推出支持長 " 思維鏈 "（CoT）推理的先進模型，在可驗證問題上實施強化學習訓練，讓傳統的基準測試逐漸逼近性能天花板。

盡管取得顯著進展，邏輯演繹能力仍是頂尖模型的阿喀琉斯之踵。當前 LLMs 普遍存在三大缺陷：

難以穩定追蹤所有相關細節

無法保持邏輯嚴密的推演過程

多步銜接可靠性不足

即便頂尖模型生成 10-100 倍長度的輸出，仍然會頻現人類可輕易識别的低級錯誤。

帶着好奇，我們開啓了一系列的探索：小型開源模型能否借助前沿強化學習技術，突破演繹推理的邊疆？

我們首先從性能較弱的模型出發，在一項全新的推理任務上對其進行迭代訓練。随着時間的推移，我們明顯觀察到它們的推理能力有所提升，最終達到甚至超越了一些先進的專有模型。

二、基準測試框架

為了開展我們的實驗，我們首先必須确定一個具有明确可驗證答案且具有挑戰性的推理任務。碰巧其中一位作者之前創建了一個完全符合要求的謎題集—— " 時空謎題 "（Temporal Clue）。除了滿足事實真相清晰這一标準外，還可以按照需要創建新謎題。

" 時空謎題 " 靈感源自熱門桌遊 Clue（Cluedo），在該遊戲中，玩家們競相揭開究竟是誰在 Boddy 先生的豪宅中謀殺了他。" 時空謎題 " 将這款遊戲轉變為一個單人邏輯謎題，它不僅涵蓋标準要素 —— 兇手是誰、用什麼兇器、在哪作案，還增添了兩個維度：作案時間和作案動機。謎題是随機生成的，遊戲使用了 OR - Tools 的 CP - SAT 求解器進行線索挑選。

在某個陰冷的冬夜，神秘富豪 John Q. Boddy 先生為他的密友舉辦了一場小型的奢華晚宴。然而，這場晚宴以悲劇收場，Boddy 先生于清晨時分被發現死在都铎莊園的一個房間裏。以下是被認定為嫌疑人的相關利益人員……

為了明确這項推理任務的最佳水平，我們對一些火爆的推理模型進行了基準測試，包括 DeepSeek R1、OpenAI 的 o1 和 o3 - mini 以及 Anthropic 的 Claude Sonnet 3.7。此外，我們還對 14B 和 32B 的 Qwen 模型進行了基準測試，這是我們最終結果的預覽：

在這些基準測試中，我們發現 Claude Sonnet 3.7 在設定 6.4 萬個 token 的情況下表現最佳，DeepSeek R1 的表現幾乎與 OpenAI 的 o1 和 o3 - mini 不相上下。然而，未經調優的 Qwen 2.5 Instruct 模型在相比之下就稍顯遜色了。

一個關鍵問題是：我們能否将這些較小型的開放權重模型訓練到前沿水平的表現？答案是肯定的，只要用對方法。

三、訓練

為了訓練出一個具有前沿水平的推理模型，我們采用了強化學習方法。我們首先讓大語言模型針對每個謎題生成多個回復，以此探索問題的各種可能性，從而引導它們學習。對得出正确答案的推理過程給予正向強化，而對誤導模型的推理過程則進行懲罰。

在眾多強化學習的方法中，我們選用了 DeepSeek 模型的 GRPO 算法。與 PPO 等傳統方法相比，GRPO 不僅表現出色，還簡化了訓練過程。

從宏觀層面來看，我們的訓練遵循以下幾個基本步驟：

針對謎題任務生成模型回復

對回復進行評分，并為每組聊天回復估算優勢值

利用這些優勢值估算結果引導的裁剪策略梯度對模型進行微調

用新的謎題和模型的最新版本重復上述步驟，直至達到最佳性能

在生成回復環節，我們使用了熱門的 vLLM 推理引擎，并對參數選擇進行了調優。我們發現，向 vLLM 發送過多請求會導致正在處理的請求被搶占。為解決這一問題，我們使用了一個信号量來限制請求數量，該信号量經過調優，能夠在盡量減少換出的同時保持較高的鍵值緩存利用率。

采樣完成後，我們使用 HuggingFace Transformers AutoTokenizer 對回復進行處理。它的聊天模板功能可将消息對象渲染為提示字元串，其中包含一個助手掩碼，用于确定哪些标記是由大語言模型生成的。我們發現這些模型在其默認模板中缺少必要的 " 生成 " 标籤，于是在 token 步驟中對模板進行了修改。最終得到的助手掩碼被納入用于調優的張量字典中，用以标識哪些位置需要進行損失計算。

在獲得助手掩碼後，我們對數據進行打包以便調優。除了在每個打包序列中包含多個提示和回復之外，我們還識别出共享的提示标記，并為每個标記分配一個父 ID，同時附上标準的組 ID。對于像 " 時空謎題 " 這類平均每個謎題超過 1000 個标記的任務，我們針對每個任務生成多個回復并高效打包張量，顯著減少了冗餘。一旦将所有必要信息打包完畢，我們就能以二維形式直觀呈現訓練數據集，每一行都是一個可能包含多個提示和回復的标記序列。

有了數據後，我們開始調優。模型已經完成了預訓練和指令微調，具備一定的智能水平。雖然它們還無法穩定地解決謎題，但是偶爾也能成功。通過提高正确推理的概率，我們逐步引導模型朝着 " 神探 " 的水平邁進。對于計算損失和調整權重，我們采用了策略梯度的方法。

在訓練過程中，我們使用了由 PyTorch 團隊提供的 Torchtune 庫，其中包括 Llama、Gemma、Phi 等熱門模型。我們在這個項目中除了使用 Qwen 模型，也用 80 億參數和 700 億參數的 Llama 模型進行了實驗。Torchtune 還提供了一些節省内存和提升性能的工具，包括：

激活檢查點（Activation Checkpointing）

激活解除安裝（Activation Offloading）

量化（Quantization）

參數高效微調（PEFT），例如 LoRA

此外，Torchtune 支持多設備和多節點訓練，還可以結合全分片數據并行（FSDP）和張量并行（TP）訓練。他們提供了十多個訓練配方，鼓勵用户復制并根據自己的用例進行定制。他們完整微調配方的修改版支持以下功能：

多設備和單設備訓練

參考模型加載和權重交換以計算 KL 散度

使用組和父 ID 進行高級因果掩碼計算

GRPO 損失集成和組件日志記錄

強化學習訓練過程涉及超參數的選擇。在訓練模型期間，我們對各種配置進行了測試，最終确定了以下參數：

模型：Qwen 2.5 Instruct 140 億參數版和 320 億參數版

每次迭代的任務數：32

每個任務每次迭代的樣本數：50

每次迭代的總樣本數：32 × 50 = 1600

學習率：6 × 10 ⁻⁶

微批次大小：對于 140 億參數模型為 4 個序列，對于 320 億參數模型為 8 個序列

批次大小：可變，取決于序列數量

批次大小之所以可變，是因為訓練過程中回復長度不同。每次迭代的序列打包效率會有波動，優勢為零的回復會被丢棄。在一次實驗中，我們嘗試将學習率與批次大小成反比動态調整，但這會導致小批次的學習率過高。經過上限處理後的版本與使用恒定學習率相比沒有明顯差異，但調整批次大小和學習率仍是未來值得探索的方向。

我們還進行了簡短的實驗，在每次迭代的任務數和每個任務的樣本數之間進行反向調整（即一個增加另一個減少），同時保持每次迭代的總樣本數大致相等。在較短的訓練周期内，這些變化沒有產生明顯差異，這表明訓練配方對任務數量與單任務樣本量之間的不同配比具有強魯棒性。

四、結果

經過 100+ 次迭代訓練，我們的模型成功達到前沿級推理水平。

我們的模型能夠在準确率下降之前迅速改進。最佳狀态下，140 億參數、1.6 萬個 token 的模型已接近于 ClaudeSonnet 3.7 的性能。320 億參數、6.4 萬個 token 的模型更是幾乎達到了 Sonnet 的結果。

在訓練期間，性能提升遵循幂律規律，在圖表上形成線性關系（在惡化之前）。

下一步，我們将探索多樣化回應的方法，逐步構建能力的方法，或者能夠激勵出徹底探索的方法。

此外，我們注意到在訓練期間輸出長度呈現出有趣的規律。最初回復變長，随後趨于穩定，在訓練接近尾聲時出現分化，其中 140 億參數模型的回復變得更長，而 320 億參數模型的回復長度則縮短（尤其是在達到最佳性能之後）。

為了從定性角度評估邏輯推理能力的提升，我們讓最先進的模型 Claude Sonnet 3.7 對 Qwen 32B 模型所做出的推論進行識别，并評估其合理性。Sonnet 從基礎模型中識别出 6 個推論，除了一個被判定為正确外，其餘均被判定為錯誤。相反，從經過訓練的模型中識别出 7 個推論，除了一個錯誤之外，其餘均被判定為邏輯合理。

最後，在假設按需部署具有足夠吞吐量的情況下，我們根據 Fireworks AI 的無伺服器定價層級估算了 Qwen 模型的成本。我們繪制了一張準确性和推理成本的關系圖，并發現在未經調優的模型中存在一條清晰的線性帕累托前沿線，極大地改善了成本與準确性之間的權衡關系。

五、結語

在我們的調查研究中，我們探索了較小型的開源語言模型能否通過強化學習實現前沿水平的演繹推理能力。對時間線索謎題進行訓練時，我們使用了超參數和 GRPO 方法來訓練 Qwen 14B 和 32B 模型，顯著低提升了性能。這些改進使開源模型在推理性能方面達到了最前沿的水平，并大幅度低降低了成本。我們的研究結果凸顯了強化學習在高效訓練開源模型處理復雜演繹任務方面的巨大潛力。

此外，最後還有一個驚喜。我們發現，僅需 16 個訓練樣本就能實現高達 10 - 15% 的性能提升，這意味着我們無需大量數據就能進行推理。

原文鏈接：https://openpipe.ai/blog/using-grpo-to-beat-o1-o3-mini-and-r1-on-temporal-clue

雷峰網