從底層重構強化學習訓練框架，阿裏高德開源新方法：抛棄替代損失函數，僅需優化原始目标 - 大酷樂

今天小編分享的科學經驗：從底層重構強化學習訓練框架，阿裏高德開源新方法：抛棄替代損失函數，僅需優化原始目标，歡迎閲讀。

抛棄替代損失函數，僅需優化原始目标，強化學習新範式來了 :

消除 critic 和 reference 模型，避免 KL 散度約束；解決優勢函數和梯度估計兩個偏差。

來自阿裏 - 高德地圖的團隊提出了一種相當簡單的強化學習訓練新方法：組策略梯度優化 GPG （Group Policy Gradient）。

GPG 開創性地從底層重構強化學習訓練框架，僅需優化原始目标，解決已有方法偏差，提高訓練效率。革新強化學習訓練流程，推動智能體性能突破。

在實驗中，GPG 在單模态和多模态兩類任務中表現遙遙領先，其極簡架構與高性能表現，有望成為下一代基礎模型訓練的關鍵方法。

以下是更多 GPG 有關細節。

背景介紹

近年來，以 OpenAI 和 DeepSeek R1 為代表的 LLMs 模型表現亮眼，深究成功背後，是強化微調技術（RFT）聯合現有強化學習方法（如 PPO、GPPO）在激勵模型構建嚴謹的推理鏈上發揮了關鍵作用。

但在面對高昂的訓練成本與性能平衡，主流方法 PPO 也陷入巨大瓶頸，與此同時，其他研究團隊也在嘗試使用 ReMax、GRPO 等簡化訓練流程，并在性能上取得了很大的突破，但他們都依然存在一些問題。

研究團隊認為，當前針對 RL 算法的優化都在圍繞替代損失函數展開，但兩個核心問題始終懸而未決：

1. 能否繞過替代策略，直接優化原始目标函數？

2. 如何最大限度簡化學習策略的設計？

由此，團隊提出了 GPG，其核心創新包括：

直接目标優化：摒棄傳統替代損失函數設計，直接優化原始強化學習目标，突破算法效率瓶頸。

極簡訓練架構：無需評論模型和參考模型支持，擺脱分布約束，為模型擴展性提供更大空間。

精準梯度估計技術 （AGE）：首次揭示現有方法的獎勵偏差問題，提出輕量化且高精度的梯度估計方案，顯著提升策略穩定性。

單模态多模态任務 SOTA 驗證 ：在數學推理、視覺理解、跨模态推理等任務中，GPG 性能全面超越現有方法，驗證其通用性與魯棒性。

組策略梯度 GPG 方法方法對比

各種強化學習方法的比較，作者以最簡單的形式解釋：

下面是 GPG 方法和已有 RL 方法各個模塊的對比：

GPG 方法

GPG 旨在解決在沒有價值模型的情況下，策略梯度估計中的高方差問題。通過利用 group-level 的獎勵 ，GPG 穩定了訓練過程并增強了強化學習訓練的魯棒性。

具體而言，GPG 利用每個 Group 内的平均獎勵來歸一化獎勵，從而有效降低方差。這個方法可以移除傳統的價值模型，從而簡化了訓練過程并提高了計算效率。 GPG 的名稱反映了作者方法核心機制，即利用 group-level 的平均獎勵來穩定和優化學習。

GPG 的核心優化目标定義為：

作者提出的 GPG 方法通過組内優勢函數計算和梯度校正機制實現了高效穩定的策略優化。在優勢函數設計上，采用組内獎勵均值歸一化方法：

其中可根據任務特性靈活選擇 std 或保持為 1，這種設計有效抑制了異常值幹擾。對于數學推理等二元獎勵場景（正确 1.0/ 錯誤 0.0），該方法展現出良好的适應性。

現有 RL 方法中的兩個 bias

優勢函數中的 bias

GRPO 方法的優勢函數中，，這部分是 PG 方法中的 state 部分，這表明 GRPO 優勢函數明确引入了獎勵偏差。DR.GRPO 方法，但是作者發現它無法明顯超過 GRPO 方法。見下表：

組内樣本全對全錯時，引入梯度估計的 bias

當一個組内的樣本，模型預測全對或全錯則會引入對梯度估計的 bias。給定批量大小為的訓練批次，設第個樣本的梯度表示為。

不失一般性，假設批次中的前個模型輸出的示例都正确或錯誤，标準反向傳播（BP）算法估計梯度為：

。然而，前個示例不适用于梯度估計，并貢獻零梯度。

△圖 1（左）在一個組中，所有獎勵都是 0 的簡單問題的比例和所有獎勵都是 1 的困難問題的比例。（右）獎勵在各步驟間的标準差。

針對組内全對 / 全錯樣本的梯度估計 bias 問題，GPG 創新性地引入動态梯度校正因子。通過公式自動調節有效樣本權重，其中為批次大小，為無效樣本數。

實驗表明該機制可使模型準确率從 43.9% 提升至 47.8%，顯著改善訓練穩定性。

實驗在單模态數據集上的結果

在多模态數據集上的結果

結論

在本文中，作者介紹了 GPG，它有效地解決了強化微調方法（如 PPO 和 GRPO）中現有的關鍵挑戰。

通過将基于組内的決策動态直接納入标準的 PG 方法，GPG 簡化了訓練過程，并顯著減少了計算開銷，而不削弱模型效果。這一突破為訓練能夠進行復雜推理的先進 LLM 提供了更高效的框架，從而為更具資源效率和可擴展性的人工智能系統做出了貢獻。

此外，團隊将本文代碼全面開源，希望促進技術透明化發展，也鼓勵更多人參與到該項工作中來。

論文鏈接：https://arxiv.org/pdf/2504.02546

代碼鏈接：https://github.com/AMAP-ML/GPG

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

學術投稿請于工作日發郵件到：

[email protected]

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文 / 項目主頁鏈接，以及聯系方式哦

我們會（盡量）及時回復你

點亮星标

科技前沿進展每日見