今天小編分享的科學經驗:無需數據标注!測試時強化學習,模型數學能力暴增,歡迎閱讀。
無需數據标注,在測試時做強化學習,模型數學能力暴增 159%!
清華和上海 AI Lab 周伯文團隊用這樣的方法,對模型進行了強化——
結果模型在多個數據集上的成績均大幅提升,尤其是 Qwen-2.5-Math-7B,它做 AIME 2024 競賽題的成績直接提高了 159%。
實驗過程中,強化學習的數據均由被訓練的模型自身生成。
作者還發現,訓練後的模型性能,準确性已經超過了用于訓練它的偽标籤(測試時強化學習過程中產生)。
DeepMind 工程師評價,這種測試時強化學習的方式将改變 LLM 的格局:
它利用預訓練模型和特定任務的提示進行實時自适應,而無需大量帶标籤的數據集,這是向前邁出的重要一步。
模型自己生成強化學習數據
作者提出的測試時強化學習(TTRL)過程是測試時擴展和測試時訓練的結合,具體可以分為 " 生成、投票、強化 " 三個大步驟。
第一步生成的目的,是讓模型針對每個輸入的 prompt,生成盡可能多樣化的候選答案,該過程通過測試時推理來實現。
其思路是在推理階段增加計算資源以獲得更好的性能,具體到 TTRL 采用的是增加采樣數量的方式,即對每個 prompt,讓模型采樣生成 N 個不同的答案,而不是只生成一個确定性最高的輸出。
作者的實驗中,當在 AIME 2024 數據集上應用 TTRL 訓練 Qwen2.5-Math-7B 模型時,每個 prompt 采樣 64 次 ( N=64 ) ,溫度系數設為 1.0,以鼓勵模型生成多樣化的答案。
投票過程從上一步生成的 N 個候選答案出發,通過多數投票的方式來估計正确答案,并将其作為偽标籤。
TTRL 在實際應用投票機制時還引入了一個參數 Maj@N,表示多數投票的估計準确率。
它衡量的是偽标籤與真實标籤的一致性。通過控制 Maj@N,可以權衡偽标籤的質量和數量。
最後一步利用強化學習,基于上一步估計出的偽标籤,來優化語言模型的策略,使其傾向于給出正确答案。
TTRL 采用 GRPO 算法,還加入了重要性采樣和蒙特卡洛估計等技術,以提高訓練效率和穩定性。
模型數學能力大幅提升
為了評估 TTRL 的效果,作者在 AIME 2024、AMC 和 MATH-500 三個數據集上對調整前後的三款模型進行了測試。
在 AIME 2024 數據集上,對于 Qwen2.5-Math-7B 基礎模型,TTRL 将其準确率從 16.7% 提高到 43.3%,提升幅度高達 159.3%,超越了所有在大規模标注數據上訓練的模型。
在 AMC 數據集上,Qwen2.5-Math-7B、Qwen2.5-Math-1.5B 和 LLaMA 模型的準确率分别獲得了 74.9%、63.1% 和 68.4% 的大幅提高。
MATH-500 數據集上的表現更為突出,Qwen2.5-Math-7B 和 Qwen2.5-Math-1.5B 分别實現了 66.4% 和 142.4% 的驚人提升,LLaMA 模型的準确率也提高了 29.3%。
平均而言,TTRL 使 Qwen2.5-Math-7B 模型在三個數據集上的性能提高了 84.1%。
進一步的泛化性實驗表明,在一個數據集上應用 TTRL 後,性能的提高可以自然遷移到其他數據集,甚至是從未參與訓練的任務。
為了分析 TTRL 方法有效的原因,作者比較了 TTRL 訓練前後模型的多數投票性能。
結果,應用 TTRL 後,模型的多數投票準确率(Maj@64)顯著高于原始的 Qwen 模型,說明通過多數投票得到的偽标籤質量優于單個模型輸出。
并且強化學習具備糾錯能力。即使偽标籤并非完全準确,強化學習也可以通過獎懲機制引導模型朝着正确方向優化。
從 AIME 2024 上标籤準确率和獎勵準确率的變化曲線中可以看到,即使在标籤準确率較低的階段,獎勵準确率也能維持在 90% 以上。
作者簡介
這項研究的領導者是清華大學 C3I 課題組博士生張開顏和上海 AI 實驗室青年研究員崔淦渠。
張開顏的導師是上海人工智能實驗室主任、首席科學家周伯文教授;崔淦渠則畢業于清華 NLP 實驗室,讀博期間導師是劉知遠副教授。
本文共同一作是張開顏和同樣來自清華的 Yuxin Zuo,周伯文和 C3I 課題組博士後丁寧是本文的通訊作者。
論文地址:
https://arxiv.org/abs/2504.16084
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
點亮星标
科技前沿進展每日見