今天小編分享的科學經驗:大模型RL不止數學代碼!7B獎勵模型搞定醫學法律經濟全學科, 不用思維鏈也能做題,歡迎閲讀。
一個 7B 獎勵模型搞定全學科,大模型強化學習不止數學和代碼。
o1/r1 的強化學習很強,但主要探索了數學和代碼領網域,因為這兩個領網域的數據結構化程度高,獎勵函數 / 獎勵模型比較好設計。
那麼,想提升大模型在其他學科領網域的能力該怎麼辦?
騰訊 & 蘇州大學團隊提出新框架 RLVR,将強化學習訓練擴展到醫學、化學、法律、心理學、經濟學等多學科。
RLVR 使用基于生成模型的軟獎勵,與傳統基于二元規則的獎勵相比,在泛化、穩健性和可擴展性方面有顯著的提升。
除論文外,還開源了獎勵模型和多學科數據集。
7B 獎勵模型搞定全學科
研究基于一個有趣的發現:當任務有客觀參考答案時,不同大型語言模型在做二元判斷 ( 正确 / 錯誤 ) 時表現出高度一致性。
這或許意味着,并不需要在每個領網域都訓練一個大規模的獎勵模型。相反,直接用現成的大語言模型來充當驗證器就能有效。
像這樣的二元獎勵雖然簡單直接,但在參考答案缺乏結構化的領網域又不直接适用。
于是研究團隊進一步引入基于模型的軟獎勵(model-basedsoft scroing),相比直接給出 0 或 1 的二元硬标籤,軟獎勵根據生成式驗證器判斷的置信度打分,有了更高的靈活性。
受啓發于 " 大模型判斷高度一致 " 的發現,團隊用 72B 參數的 Qwen2.5-Instruct 蒸餾出一個 7B 的獎勵模型。蒸餾過程不需要領網域特定的标注,完全依靠在線探索階段采集的數據進行訓練。
整個過程分為 3 步流水線:
實驗數據從 ExamQA 中随機采樣了 6000 個問題,廣泛分布于理工人文各學科。
實驗對比基礎模型(Base)、微調基礎模型(SFT)、基于規則的 RL、使用 SFT 模型作為驗證器,以及本文蒸餾的 RM-7B 模型作為驗證器的多種方法,有以下結論:
RM-7B 在自由形式答案任務中表現出色
基于模型的獎勵在處理非結構化參考答案場景中優于基于規則的獎勵
軟獎勵在處理多學科任務中,面對復雜判斷時比二元獎勵表現更好
此外實驗還驗證了基于模型的獎勵在數據量增加時可擴展性更好。
在讨論部分,作者指出本研究中未使用思維鏈推理(CoT),雖然 CoT 在有參考和無參考的場景中都有用,但對于評估同語言的參考答案和模型響應之間的語義等價性,深入的推理依據是否必要仍有待研究。此外,在 RLVR 的過程獎勵建模中,當中間步驟缺乏直接監督時,如何分配獎勵也是一個開放問題。
本研究也不對參考答案或模型響應設定格式約束,這樣做好處是減少了數據标準化和模式設計的人力投入,但格式相關約束和獎勵在這種情況下的作用仍需重新審視。
One More Thing
論文作者騰訊塗兆鵬發帖介紹了這篇文章,探讨強化學習是否可以擴展到數學和編碼任務之外。
評論區有網友指出很有可能成立,因為不同的訓練方法可以看成有不同邊界條件的學習空間。
塗兆鵬也認為這個視角與 RLVR 方法的觀點一致。
論文地址:
https://arxiv.org/abs/2503.23829
HuggingFace:
https://huggingface.co/collections/virtuoussy/rlvr-67ea349b086e3511f86d1c1f
參考鏈接:
[ 1 ] https://x.com/tuzhaopeng/status/1906975869538914570
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
速搶席位!中國 AIGC 產業峰會觀眾報名通道已開啓 ♀️
首批嘉賓曝光啦 百度、無問芯穹、數勢科技、生數科技、像素綻放等十數位 AI 領網域創變者将齊聚峰會,讓更多人用上 AI、用好 AI,與 AI 一同加速成長~
4 月 16 日,就在北京,一起來深度求索 AI 怎麼用
一鍵星标
科技前沿進展每日見