大模型RL不止數學代碼！7B獎勵模型搞定醫學法律經濟全學科，不用思維鏈也能做題 - 大酷樂

今天小編分享的科學經驗：大模型RL不止數學代碼！7B獎勵模型搞定醫學法律經濟全學科，不用思維鏈也能做題，歡迎閲讀。

一個 7B 獎勵模型搞定全學科，大模型強化學習不止數學和代碼。

o1/r1 的強化學習很強，但主要探索了數學和代碼領網域，因為這兩個領網域的數據結構化程度高，獎勵函數 / 獎勵模型比較好設計。

那麼，想提升大模型在其他學科領網域的能力該怎麼辦？

騰訊 & 蘇州大學團隊提出新框架 RLVR，将強化學習訓練擴展到醫學、化學、法律、心理學、經濟學等多學科。

RLVR 使用基于生成模型的軟獎勵，與傳統基于二元規則的獎勵相比，在泛化、穩健性和可擴展性方面有顯著的提升。

除論文外，還開源了獎勵模型和多學科數據集。

7B 獎勵模型搞定全學科

研究基于一個有趣的發現：當任務有客觀參考答案時，不同大型語言模型在做二元判斷 ( 正确 / 錯誤 ) 時表現出高度一致性。

這或許意味着，并不需要在每個領網域都訓練一個大規模的獎勵模型。相反，直接用現成的大語言模型來充當驗證器就能有效。

像這樣的二元獎勵雖然簡單直接，但在參考答案缺乏結構化的領網域又不直接适用。

于是研究團隊進一步引入基于模型的軟獎勵（model-basedsoft scroing），相比直接給出 0 或 1 的二元硬标籤，軟獎勵根據生成式驗證器判斷的置信度打分，有了更高的靈活性。

受啓發于 " 大模型判斷高度一致 " 的發現，團隊用 72B 參數的 Qwen2.5-Instruct 蒸餾出一個 7B 的獎勵模型。蒸餾過程不需要領網域特定的标注，完全依靠在線探索階段采集的數據進行訓練。

整個過程分為 3 步流水線：

實驗數據從 ExamQA 中随機采樣了 6000 個問題，廣泛分布于理工人文各學科。

實驗對比基礎模型（Base）、微調基礎模型（SFT）、基于規則的 RL、使用 SFT 模型作為驗證器，以及本文蒸餾的 RM-7B 模型作為驗證器的多種方法，有以下結論：

RM-7B 在自由形式答案任務中表現出色

基于模型的獎勵在處理非結構化參考答案場景中優于基于規則的獎勵

軟獎勵在處理多學科任務中，面對復雜判斷時比二元獎勵表現更好

此外實驗還驗證了基于模型的獎勵在數據量增加時可擴展性更好。

在讨論部分，作者指出本研究中未使用思維鏈推理（CoT），雖然 CoT 在有參考和無參考的場景中都有用，但對于評估同語言的參考答案和模型響應之間的語義等價性，深入的推理依據是否必要仍有待研究。此外，在 RLVR 的過程獎勵建模中，當中間步驟缺乏直接監督時，如何分配獎勵也是一個開放問題。

本研究也不對參考答案或模型響應設定格式約束，這樣做好處是減少了數據标準化和模式設計的人力投入，但格式相關約束和獎勵在這種情況下的作用仍需重新審視。

One More Thing

論文作者騰訊塗兆鵬發帖介紹了這篇文章，探讨強化學習是否可以擴展到數學和編碼任務之外。

評論區有網友指出很有可能成立，因為不同的訓練方法可以看成有不同邊界條件的學習空間。

塗兆鵬也認為這個視角與 RLVR 方法的觀點一致。

論文地址：

https://arxiv.org/abs/2503.23829

HuggingFace：

https://huggingface.co/collections/virtuoussy/rlvr-67ea349b086e3511f86d1c1f

參考鏈接：

[ 1 ] https://x.com/tuzhaopeng/status/1906975869538914570

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

速搶席位！中國 AIGC 產業峰會觀眾報名通道已開啓 ‍♀️

首批嘉賓曝光啦百度、無問芯穹、數勢科技、生數科技、像素綻放等十數位 AI 領網域創變者将齊聚峰會，讓更多人用上 AI、用好 AI，與 AI 一同加速成長～

4 月 16 日，就在北京，一起來深度求索 AI 怎麼用

一鍵星标

科技前沿進展每日見

熱門排行

王治郅：楊瀚森主要的問題是速度他的速度跟郟君昊 | 2025-05-05
貿易戰燒進電影院：特朗普拟重税打擊外國電影習又夏 | 2025-05-05
貸款追高炒黃金的人後悔了！有人一天虧掉6年寸飛蘭 | 2025-05-05
手機電池突破8000mAh？硅碳技術的回旋镖：「折衛青柏 | 2025-05-05
貸款追高炒黃金的人後悔了！有人一天虧掉6年繁綺文 | 2025-05-05
任天堂對Genki提起Switch 2商标侵權訴訟，後郜萌運 | 2025-05-05
哪吒汽車APP和官網恢復正常知情人士：之前斷袁曼雁 | 2025-05-05
極越汽車 CEO 夏一平名下青島/義烏兩家公司集玲琳 | 2025-05-05
全國經濟第一大省明确，推動組建農商聯合銀行佼昌翰 | 2025-05-05
桑保利：亞馬爾有配合意識&有點像梅西姆巴佩甄正浩 | 2025-05-05
高露現身上海虹橋機場黑色外套點綴亮色愛惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：處理器更新為天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懶癌”發病率上升，定期體檢别忽視幸聽楓 | 2023-05-02
宋慧喬獲百想視後韓素希發圖手動加愛心表賁芳蕤 | 2023-05-02
曹操墓，裏面都有啥？衛青柏 | 2023-05-02
十年了，他們終于要HE！惠惠君 | 2023-05-07
中央部署經濟工作，釋放5大信号郜萌運 | 2023-05-02
高德上線手機彎道會車預警功能習又夏 | 2023-05-02
《雲襄傳》終于抬上來啦，男O女A讓人好上頭！集玲琳 | 2023-05-02
陳自瑤抱病為愛女做蛋糕慶生，王浩信點贊沒露賁芳蕤 | 2023-05-02
等比例長大的童星，李蘭迪算一個郟君昊 | 2023-05-02
21家A股遊戲公司2022年收入651億今年“遊衛青柏 | 2023-05-04
普京籤署總統令，批準對俄刑法典相關法條的修集玲琳 | 2023-05-02
這些被抓來做實驗的流浪狗，最終拯救了無數糖集玲琳 | 2023-05-02
信用風險釋放趨緩，結構性風險需重點關注 — 袁曼雁 | 2023-05-02
高端國產車：軍車血統，目前電動車越野的“天花謝飛揚 | 2023-05-02
與周立波夫婦鬧糾紛成老賴，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
解除資格！停止一切合作佼昌翰 | 2023-05-02
3699起聯想小新mini主機上架 13代酷睿标壓習又夏 | 2023-05-05
中銀證券給予南京銀行增持評級袁曼雁 | 2023-05-03
前董事長被免，天山生物全面進入“中植系”時惠惠君 | 2023-05-02
瘋成這樣，怎麼還能被全網吹捧？郜萌運 | 2023-05-02
狂吼11次“讓一下”！交警咆哮開道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收購美國第一共和銀行謝飛揚 | 2023-05-02
台劇赢麻了，又來一部8.9 衛青柏 | 2023-05-02
事關農村土地承包和農民權益，《農村土地承包郟君昊 | 2023-05-02
下降45分，上漲35分！34所自劃線院校復試分數線袁曼雁 | 2023-05-07
"三高"已盯上青少年，做好這件事是關鍵習又夏 | 2023-05-05
五一檔沒一個能打的集玲琳 | 2023-05-05
恐怖韓劇下神壇，這次膽小可入袁曼雁 | 2023-05-05
200户連夜疏散，原因讓人憤怒！“損失超一億”，袁曼雁 | 2023-05-03
這劇是不是用ChatGPT寫的呀？惠惠君 | 2023-05-02
性騷擾慣犯，滾出娛樂圈謝飛揚 | 2023-05-05
48歲何炅自曝已老花眼，黃磊睡前認老，《向往的佼昌翰 | 2023-05-02
一個《長月燼明》倒了，《狐妖》《長相思》《惠惠君 | 2023-05-02
當年輕人開始不随份子錢袁曼雁 | 2023-05-02
張天愛假期曬“酷”存照卷發披肩穿黑色吊嬴覓晴 | 2023-05-02
畢滢用8年時間成功逼宮？曾被傳已婚生子的她，幸聽楓 | 2023-05-03
宋慧喬獲視後首次曬照，拿獎杯笑容温柔郜萌運 | 2023-05-02