今天小編分享的科學經驗:DeepSeek前腳發新論文,奧特曼立馬跟上:GPT-5就在幾個月後啊,歡迎閱讀。
有點意思。
這不DeepSeek前腳剛剛上新了一篇關于推理時 Scaling Law 的論文嘛,引得大家紛紛聯想是不是 R2 馬上要來了。
然鵝……奧特曼這邊卻發了一條 " 變卦 " 的消息:
計劃改變:我們可能在幾周之後先發布 o3 和 o4-mini。
至于大家翹首以盼的GPT-5,奧特曼表示:
将在幾個月之後,而且效果會比我們最初設想的還要好。
至于原因,奧特曼也做出了解釋。
大概意思就是,順利整合所有内容比他們想象的要困難得多,希望确保有足夠的能力來支持預期的需求。
咱就是說啊,現在真的是 DeepSeek 這邊一有點聲響,OpenAI 那邊就得有點動作來緊跟一下了。
DeepSeek 新論文
在這個小插曲之後呢,我們還是把目光聚焦在 DeepSeek 這篇新論文身上。
這篇論文的名字叫做Inference-Time Scaling for Generalist Reward Modeling,由 DeepSeek 和清華大學共同提出。
這篇研究核心的亮點,就是提出了一個叫做SPCT 方法(Self-Principled Critique Tuning)的方法——
首次提出通過在線強化學習(RL)優化原則和批判生成,實現推理時擴展。
之所以要做這麼一項研究,是因為之前大家用獎勵模型(Reward Model, RM)在 RL 中為大語言模型生成獎勵信号。
但現有的 RM 在通用領網域卻表現出受限的情況,尤其是在面對復雜、多樣化任務的時候。
因此,就出現了兩個關鍵挑戰點。
一個是通用 RM 需要靈活性(支持單響應、多響應評分)和準确性(跨領網域高質量獎勵)。
另一個則是現有 RM(如标量 RM、半标量 RM)在推理時擴展性差,無法通過增加計算資源顯著提升性能。
為了解決這個問題,DeepSeek 和清華大學團隊便提出了 SPCT。
整體來看,這項研究主要包含三大核心技術點。
首先就是生成式獎勵模型(GRM)。
它采用點式生成獎勵模型(Pointwise GRM),通過生成文本形式的獎勵(如 critiques)而非單一标量值,支持靈活輸入(單響應、多響應)和推理時擴展。
其中,C 是生成的 critique,fextract 從中提取分數。
接下來,是關鍵的SPCT了。
主要是通過在線強化學習(RL)訓練 GRM,使其能動态生成高質量的原則(principles)和批判(critiques),從而提升獎勵質量。
整體來看,SPCT 是一個兩階段的過程,它們分别是:
拒絕式微調(Rejective Fine-Tuning)
:冷啟動階段,通過采樣和拒絕策略生成初始數據。
基于規則的在線 RL
:使用規則化獎勵函數優化原則和批判的生成,鼓勵模型區分最佳響應。
在此基礎上,便是第三個技術點,即推理時擴展技術。
先是通過多次采樣生成多樣化的原則和批判,投票聚合最終獎勵,擴展獎勵空間。
再訓練一個輔助模型過濾低質量采樣,進一步提升擴展效果。
基于上述的方法,團隊也對結果做了一波測試。
在 Reward Bench、PPE、RMB 等基準上,DeepSeek-GRM-27B 顯著優于基線方法(如 LLM-as-a-Judge、标量 RM),且通過推理時擴展(32 次采樣)性能進一步提升(如 Reward Bench 準确率從 86.0% 提升至 90.4%)。
總而言之,這篇研究證明了推理時擴展在通用 RM 中的有效性,性能超越訓練時擴展。
One More Thing
奧特曼發布 " 變卦 " 消息之外,還不忘給自己帶一波貨,稱有兩本他親自參與的書即将發布:
一本是 Keach Hagey 寫的關于奧特曼本人的書
一本是 Ashlee Vance 寫的關于 OpenAI 的書
論文地址:
https://arxiv.org/abs/2504.02495
參考鏈接:
[ 1 ] https://x.com/sama/status/1908167621624856998
[ 2 ] https://techcrunch.com/2025/04/04/openai-says-itll-release-o3-after-all-delays-gpt-5/
[ 3 ] https://x.com/sama/status/1908163013192069460
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
速搶席位!中國 AIGC 產業峰會觀眾報名通道已開啟 ♀️
最新嘉賓曝光啦 百度、華為、AWS、無問芯穹、數勢科技、面壁智能、生數科技等十數位 AI 領網域創變者将齊聚峰會,讓更多人用上 AI、用好 AI,與 AI 一同加速成長~
4 月 16 日,就在北京,一起來深度求索 AI 怎麼用
一鍵星标
科技前沿進展每日見