今天小编分享的科学经验:DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊,欢迎阅读。
有点意思。
这不DeepSeek前脚刚刚上新了一篇关于推理时 Scaling Law 的论文嘛,引得大家纷纷联想是不是 R2 马上要来了。
然鹅……奥特曼这边却发了一条 " 变卦 " 的消息:
计划改变:我们可能在几周之后先发布 o3 和 o4-mini。
至于大家翘首以盼的GPT-5,奥特曼表示:
将在几个月之后,而且效果会比我们最初设想的还要好。
至于原因,奥特曼也做出了解释。
大概意思就是,顺利整合所有内容比他们想象的要困难得多,希望确保有足够的能力来支持预期的需求。
咱就是说啊,现在真的是 DeepSeek 这边一有点声响,OpenAI 那边就得有点动作来紧跟一下了。
DeepSeek 新论文
在这个小插曲之后呢,我们还是把目光聚焦在 DeepSeek 这篇新论文身上。
这篇论文的名字叫做Inference-Time Scaling for Generalist Reward Modeling,由 DeepSeek 和清华大学共同提出。
这篇研究核心的亮点,就是提出了一个叫做SPCT 方法(Self-Principled Critique Tuning)的方法——
首次提出通过在线强化学习(RL)优化原则和批判生成,实现推理时扩展。
之所以要做这么一项研究,是因为之前大家用奖励模型(Reward Model, RM)在 RL 中为大语言模型生成奖励信号。
但现有的 RM 在通用领網域却表现出受限的情况,尤其是在面对复杂、多样化任务的时候。
因此,就出现了两个关键挑战点。
一个是通用 RM 需要灵活性(支持单响应、多响应评分)和准确性(跨领網域高质量奖励)。
另一个则是现有 RM(如标量 RM、半标量 RM)在推理时扩展性差,无法通过增加计算资源显著提升性能。
为了解决这个问题,DeepSeek 和清华大学团队便提出了 SPCT。
整体来看,这项研究主要包含三大核心技术点。
首先就是生成式奖励模型(GRM)。
它采用点式生成奖励模型(Pointwise GRM),通过生成文本形式的奖励(如 critiques)而非单一标量值,支持灵活输入(单响应、多响应)和推理时扩展。
其中,C 是生成的 critique,fextract 从中提取分数。
接下来,是关键的SPCT了。
主要是通过在线强化学习(RL)训练 GRM,使其能动态生成高质量的原则(principles)和批判(critiques),从而提升奖励质量。
整体来看,SPCT 是一个两阶段的过程,它们分别是:
拒绝式微调(Rejective Fine-Tuning)
:冷启动阶段,通过采样和拒绝策略生成初始数据。
基于规则的在线 RL
:使用规则化奖励函数优化原则和批判的生成,鼓励模型区分最佳响应。
在此基础上,便是第三个技术点,即推理时扩展技术。
先是通过多次采样生成多样化的原则和批判,投票聚合最终奖励,扩展奖励空间。
再训练一个辅助模型过滤低质量采样,进一步提升扩展效果。
基于上述的方法,团队也对结果做了一波测试。
在 Reward Bench、PPE、RMB 等基准上,DeepSeek-GRM-27B 显著优于基线方法(如 LLM-as-a-Judge、标量 RM),且通过推理时扩展(32 次采样)性能进一步提升(如 Reward Bench 准确率从 86.0% 提升至 90.4%)。
总而言之,这篇研究证明了推理时扩展在通用 RM 中的有效性,性能超越训练时扩展。
One More Thing
奥特曼发布 " 变卦 " 消息之外,还不忘给自己带一波货,称有两本他亲自参与的书即将发布:
一本是 Keach Hagey 写的关于奥特曼本人的书
一本是 Ashlee Vance 写的关于 OpenAI 的书
论文地址:
https://arxiv.org/abs/2504.02495
参考链接:
[ 1 ] https://x.com/sama/status/1908167621624856998
[ 2 ] https://techcrunch.com/2025/04/04/openai-says-itll-release-o3-after-all-delays-gpt-5/
[ 3 ] https://x.com/sama/status/1908163013192069460
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
速抢席位!中国 AIGC 产业峰会观众报名通道已开启 ♀️
最新嘉宾曝光啦 百度、华为、AWS、无问芯穹、数势科技、面壁智能、生数科技等十数位 AI 领網域创变者将齐聚峰会,让更多人用上 AI、用好 AI,与 AI 一同加速成长~
4 月 16 日,就在北京,一起来深度求索 AI 怎么用
一键星标
科技前沿进展每日见