DeepSeek前脚发新论文，奥特曼立马跟上：GPT-5就在几个月后啊 - 大酷樂

今天小编分享的科学经验：DeepSeek前脚发新论文，奥特曼立马跟上：GPT-5就在几个月后啊，欢迎阅读。

有点意思。

这不DeepSeek前脚刚刚上新了一篇关于推理时 Scaling Law 的论文嘛，引得大家纷纷联想是不是 R2 马上要来了。

然鹅……奥特曼这边却发了一条 " 变卦 " 的消息：

计划改变：我们可能在几周之后先发布 o3 和 o4-mini。

至于大家翘首以盼的GPT-5，奥特曼表示：

将在几个月之后，而且效果会比我们最初设想的还要好。

至于原因，奥特曼也做出了解释。

大概意思就是，顺利整合所有内容比他们想象的要困难得多，希望确保有足够的能力来支持预期的需求。

咱就是说啊，现在真的是 DeepSeek 这边一有点声响，OpenAI 那边就得有点动作来紧跟一下了。

DeepSeek 新论文

在这个小插曲之后呢，我们还是把目光聚焦在 DeepSeek 这篇新论文身上。

这篇论文的名字叫做Inference-Time Scaling for Generalist Reward Modeling，由 DeepSeek 和清华大学共同提出。

这篇研究核心的亮点，就是提出了一个叫做SPCT 方法（Self-Principled Critique Tuning）的方法——

首次提出通过在线强化学习（RL）优化原则和批判生成，实现推理时扩展。

之所以要做这么一项研究，是因为之前大家用奖励模型（Reward Model, RM）在 RL 中为大语言模型生成奖励信号。

但现有的 RM 在通用领網域却表现出受限的情况，尤其是在面对复杂、多样化任务的时候。

因此，就出现了两个关键挑战点。

一个是通用 RM 需要灵活性（支持单响应、多响应评分）和准确性（跨领網域高质量奖励）。

另一个则是现有 RM（如标量 RM、半标量 RM）在推理时扩展性差，无法通过增加计算资源显著提升性能。

为了解决这个问题，DeepSeek 和清华大学团队便提出了 SPCT。

整体来看，这项研究主要包含三大核心技术点。

首先就是生成式奖励模型（GRM）。

它采用点式生成奖励模型（Pointwise GRM），通过生成文本形式的奖励（如 critiques）而非单一标量值，支持灵活输入（单响应、多响应）和推理时扩展。

其中，C 是生成的 critique，fextract 从中提取分数。

接下来，是关键的SPCT了。

主要是通过在线强化学习（RL）训练 GRM，使其能动态生成高质量的原则（principles）和批判（critiques），从而提升奖励质量。

整体来看，SPCT 是一个两阶段的过程，它们分别是：

拒绝式微调（Rejective Fine-Tuning）

：冷启动阶段，通过采样和拒绝策略生成初始数据。

基于规则的在线 RL

：使用规则化奖励函数优化原则和批判的生成，鼓励模型区分最佳响应。

在此基础上，便是第三个技术点，即推理时扩展技术。

先是通过多次采样生成多样化的原则和批判，投票聚合最终奖励，扩展奖励空间。

再训练一个辅助模型过滤低质量采样，进一步提升扩展效果。

基于上述的方法，团队也对结果做了一波测试。

在 Reward Bench、PPE、RMB 等基准上，DeepSeek-GRM-27B 显著优于基线方法（如 LLM-as-a-Judge、标量 RM），且通过推理时扩展（32 次采样）性能进一步提升（如 Reward Bench 准确率从 86.0% 提升至 90.4%）。

总而言之，这篇研究证明了推理时扩展在通用 RM 中的有效性，性能超越训练时扩展。

One More Thing

奥特曼发布 " 变卦 " 消息之外，还不忘给自己带一波货，称有两本他亲自参与的书即将发布：

一本是 Keach Hagey 写的关于奥特曼本人的书

一本是 Ashlee Vance 写的关于 OpenAI 的书

论文地址：

https://arxiv.org/abs/2504.02495

参考链接：

[ 1 ] https://x.com/sama/status/1908167621624856998

[ 2 ] https://techcrunch.com/2025/04/04/openai-says-itll-release-o3-after-all-delays-gpt-5/

[ 3 ] https://x.com/sama/status/1908163013192069460

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

速抢席位！中国 AIGC 产业峰会观众报名通道已开启 ‍♀️

最新嘉宾曝光啦百度、华为、AWS、无问芯穹、数势科技、面壁智能、生数科技等十数位 AI 领網域创变者将齐聚峰会，让更多人用上 AI、用好 AI，与 AI 一同加速成长～

4 月 16 日，就在北京，一起来深度求索 AI 怎么用

一键星标

科技前沿进展每日见

熱門排行

王治郅：杨瀚森主要的问题是速度他的速度跟郟君昊 | 2025-05-05
贸易战烧进电影院：特朗普拟重税打击外国电影習又夏 | 2025-05-05
贷款追高炒黄金的人后悔了！有人一天亏掉6年寸飛蘭 | 2025-05-05
手机电池突破8000mAh？硅碳技术的回旋镖：「折衛青柏 | 2025-05-05
贷款追高炒黄金的人后悔了！有人一天亏掉6年繁綺文 | 2025-05-05
任天堂对Genki提起Switch 2商标侵权诉讼，后郜萌運 | 2025-05-05
哪吒汽车APP和官网恢复正常知情人士：之前断袁曼雁 | 2025-05-05
极越汽车 CEO 夏一平名下青岛/义乌两家公司集玲琳 | 2025-05-05
全国经济第一大省明确，推动组建农商联合银行佼昌翰 | 2025-05-05
桑保利：亚马尔有配合意识&有点像梅西姆巴佩甄正浩 | 2025-05-05
高露现身上海虹桥机场黑色外套点缀亮色爱惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：处理器更新为天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懒癌”发病率上升，定期体检别忽视幸聽楓 | 2023-05-02
宋慧乔获百想视后韩素希发图手动加爱心表賁芳蕤 | 2023-05-02
曹操墓，里面都有啥？衛青柏 | 2023-05-02
十年了，他们终于要HE！惠惠君 | 2023-05-07
中央部署经济工作，释放5大信号郜萌運 | 2023-05-02
高德上线手机弯道会车预警功能習又夏 | 2023-05-02
《云襄传》终于抬上来啦，男O女A让人好上头！集玲琳 | 2023-05-02
陈自瑶抱病为爱女做蛋糕庆生，王浩信点赞没露賁芳蕤 | 2023-05-02
等比例长大的童星，李兰迪算一个郟君昊 | 2023-05-02
21家A股游戏公司2022年收入651亿今年“游衛青柏 | 2023-05-04
普京签署总统令，批准对俄刑法典相关法条的修集玲琳 | 2023-05-02
这些被抓来做实验的流浪狗，最终拯救了无数糖集玲琳 | 2023-05-02
信用风险释放趋缓，结构性风险需重点关注 — 袁曼雁 | 2023-05-02
高端国产车：军车血统，目前电动车越野的“天花謝飛揚 | 2023-05-02
与周立波夫妇闹纠纷成老赖，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
解除资格！停止一切合作佼昌翰 | 2023-05-02
3699起联想小新mini主机上架 13代酷睿标压習又夏 | 2023-05-05
中银证券给予南京银行增持评级袁曼雁 | 2023-05-03
前董事长被免，天山生物全面进入“中植系”时惠惠君 | 2023-05-02
疯成这样，怎么还能被全网吹捧？郜萌運 | 2023-05-02
狂吼11次“让一下”！交警咆哮开道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收购美国第一共和银行謝飛揚 | 2023-05-02
台剧赢麻了，又来一部8.9 衛青柏 | 2023-05-02
事关农村土地承包和农民权益，《农村土地承包郟君昊 | 2023-05-02
下降45分，上涨35分！34所自划线院校复试分数线袁曼雁 | 2023-05-07
"三高"已盯上青少年，做好这件事是关键習又夏 | 2023-05-05
五一档没一个能打的集玲琳 | 2023-05-05
恐怖韩剧下神坛，这次胆小可入袁曼雁 | 2023-05-05
200户连夜疏散，原因让人愤怒！“损失超一亿”，袁曼雁 | 2023-05-03
这剧是不是用ChatGPT写的呀？惠惠君 | 2023-05-02
性骚扰惯犯，滚出娱乐圈謝飛揚 | 2023-05-05
48岁何炅自曝已老花眼，黄磊睡前认老，《向往的佼昌翰 | 2023-05-02
一个《长月烬明》倒了，《狐妖》《长相思》《惠惠君 | 2023-05-02
当年轻人开始不随份子钱袁曼雁 | 2023-05-02
张天爱假期晒“酷”存照卷发披肩穿黑色吊嬴覓晴 | 2023-05-02
毕滢用8年时间成功逼宫？曾被传已婚生子的她，幸聽楓 | 2023-05-03
宋慧乔获视后首次晒照，拿奖杯笑容温柔郜萌運 | 2023-05-02