大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

DeepSeek前腳發新論文,奧特曼立馬跟上:GPT-5就在幾個月後啊

2025-04-06 简体 HK SG TW

今天小編分享的科學經驗:DeepSeek前腳發新論文,奧特曼立馬跟上:GPT-5就在幾個月後啊,歡迎閱讀。

有點意思。

這不DeepSeek前腳剛剛上新了一篇關于推理時 Scaling Law 的論文嘛,引得大家紛紛聯想是不是 R2 馬上要來了。

然鵝……奧特曼這邊卻發了一條 " 變卦 " 的消息:

計劃改變:我們可能在幾周之後先發布 o3 和 o4-mini。

至于大家翹首以盼的GPT-5,奧特曼表示:

将在幾個月之後,而且效果會比我們最初設想的還要好。

至于原因,奧特曼也做出了解釋。

大概意思就是,順利整合所有内容比他們想象的要困難得多,希望确保有足夠的能力來支持預期的需求。

咱就是說啊,現在真的是 DeepSeek 這邊一有點聲響,OpenAI 那邊就得有點動作來緊跟一下了。

DeepSeek 新論文

在這個小插曲之後呢,我們還是把目光聚焦在 DeepSeek 這篇新論文身上。

這篇論文的名字叫做Inference-Time Scaling for Generalist Reward Modeling,由 DeepSeek 和清華大學共同提出。

這篇研究核心的亮點,就是提出了一個叫做SPCT 方法(Self-Principled Critique Tuning)的方法——

首次提出通過在線強化學習(RL)優化原則和批判生成,實現推理時擴展。

之所以要做這麼一項研究,是因為之前大家用獎勵模型(Reward Model, RM)在 RL 中為大語言模型生成獎勵信号。

但現有的 RM 在通用領網域卻表現出受限的情況,尤其是在面對復雜、多樣化任務的時候。

因此,就出現了兩個關鍵挑戰點。

一個是通用 RM 需要靈活性(支持單響應、多響應評分)和準确性(跨領網域高質量獎勵)。

另一個則是現有 RM(如标量 RM、半标量 RM)在推理時擴展性差,無法通過增加計算資源顯著提升性能。

為了解決這個問題,DeepSeek 和清華大學團隊便提出了 SPCT。

整體來看,這項研究主要包含三大核心技術點。

首先就是生成式獎勵模型(GRM)。

它采用點式生成獎勵模型(Pointwise GRM),通過生成文本形式的獎勵(如 critiques)而非單一标量值,支持靈活輸入(單響應、多響應)和推理時擴展。

其中,C 是生成的 critique,fextract 從中提取分數。

接下來,是關鍵的SPCT了。

主要是通過在線強化學習(RL)訓練 GRM,使其能動态生成高質量的原則(principles)和批判(critiques),從而提升獎勵質量。

整體來看,SPCT 是一個兩階段的過程,它們分别是:

拒絕式微調(Rejective Fine-Tuning)

:冷啟動階段,通過采樣和拒絕策略生成初始數據。

基于規則的在線 RL

:使用規則化獎勵函數優化原則和批判的生成,鼓勵模型區分最佳響應。

在此基礎上,便是第三個技術點,即推理時擴展技術。

先是通過多次采樣生成多樣化的原則和批判,投票聚合最終獎勵,擴展獎勵空間。

再訓練一個輔助模型過濾低質量采樣,進一步提升擴展效果。

基于上述的方法,團隊也對結果做了一波測試。

在 Reward Bench、PPE、RMB 等基準上,DeepSeek-GRM-27B 顯著優于基線方法(如 LLM-as-a-Judge、标量 RM),且通過推理時擴展(32 次采樣)性能進一步提升(如 Reward Bench 準确率從 86.0% 提升至 90.4%)。

總而言之,這篇研究證明了推理時擴展在通用 RM 中的有效性,性能超越訓練時擴展。

One More Thing

奧特曼發布 " 變卦 " 消息之外,還不忘給自己帶一波貨,稱有兩本他親自參與的書即将發布:

一本是 Keach Hagey 寫的關于奧特曼本人的書

一本是 Ashlee Vance 寫的關于 OpenAI 的書

論文地址:

https://arxiv.org/abs/2504.02495

參考鏈接:

[ 1 ] https://x.com/sama/status/1908167621624856998

[ 2 ] https://techcrunch.com/2025/04/04/openai-says-itll-release-o3-after-all-delays-gpt-5/

[ 3 ] https://x.com/sama/status/1908163013192069460

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

—  完  —

速搶席位!中國 AIGC 產業峰會觀眾報名通道已開啟  ‍♀️

最新嘉賓曝光啦    百度、華為、AWS、無問芯穹、數勢科技、面壁智能、生數科技等十數位 AI 領網域創變者将齊聚峰會,讓更多人用上 AI、用好 AI,與 AI 一同加速成長~

4 月 16 日,就在北京,一起來深度求索 AI 怎麼用  

一鍵星标

科技前沿進展每日見

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們