大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

o3并非独门秘技,谷歌已发背后关键机制,方法更简单、成本更低

2024-12-23 简体 HK SG TW

今天小编分享的科学经验:o3并非独门秘技,谷歌已发背后关键机制,方法更简单、成本更低,欢迎阅读。

o1/o3 带火的推理计算 Scaling,原来谷歌早在今年 8 月就曾探讨过。

当时,来自斯坦福、牛津以及谷歌 DeepMind 的团队提出通过重复采样来扩展推理计算量——

结果在编码任务中将性能最多提高 40%。

他们发现小模型通过生成多种答案 / 样本,其任务表现可能比一些大型模型单次尝试还要好。

比如,DeepSeek-Coder 通过重复采集 5 个样本,性能优于 GPT-4o,而成本却仅为后者的三分之一。

这篇论文讲了什么?

这篇论文取名 Monkey,灵感来自于无限猴子定理。

一只猴子在打字机键盘上随机敲击键盘无限长的时间,几乎肯定会打出任何给定的文本。

而在大模型的语境下,只要采的样够多,那么大模型总能找到正确解。

本文遵循的重复采样程式,首先通过大模型中采样,为给定的问题生成许多候选解。

其次再选择特定领網域的验证器 Verifier(比如代码的 unittests),从生成的样本中选择最终答案。

重复采样的有效性取决于两个关键特性。

覆盖率,随着样本数量的增加,我们可以利用生成的任何样本解决多少问题。

精确度,在从生成的样本集合中选择最终答案的情况下,我们能否识别出正确的样本?

他们关注的是 yes or no 的任务,在这些任务中,答案可以直接被打分为对或者错,主要指标是成功率——即能够解决问题的比例。

通过重复采样,考虑这样一种設定,即模型在尝试解决问题时可以生成许多候选解。

因此,成功率既受到为许多问题生成正确样本的能力(即覆盖率)的影响,也受到识别这些正确样本的能力(即精确度)的影响。

基于此,确定了五种数学和编程任务:GSM8K、MATH、MiniF2F-MATH、CodeContests、SWE-benchLite。

结果显示,在多个任务和模型中,覆盖率随样本数量增加而提升,在某些情况下,重复采样可使较弱模型超越单样本性能更好的强模型,且成本效益更高

比如在使用 Gemma-2B 解决 CodeContests 编程问题时。随着样本数量的增加,覆盖率提高了 300 倍以上,从一次尝试的 0.02% 提高到 10000 次尝试的 7.1%。解决来自 GSM8K 和 MATH 的数学单词问题时,Llama-3 模型的覆盖率在 10,000 个样本的情况下增长到 95% 以上。

有趣的是,log(覆盖率)与样本数之间的关系往往遵循近似的幂律。

在 Llama-3 和 Gemma 模型中,可以观察到覆盖率与样本数呈近似对数线性增长,超过几个数量级。

在不同参数量、不同模型以及后训练水平(基础模型和微调模型)下,都显示通过重复采样 Scaling 推理时间计算,覆盖率都有一致的提升。

此外,他们还证明了这种 Scaling 还能降本增效,以 FLOPs 作为成本指标,以 LIama-3 为例。

计算公式如下:

比较 Llama-3-8B-Instruct 和 Llama3-70B-Instruct 的成本(以推理 FLOPs 数量衡量)和覆盖率。当 FLOPs 预算固定时,在 MiniF2F、GSM8K 和 MATH 上,Llama-3-8B-Instruct 的覆盖率总是高于更大(更贵)的 70B 模型。然而,在 CodeContests 中,70B 模型几乎总是更具成本效益。

对比 API 成本,当采样较多时,开源 DeepSeek-Coder-V2-Instruct 模型可以达到与闭源模型 GPT-4o 相同的问题解决率,而价格仅为后者的三分之一。

有趣的是,他们发现对于大多数任务和模型,覆盖率与样本数之间的关系可以用指数幂律来模拟。

因此总结,这篇文章以重复采样为轴心,在推理时扩展计算量,从而提高模型性能。

在一系列模型和任务中,重复采样可以显著提高使用任何生成样本解决问题的比例(即覆盖率)。当可以识别出正确的解决方案时(通过自动验证工具或其他验证算法),重复采样可以在推理过程中放大模型的能力。

与使用较强、较昂贵的模型进行较少的尝试相比,这种放大作用可使较弱的模型与大量样本的组合更具性能和成本效益。

来自斯坦福牛津谷歌

这篇论文是来自斯坦福、牛津大学以及谷歌 DeepMind 团队。TogetherAI 提供计算支持。

其中可以看到有谷歌杰出科学家 Quoc V. Le。

有网友表示,这有点像更简单的静态版 o3。

o3 在评价器的指导下,通过回溯动态搜索程式空间,而这种方法则依赖于静态采样和事后评价(投票、奖励模型等)。两者都能扩展推理计算,但 O3 的适应性更强。

o3 会反复探索解决方案,不断完善路径,而重复采样会并行生成输出,没有反馈回路。如何取舍?o3 的计算密集度更高,但在需要结构化推理的任务中表现出色。这种方法在编码 / 数学方面更具成本效益。

不过也有网友指出了背后的局限性。

我们不能一味地增加采样数量来提高性能。在某些时候,模型会出现停滞,生成的样本也会开始重复。

无论成本如何,都有一个极限,一个模型无法超越的最大思维水平。

参考链接:

[ 1 ] https://arxiv.org/abs/2407.21787

[ 2 ] https://x.com/_philschmid/status/1870396154241843312

[ 3 ] https://x.com/rohanpaul_ai/status/1834446350810849510

—  完  —

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們