大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

开源Llama版o1来了,3B小模型反超80B,逆向工程复现OpenAI新Scaling Law

2024-12-17 简体 HK SG TW

今天小编分享的科学经验:开源Llama版o1来了,3B小模型反超80B,逆向工程复现OpenAI新Scaling Law,欢迎阅读。

o1 完整版公开仅 10 天,Scaling Law 新范式就被逆向工程复现了!

Hugging Face 官方发文,开源了扩展测试时计算的方法。

用在小小小模型 Llama 1B 上,数学分数直接超过 8 倍大的模型,也超过了计算机科学博士生的平均分数(40%)。

那么用在 Llama 3B 上呢?进步幅度更大,甚至能和 20 几倍大的 70B 模型媲美。

虽然 OpenAI o1 的配方完全保密,没有发布实现细节或代码,但团队基于 DeepMind 公布的研究结果,完成了自己的实验。

在 DeepMind 研究的基础上,Hugging Face 团队做出如下改进:

多样化验证器树搜索(Diverse Verifier Tree Search),一种简单而有效的方法,可以提高多样性和更高性能,特别是在算力预算充足的情况下。

开源轻量级工具包 Search and Learn,与推理框架 vLLM 配合,快速构建搜索策略

测试时计算扩展策略

目前扩展测试时计算主要有两种策略:自我优化和搜索。

在自我优化中,模型识别和纠正后续迭代中的错误来迭代优化自己的输出或 " 想法 "。

团队认为虽然此策略对某些任务有效,但通常要求模型具有内置的自我优化机制,这可能会限制其适用性。

搜索方法侧重于生成多个候选答案并使用验证器选择最佳答案。

搜索策略更灵活,可以适应问题的难度。Hugging Face 的研究主要聚焦于搜索方法,因为实用且可扩展。

其中验证器可以是任何东西,从硬编码到可学习的奖励模型,这里将重点介绍可学习的验证器。

具体来说,研究涉及三种搜索策略:

Best-of-N

为每个问题生成多个响应,并使用奖励模型为每个候选答案分配分数。选择分数最高的答案(或加权变体),这种方法强调答案质量而不是频率。

Beam search

一种探索解决方案空间的系统搜索方法,通常与过程奖励模型 (PRM) 相结合,以优化解决问题中中间步骤的采样和评估。与在最终答案上产生单个分数的传统奖励模型不同,PRM 提供一系列分数,推理过程的每个步骤分配一个分数。这种提供精细反馈的能力使 PRM 非常适合大模型。

多样化的验证器树搜索 ( DVTS )

新开发的 Beam search 变体,它将初始 Beam 拆分为独立的子树,然后使用 PRM 做贪婪扩展。这种方法可以提高解决方案的多样性和整体性能,尤其是在测试时算力预算较大的情况下。

实验設定:3 种搜索策略 PK

首先将数学问题提供给大模型,生成 N 个中间步骤。

每个步骤都由 PRM 评分,估计每个步骤最终能得出正确答案的概率。

给定的搜索策略使用这些步骤和 PRM 分数,来选择应该进一步探索哪些方向,生成下一轮中间步骤。

搜索策略终止后,PRM 将对最终候选解决方案进行排名,以生成最终答案。

为了比较各种搜索策略,研究中使用了以下开放模型和数据集:

语言模型,Llama-3.2-1B-Instruct作为主要实验对象,因为轻量级模型可以快速迭代,并且在数学基准测试中性能不饱和

流程奖励模型,使用了Llama3.1-8B-PRM-Deepseek-Data,与语言模型同属一个系列,且在测试中给出了更好的结果。

数据集,使用 MATH 基准测试的子集MATH-500,该子集由 OpenAI 发布,数学问题横跨 7 个科目,对人类和大多数模型来说都有挑战性。

实验结果:动态分配策略达到最优

首先,多数投票策略比贪婪解码基线有显著改进,收益在大约 N=64 后趋于稳定。

团队认为,之所以出现这种限制,是因为多数投票难以解决需要细致入微推理的问题,或者解决几个答案错到一块去的任务。

奖励模型加入后的策略,表现均有提高。

Best-of-N策略分为两种变体,原版(Vanilla)不考虑答案之间的一致性,加权版(Weighted)汇总所有结果相同的答案,并选择总分数最高的。

结果发现加权版始终优于原版,特别是在算力预算大的时候更明显,因为确保了频率较低但质量较高的答案也能获选。

Beam Search策略终于让 1B 模型表现开始高于 8B。

但 Beam Search 并不是万金油方法,在简单的问题上表现反而不如 Best-of-N。

团队通过查看结果树,发现如果一个中间步骤获得了高分,那么整个树就会坍塌到这一步,影响了后续答案的多样性。

最终,DVTS方法改进了答案的多样性,该方法与 Beam Search 相比有以下不同之处:

对于给定的 Beam 宽度(M)和生成数量 N,初始 Beam 集设定为 N/M 个独立子树

对于每个子树,选择 PRM 分数最高的步骤

生成 M 个新的下一步,继续选择分数最高的

重复这个过程,直到生成 EOS token 后终止,或达到最大深度

在对问题难度细分后,发现 DVTS 方法在 N 比较大时增强了对简单 / 中等难度问题的性能。

而 Beam Search 在 N 比较小时仍然表现最好。

最终基于问题难度动态分配策略的方法可以取得最佳成绩。

最后团队提出,未来这项技术还有更多值得探索的地方:

更强大的验证器,提高其稳健性和泛化能力至关重要。

最终目标是实现自我验证,目前在实践中仍然难以实现,需要更细致的策略。

在生成过程中加入明确的中间步骤或 " 想法 " ,通过将结构化推理整合到搜索过程中,可以在复杂任务中获得更好的性能。

搜索方法可以用于合成数据,创建高质量的训练数据集

开放的流程奖励模型目前数量较少,是开源社区可以做出重大贡献的领網域

目前的方法在数学和代码等领網域表现出色,这些问题本质上是可验证的,如何将这些技术扩展到结构性较差或评判标准主观的任务,仍是一个重大挑战。

评论区有网友表示,这种方法更适合本地部署,而不是 API 调用,因为调用 256 次 3B 模型和过程奖励模型,通常会比调用一次 70B 模型更贵。

也有人建议在 Qwen 系列模型上尝试,以及指路天工 Skywork 发布了两个基于 Qwen 的 PRM 模型

开源代码:

https://github.com/huggingface/search-and-learn

参考链接:

[ 1 ] https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute

[ 2 ] https://x.com/_lewtun/status/1868703456602865880

—  完  —

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們