今天小编分享的科学经验:7B的DeepSeek蒸馏Qwen数学超o1!在测试时间强化学习,MIT积分题大赛考93分,欢迎阅读。
见识过 32B 的 QwQ 追平 671 的 DeepSeek R1 后——
刚刚,7B 的 DeepSeek 蒸馏 Qwen 模型超越 o1 又是怎么一回事?
新方法 LADDER,通过递归问题分解实现 AI 模型的自我改进,同时不需要人工标注数据。
使 Deepseek-R1 蒸馏的 Qwen2.5 7B 模型在麻省理工学院积分大赛(MIT Integration Bee)上达到 90 分超越 o1。
注意,不是积分制的比赛哦,是只做微积分中积分题的比赛,MIT 的数学高手每年都会挑战一次,题目像这样:
LADDER 论文来自小型独立研究团体Tufa Labs,论文已上传到 arXiv。
LADDER,全称 Learning through Autonomous Difficulty-Driven Example Recursion,即 " 通过自主难度驱动的样本递归进行学习 "。
这个名字听起来有点拗口,但核心其实很容易理解:就是让语言模型(LLM)通过自我生成和求解渐进简化的问题变体,来不断提升自己解决复杂问题的能力。
具体来说,LADDER 是一个结构化框架,由以下组件组成:
变体生成:一种结构化方法,用于生成复杂问题的逐渐简化变体的树,从而建立自然的难度梯度。
解的验证:一种用于验证积分解的数值积分方法。
强化学习:用于在变体树上训练基础模型的協定。
而 LADDER 这个名字,也意味着像是模型学会了 " 爬梯子 ":通过自主生成一系列从易到难的问题变体,不断练习和强化,最终爬到顶端。
以往的训练方法,总是离不开大规模标注数据。
LADDER 利用模型现有能力来生成问题变体,形成循序渐进的难度梯度,最终实现自举学习。整个过程只需对答案进行验证即可,无需人工干预。
相比之前的方法,LADDER 有三大优势:
不再依赖人工标注数据,降低了数据获取成本;模型通过生成问题变体构建针对性的学习路径,学习更高效;生成的问题变体与原始问题相关性高,避免陷入无关细节。
此外,作者还提出了一种创新的测试时强化学习方法 TTRL。在推理阶段遇到复杂的数学积分测试问题时,TTRL 会动态生成一系列更简单的积分变体,模型通过解决这些变体来积累经验,找到解决原始难题的方法。
这种测试时计算扩展的思路,为进一步提升模型性能开辟了新的道路。不同于简单增加输出长度,TTRL 能够让模型在推理时针对性地 " 刷题 ",动态扩展能力边界。
通过 LADDER,一个原本只有 1% 准确率的 Llama 3.2 3B 模型,在没有任何人工标注数据的情况下,解题准确率飙升至 82%。
更强大的基础模型 Qwen2.5 7B Deepseek-R1 Distilled,在用上 LADDER 方法后,
MIT Integration Bee 比赛的成绩就从 50% 提高到 73%。
最后,LADDER 加上 TTRL 方法,让最终成绩达到 90。
不过作者也强调,与 o1 的对比不是严格的头对头评估。
o1 无法访问数字检查器,这意味着它在不同的约束下运行。LADDER 的结果强调了通过递归问题分解和强化学习进行自我提升的有效性,而不是表明它直接优于 o1 的方法。
论文地址:https://arxiv.org/abs/2503.00735
参考链接:
[ 1 ] https://x.com/yoshiyama_akira/status/1897662722679959583