大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

DeepSeek团队新作:把代码变成思维链,大模型推理各种能力全面提升

2025-02-18 简体 HK SG TW

今天小编分享的科学经验:DeepSeek团队新作:把代码变成思维链,大模型推理各种能力全面提升,欢迎阅读。

用代码训练大模型思考,其他方面的推理能力也能提升。

DeepSeek 团队最新研究,利用 300 多万个实例,将代码转换成思考过程,构建出数据集CODEI/O,对 Qwen、Llama 等模型进行了训练。

结果,在各种类型的推理任务当中,模型性能都取得了全面提升,包括在非代码类的推理任务上,也展现出了良好的迁移能力。

研究团队认为,在代码当中暗含了不同类型场景的思考过程,于是想要把这种思考过程 " 提取 " 出来训练推理模型。

他们生成了大量的训练数据运行这些代码,然后把代码、输入 / 输出对以及功能描述输入 DeepSeek-V2.5,从而合成自然语言形式的推理过程。

在此基础上,团队还引入了验证和修订机制,形成了更高质量的CODEI/O++。

从代码中构建思维链

首先,作者从 CodeMix、PyEdu-R 等数据集中收集了 80 多万份代码檔案,涵盖多种编程语言(以 Python 为主),任务类型多样,并且蕴含了丰富的推理模式。

但是,由于原始代码檔案通常缺乏结构化,包含不相关的元素,难以以自包含的方式执行,作者使用 DeepSeek-V2.5 模型对其进行预处理,将其转换为统一的格式。

转换过程中的工作主要包括把核心逻辑功能提取到函数中,添加总结整体逻辑的主入口函数,明确定义主入口函数的输入 / 输出,创建独立的基于规则的输入生成器函数,以及基于主入口函数生成简明的问题陈述作为查询等等。

接下来,在转换后的每个函数上,使用输入生成器采样多个输入,并通过执行代码获得相应的输出,从而收集输入 - 输出对。

这一过程中,部分代码出现了超时、复杂度过高、不可执行或结果不确定等情况,这部分代码被作者跳过,最终生下了 40 多万份代码文档,产生了 350 万个样本实例。

然后,作者利用 DeepSeek-V2.5,将代码、输入输出对、功能描述等信息合成为自然语言思维链(CoT),构建训练样本。

对于每一个输入 - 输出对,作者首先构建一个输入提示。这个提示由几个部分拼装而成:

函数定义:即之前结构化和标准化后的 Python 函数代码。

文本描述:用自然语言概括函数的功能和目的。

参考代码:与函数定义类似,但可能包含一些额外的上下文信息或注释。

输入或输出:根据是输入预测还是输出预测任务,提示中会包含具体的输入或期望的输出。

将构建好的提示输入给 DeepSeek-V2.5 模型,模型会根据提示生成一段自然语言文本作为响应。

这段文本就是作者想要的推理过程——它需要解释如何从给定的输入推导出输出,或者在给定输出的情况下如何构造出满足条件的输入。

通过这种方式收集的数据集,就是 CODEI/O。

在 CODEI/O 的基础上,作者进一步利用了代码的可执行特性,合成了数据质量更高的CODEI/O++。

作者首先对 CODEI/O 中生成的所有响应通过重新执行代码进行正确性验证。对于验证为不正确的响应,作者将执行反馈追加为第二轮输入信息,并要求模型重新生成一个响应。

执行反馈包括输出预测的正误、输入预测基于错误输入的执行输出,以及代码执行失败的错误信息等。

在第二轮生成后,再次检查新响应的正确性。

无论第二轮结果如何,最终的响应都由四个部分按顺序构成:第一轮响应、第一轮反馈、第二轮响应和第二轮反馈。

对于第一轮就正确的响应,第一轮反馈简单标记为 "Success",且没有第二轮内容。

与 CODEI/O 一样,所有修订后的响应都会被保留。通过引入基于执行反馈的多轮修正所构建的增强型数据集就是 CODEI/O++。

数据集构建完成后,作者采用了两阶段训练策略对相关模型进行训练。

第一阶段先用 CODEI/O 或 CODEI/O++ 来训练推理能力,然后再用通用指令数据集进行微调,教会模型遵循自然语言指令、执行各种任务。

模型推理能力全面提升

为了评估 CODEI/O 或 CODEI/O++ 的效果,作者一共找来了四个模型来进行测试,分别是 Qwen 2.5-7B-Coder、Deepseek v2-Lite-Coder、Llama 3.1-8B 和 Gemma 2-27B。

测试过程中,作者共选用了 10 余个数据集,测试了模型常识、数学、代码、物理、工程等领網域的表现,具体数据集如下表:

CODEI/O 训练之后,Qwen-Coder 在代码理解任务上取得了突破性进展,并且在阅读理解和推理任务(如 DROP)上也有明显提升,这表明通过代码训练获得的推理能力确实迁移到了其他领網域。

DeepSeek-Coder 在 CODEI/O 的训练下也展现出了均衡的进步,在各个维度上都实现了稳定的改进。

Qwen-Coder 和 DeepSeek-Coder 的表现说明,即使是已经在代码领網域有专门训练的模型,也能从这种结构化的推理训练中获益。

Llama 在 LeetCode-O 上的性能提升了将近 150%,说明即使是参数量较小的模型,通过合适的训练方法也能在特定任务上获得较大提升。

而 Gemma 作为测试中最大的模型,展示了 CODEI/O 方法在大规模模型上的适用性,在多个关键领網域取得了进步。

相比于数据量更大的 WebInstruct(WI),CODEI/O 整体上取得了更好的效果;而相对于专门为某种任务设计的 OpenMathInstruct2(OMI2)、PyEdu 等方式,CODEI/O 体现了更强的通用性。

作者简介

本文第一作者是来自上海交大的硕士生Junlong Li,目前在 DeepSeek 实习。

同时他还在香港科技大学助理教授何俊贤的指导下进行研究工作,何俊贤亦是本文的通讯作者。

此外参与了 DeepSeek V2、V3 以及 R1 研发的 DeepSeek 核心研究员、中山大学校友郭达雅也参与了这一项目。

论文地址:

https://arxiv.org/abs/2502.07316

GitHub:

https://github.com/hkust-nlp/CodeIO

数据集:

https://huggingface.co/datasets/hkust-nlp/CodeIO-PyEdu-Reasoning

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們