大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

微软:两个AI相互纠错,数学再涨5分

2024-12-03 简体 HK SG TW

今天小编分享的科学经验:微软:两个AI相互纠错,数学再涨5分,欢迎阅读。

提升 LLM 数学能力的新方法来了——

一个大模型不行,那就两个。让他们彼此合作,纠正对方的错误。

这就是来自加州大学和微软研究院的最新研究成果:Flow-DPO。通过使用在线学习流(Flow)和直接偏好优化(DPO, Direct Preference Optimization),可以让 LLM 生成更加详细和精确的推理轨迹。

同时,这种在线多智能体(Agent)的学习形式还能挖掘数据中的深层信息,有效避免了人类标注数据不够准确的问题。

我们先一起看个例子感受一下。

比如针对下面这道题:

方程 x + 2y + 3 = 0 的图与方程 ax + 2y + 3 = 0 的图互相垂直。请问 ax + 2y + 3 = 0 中,a 的值是多少?

基准回答是这样的:

方程 x + 2y + 3 = 0 的图形的斜率为 -1/2,因为图形垂直,所以 ax + 2y + 3 = 0 的图形的斜率必须是 x + 2y + 3 = 0 的负倒数。因此,方程 ax + 2y + 3 = 0 的斜率为 2,改写为 2y = -ax - 3,然后两边除以 2,得到 y = -a/2x-3/2。将此与斜率截距形式 y = mx + b 相比,我们发现斜率 m 为 -a/2。由于我们知道斜率为 2,所以 - a/2= 2。将两边乘以 -2,得到 a = -4,答案为:-4。

而Flow-DPO 的回答是这样的:

要解决这个问题,我们需要了解线性方程中垂直线的概念。当两条直线垂直时,它们的斜率互为负倒数。让我们以斜率 - 截距形式复述给定方程 x + 2y + 3 = O,即 y = -1/2x - 3/2。这告诉我们直线的斜率是 - 1/2。现在,我们需要找出方程 ax + 2y + 3 = 0 所表示的直线的斜率。我们可以将方程改写成斜率 - 截距形式,即 y = -a/2x - 3/2。这告诉我们这条直线的斜率是 -a/2。由于两条直线垂直,因此它们的斜率互为负倒数。这意味着 -1/2 * ( -a/2 ) = 1,简化为 a = -4。因此,a 的值为 -4。

让GTP-4o当裁判,针对两个模型的回答分析了一下,它认为答案 B(FLow-DPO)更好,原因有两点:

1. 概念解释

答案 A 的回答是:" 我们可以利用斜率之间的负倒数关系来求解 a"。答案 B 花时间明确解释了垂直的概念,强调垂直线的斜率是负倒数。这种回答更有教育意义,可以让读者理解数学背后的推理。

2. 解题思路清晰

答案 A 推导出了正确的方程并正确地求解了方程,但引入了一些不必要的步骤。

例如,中间步骤涉及将方程改写为 2y = -ax - 3 和两边除以 2 的中间步骤比必要的步骤复杂。

答案 B 立即使用两个方程的斜截距形式简化了方法。它有效地解释了如何提取斜率,并直接比较了两个等式的斜率,过程更直接,更容易理解。

结论

答案 B 的解释更清晰、更透彻,既注重概念和公式,又避免了不必要的复杂性,这种循序渐进的方法更易于理解和掌握。

可以看到,在解决真实数学问题的时候,Flow-DPO 生成的推理过程不仅有更详细的指导,还避免了不必要的复杂性,增强了可读性和理解性。

这是怎么做到的呢?

两个大模型彼此合作

针对 LLM 解决数学问题时反馈信息有限、标注数据质量不高等问题,团队提出了一种新的方法。

那就是通过在线学习流(Flow)和直接偏好优化(DPO)学习来生成高质量的推理轨迹。

具体分为 2 个部分:

1. 增量输出生成 Flow(Incremental Output Production Flow)

Flow-DPO 采用了增量输出生成 Flow,其中有两个独立的 LLM(Answer LLM 和 Stop LLM)协同工作,通过迭代通信构建解决方案。

具体来说,Answer LLM 一次会生成一个有限的答案块,而 Stop LLM 则判断部分答案是否达到最终状态,两个 LLM 通过迭代式学习不断进步。

Answer LLM 和 Stop LLM 的底层都是相同的基础模型,但它们使用不同的 LoRA 适配器进行了微调,可以专门完成各自的任务。

而且在训练过程中,Flow-DPO 可实现更精细的控制较小的块大小,灵活适应不同的概念和方法,较大的块大小近似于单次模型生成。

2. 在线 Flow 学习与回滚(Online Flow Learning with Rollouts)

Flow-DPO 还会通过在线 DPO 学习和回滚来增强 Flow。

对于每个输入问题,Answer LLM 会生成一个答案片段,一直持续到产生完整的回答。

然后模型会在每个输出节点进行随机展开,比如在生成初始答案片段且 Stop LLM 判断为 " 否 " 后,Flow 还会生成另一个答案片段,基于之前的部分答案继续构建。

如果两个答案在正确性上不同,就把它们作为答案语言模型的 DPO 对,引导到正确答案的那个片段被选为首选响应。

显著提高 LLM 数学推理能力显著提高

为了验证 Flow-DPO 的性能,研究团队还设计了精密的验证实验,具体設定如下

数据集:实验使用了 MetaMath 数据集,该数据集基于于 GSM8K 和 MATH 数据集,并通过数据增强技术进行了增强。

模型选择:实验采用了两种不同规模的模型:Llama-3-8B-Instruct 和 Phi-3-medium-128k-instruct ( 14B )

Flow 学习阶段:在 Flow 学习阶段,团队使用不同的 LoRA 适配器对 Answer LLM 和 Stop LLM 进行微调,让它们在 DPO 训练中的能力更加专业。

编译阶段:在编译阶段,收集 Flow 生成的正确推理轨迹和基线模型生成的正确推理轨迹,进行独立评估。

最终结果显示,使用了 Flow-DPO 之后,Llama3 模型和 Phi3 在数学推理上的能力都大幅提升了!

一起来看看具体结果分析:

1.渐进验证准确率(Progressive Validation Accuracy)

渐进验证准确率的准确定义,是模型在训练前对输入训练数据的累积准确度,公式和变量含义如下图所示:

实验结果显示,在线 DPO 训练显著提高了 Flow 的泛化能力。

对于 Llama-3-8B-Instruc 模型,在线 DPO 学习在仅 2000 个训练实例内将 Flow 的性能提高了 20%。对于 Phi-3-medium-128k-instruct 模型,在线 DPO 学习使其准确率提高了 4 个百分点,达到了83%.

2.推理轨迹质量

Flow 生成的推理轨迹在质量上也优于基线和模型生成的正确推理轨迹。

对于 Llama-3-8B-Instruct 模型,Flow 生成的推理轨迹在 GSM8K 和 MATH 数据集上的微调准确率分别提高了 6% 和 7.8%。

对于 Phi-3-medium-128k-instruct 模型,Flow 生成的推理轨迹在两个数据集上的微调准确率分别提高了 1.9% 和 2.1%.

除了刚开始的垂直直线问题,研究团队还放出了很多真实的解题回答和对比,感兴趣的朋友可以查看论文的更多相关信息。

没想到,不久前还让 LLM 非常头疼的数学问题现在也进步飞快!

有了优秀的逻辑分析能力,我们也能期待 LLM 未来能解决更多复杂的问题了。

参考链接:

[ 1 ] https://arxiv.org/abs/2410.22304

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們