大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

DeepSeek加持,北大几何模型达IMO金牌水平!32个CPU核心和1块4090就能实现满血解题

2025-02-18 简体 HK SG TW

今天小编分享的科学经验:DeepSeek加持,北大几何模型达IMO金牌水平!32个CPU核心和1块4090就能实现满血解题,欢迎阅读。

国产 AI 几何模型性能达 IMO 金牌水平,打平谷歌 DeepMind 最新 AlphaGeometry 系列——

TongGeometry,使用的策略网络和价值网络还来自微调版本的DeepSeek-Coder。

它能解决 IMO-AG-30 题中的所有 30 题,在 IMO-AG-50 上也能解决 42 题,而人类金牌选手平均水平分别为:25.9、40.9。

例如,下面是 TongGeometry 提出的一道 IMO2024 几何题的解法,与标准答案完全一致:

TongGeometry不仅能解题还会出题,所出的题目甚至获得了权威数学竞赛认可。

就在去年全国高中数学联赛预赛北京地区的考试中,就有 TongGeometry 出的几何题;由美国 IMO 竞赛教练组组织的一项美国民间数学竞赛 USEMO,也收录了 TongGeometry 出的两道几何题在他们的竞赛短表中。

TongGeometry 由北京通用人工智能研究院打造,下文是更多细节。

DeepSeek 加持神经网络基础

IMO 是面向全球 200 多个国家,最顶尖高中生,所举办的最有影响力的数学竞赛。这项竞赛要求参赛选手对代数、数论、几何、组合四项类型的问题有深刻的理解。其中,几何学问题,又常常因为其优美的图形性质,受到众多参赛选手和数学爱好者们的热议。

△Th é bault 定理,2003 年前曾一度被西方认为是最难证明的几何定理之一

业界通常认为,能够代表国家参加该项赛事并获得金牌,是个人在数学研究历程上的莫大荣誉。菲尔兹奖得主陶哲轩(Terence Tao)教授,就曾经是该项赛事最年轻的金牌得主。

△陶哲轩教授参加 IMO 比赛历史记录

对比赛而言,几何题的难点就在于如何恰到好处地添加辅助线,使得原先难以推理出来的结论,能够借助辅助的点、线、圆来得到。构建这些推理的桥梁,是解决这类问题的关键。

通常,非常困难的问题需要添加数条辅助线才能完成定理的证明。

谷歌 DeepMind AlphaGeometry 最早提出了使用结合语言模型和逻辑引擎解决此类问题的方案。

在他们的方案中,语言模型负责提出可能的辅助线,推理引擎则负责检查添加辅助线后所能产生的结论是否是我们正在寻找的。如果所需要证明的定理仍然不在其中,系统则需要继续搜索可能的辅助线构造方案。

在最新的工作中,AlphaGeometry 宣称其工作超越了奥林匹克竞赛金牌得主的平均水平,能够解决 IMO-AG-30 数据集上的所有 30 题,并能解决 IMO-AG-50 上的 42 题。

而人类金牌选手的平均水平分别是,25.9 和 40.9。

△AlphaGeometry 系列工作在数据集上的表现

在 AlphaGeometry 最新工作公布后,北京通用人工智能研究院的 TongGeometry 工作也浮出水面。

相比较 AlphaGeometry1/2,TongGeometry 有如下改进:

摒弃算数推理(AR),仅仅使用归纳数据库方法(DD)

严格构造对称图形,确保几何图形上的优美性

使用马尔可夫链构造树形状搜索结构,并使用人类数据启发数据生成树的搜索方向

利用策略网络(Policy)和价值网络(Value)联合 Beam Search 进行解题

纯粹的归纳数据库方法

相比较 AlphaGeometry,TongGeometry 摒弃了 DD+AR 的方法,转而只使用 DD。

据悉,AR 方法由于计算慢,效率低,在实际测试中的严重影响性能。TongGeometry 使用的 DD 方法,包含类似 AlphaGeometry 使用的 10 个核心谓词:共线(equine),共圆(eqcircle),等长(cong),中点(midp),平行(para),垂直(perp),等角(eqangle),等比(eqratio),相似(simtri),全等(contri)。

这套谓词表示逻辑,能够覆盖 IMO 2000-2024 年的所有几何题目中的 86.8%。

△归纳数据库方法构造对称图形,确保几何图形保持美观

相比于 AlphaGeometry 仅仅使用随机化的构造方案,TongGeometry 在设计问题搜索时就优先考虑对称图形。这种方法来自开源项目 GeoGen。在正式比赛中,多见大量对称图形。

因此,使用对称方法生成数据,能够在有限数据的情况下,尽可能确保数据符合问题的分布。

△TongGeometry 生成的对称图形使用人类数据启发搜索方向

除了在问题构造的时候优先考虑对称结构,TongGeometry 在问题生成的时候还将使用人类数据中获得的分布,指导数据生成方向。

TongGeometry 从往届 IMO,CMO,以及各大比赛中总共收集 196 题,并使用这个小数据集构造数据。从结果看,这一方法能够产生大量难度上数倍于现有 IMO 题目的构型。

△使用人类数据进行启发,TongGeometry 生成的数据难度可数倍于 IMO 现有题目难度利用策略网络和价值网络联合搜索

TongGeometry 在解题过程中,使用了类似 Reinforcement Learning 的 Policy 和 Value 两个网络。

Policy 网络用于提出可能的解题搜索方向。而 Value 网络用于从 Policy 网络提出的所有可能搜索方向中,筛选出最有用的几种方向。

结合 Beam Search 和后端的逻辑推理引擎,TongGeometry 的解题策略能够形成一个闭环。

△策略网络和价值网络联合搜索解题

此外,TongGeometry 使用的策略网络和价值网络都来自微调版本的 DeepSeek-Coder。可以说,DeepSeek 也在默默地助力 TongGeometry 的发展。

△DeepSeek-Coder 在列,作为 TongGeometry 的神经网络基础

在性能测试上,TongGeometry 技术报告显示,TongGeometry 能够解决 IMO-AG-30 题中的所有 30 题。

根据北京通用人工智能研究院的最新介绍,在 IMO-AG-50 上,TongGeometry 也能解决 42 题。注意到 TongGeometry 的技术报告公布于 2024 年 12 月份,谁才是第一个超过人类金牌选手平均水平的几何解题工具,还尚值得商榷。

△TongGeometry 在 2024 年 12 月公布的技术报告中的性能指标解题 / 出题样样精通

TongGeometry 除了是一个解题达人,还是一个出题教练。TongGeometry 的训练数据包含许多很有价值的几何关系发现,其中不乏大量具有镜像对称和旋转对称的美丽构型。

根据报告,这些题目的难度可能数倍于现有的 IMO 竞赛题目。

此外,TongGeometry 所出的题目还获得了数学竞赛的认可。在 2024 年全国高中数学联赛预赛北京地区的考试中,TongGeometry 所出的几何题就正式亮相。

△TongGeometry 在全国高中数学联赛北京卷和美国奥林匹克竞赛中的供题

去年北京地区的考生,可能神不知鬼不觉地已经经历了一次来自 AI 的测试。另外,由美国 IMO 竞赛教练组组织的一项美国民间数学竞赛 USEMO,也收录了 2 题几何题在他们的竞赛短表中(shortlist)。

△北京卷赛题几何部分记录高效推理,性能提升 18 倍

相比 AlphaGeometry 需要 246 个 CPU 核心和 4 块英伟达 V100 的高性能计算集群才能在 90 分钟解决一题相比,TongGeometry只需要 32 个 CPU 核心和 1 块 4090 就能实现满血解题。

在这一配置下,TongGeometry最多用时仅仅需要 38 分钟。

△AlphaGeometry 将解体时间控制在 90 分钟需要使用 246 核心 CPU 和 4 块英伟达 V100 的高性能计算集群

相比 AlphaGeometry 使用 246*90 核心分钟相比,TongGeometry 仅仅需要 32*38 核心分钟,性能提升 18 倍有余。在这个配置要求下,你的黑神话主机,都能用来学习几何了。

△TongGeometry 仅仅使用 32 个 CPU 核心和 1 块 4090 就能将解题时间控制在 38 分钟内

论文链接:https://arxiv.org/pdf/2412.10673

—  完  —

投稿请工作日发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

一键关注 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們