大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

陶哲轩宣布“等式理论计划”成功,人类AI协作,57天完成2200万+数学关系证明

2024-11-25 简体 HK SG TW

今天小编分享的科学经验:陶哲轩宣布“等式理论计划”成功,人类AI协作,57天完成2200万+数学关系证明,欢迎阅读。

57 天,人类和 AI 合作搞定了 4694 个等式之间 22028942 个蕴含关系!

大神陶哲轩激动宣布:等式理论计划,成功。

" 等式理论计划 ",由陶哲轩本人在 2024 年 9 月 25 日发起,目的是探索按蕴含关系排序的原群(magma)等式理论空间。

特别的是,在这个项目里,陶哲轩不仅集合了人类数学家的力量,还把AI 工具纳入了合作者的范围,包括ChatGPT、Claude和GitHub Copilot。

项目发起当日就正式启动,仅仅 9 天,项目进度就达到了99.866%。

而现在,在 2200 万 + 个需要证明的蕴含关系中,8178279 个已被证实,13855193 个已被证伪,仅有 162 个还悬而未决。

按陶哲轩的说法,就是离 " 宣布完全成功 " 基本只是 " 时间问题 ":

因此,我们现在已经开始着手撰写论文了。

什么是 " 等式理论计划 "

还是先来扒一扒陶哲轩这回究竟是整了个什么样的活儿。

简单说," 等式理论计划 " 是指:

采用 " 数学家 +AI(包括自动定理证明系统和大模型)+ 证明辅助语言 Lean" 这样的协作方式,构建一个展示4694 个magma 等式(最多四次使用 magma 操作)之间所有蕴含关系的 " 蕴含图 "。

首先,这个计划的最初灵感源于陶哲轩本人对" 去中心化 "研究方式的畅想。

传统上,大部分数学研究项目都由少数专业数学家(通常 1~5 名)进行,每个人都对自己的部分更专业,且彼此可以相互验证。

不过也是因为存在验证环节,组织更大规模的数学项目(尤其是需要涉及公众贡献),一直具有挑战性。

而现在,通过 AI 工具以及 Lean 这样的证明辅助语言,数学项目的大规模协作变得可能。

打前阵的就有,在这个代号 GIMPS 的志愿项目中,任何拥有强大 PC 或 GPU 的人都可以加入寻找梅森素数。

虽然证明助手这样的 AI 工具在这个项目里用得还不多,但表达的精神是类似的。

因此,在开展等式理论计划之前,陶哲轩就打算搞一个实验:

在一个数学项目中,聚齐专业 / 业余数学家、AI 工具、证明辅助语言 Lean 等,一同干大事!

受去年 MathOverflow 上一个等式问题的启发,这一次,陶哲轩将目光瞄准了代数领網域中的 magma。

当时的问题是酱婶儿的:

交换恒等式和常量恒等式之间是否存在等价关系?

抛开具体问题不谈,这里主要想说明 magma涉及等式之间的关系。

简单来说,magma 是一个代数结构,它由一个集合和一个在该集合上定义的二元运算组成,但不要求满足任何额外的代数性质,如结合律、交换律等。

我们常见的有关 magma 的等式包括:

而等式理论计划,就是要找出 magma 中不同等式之间的等价、推出和非推出关系。

就拿上面这 11 个等式来看,最终的关系图 be like:

可以看出,常量公理等式(1)蕴含了其他所有等式,即如果 1 成立,那么其他等式也自动成立;而反身公理等式(11)由于最宽松(x=x),几乎所有的 magma 都满足这个公理。

回到计划本身,陶哲轩等人在初始阶段集中研究了那些只包含一个方程的 magma 定律,这些方程最多包含四个 magma 操作(即二元运算)。

举个例子,如果我们有一个 magma(M,∗),其中 M 是元素的集合,∗是定义在 M 上的二元运算。

则一个 " 最多四次使用 magma 操作 " 的表达式如下:

a ∗ b(一次操作)

( ∗ ) ∗ ( a ∗ b ) ∗ c(两次操作)

∗ ( ∗ ( ∗ ) ) a ∗ ( b ∗ ( c ∗ d ) ) (三次操作)

( ( ∗ ) ∗ ) ∗ ( ∗ ) ( ( a ∗ b ) ∗ c ) ∗ ( d ∗ e ) (四次操作)

其中 ,,,, 都是集合 M 中的元素,每次∗的使用都算作一次 magma 操作。

这样的等式定律有4694 个,由于每个定律都可能蕴含其他 4693 个定律(一个定律不能蕴含自身),因此总共有 4694* ( 4694-1 ) = 22,028,942 个可能的蕴含关系需要被证明或反驳。

这里的蕴含关系包括 " 蕴含 " 和 " 反蕴含 ",其中 " 蕴含 " 关系又涉及到两种类型:

已证明的蕴含:在 Lean 中已经过验证

推测的蕴含:尚未在 Lean 中验证,可能由人或计算机生成

更多项目细节,陶哲轩在项目日志中,留下了非常详细的记录——

9 天进度 99.866%,大模型有用但 " 表现低于预期 "

简单总结 " 等式理论计划 " 的进度,就是一个字:快。

陶哲轩本人都说:

这个项目的进度远超我的预期。

有多快?

仅仅48 小时,很大一部分蕴含关系就已 " 解决在望 "。

项目启动第 5 天,项目参与者们已经从最初的约 2200 万条蕴含关系中解决了大量简单蕴含,只剩下约 300 万的数量尚待解决。

项目启动第 9 天,随着首次重大重构的完成——合作者们改进了 magma 的运算符号,以使 Lean 代码的编译速度显著加快,以及一些研究问题的推进,项目完成度一举从87%跃升到了99.866%。

第 19 天,项目进度来到99.9963%。陶哲轩在他的博客文章中提及,写论文的事已经提上日程,并且可能包含数十名作者。

GitHub 显示该项目有 45 位贡献者:

到了 11 月 21 日,也就是项目第 57 天,随着主项目最后一个未解决的蕴含关系被搞定(待验证)," 等式理论计划 " 目标已宣告达成。

论文可以正式开写了。

陶哲轩透露,论文的框架早已拟好,但后续还需要大量工作来对其进行更新,并转换为可以提交的形式。

日志中也详细谈到了大模型工具发挥的作用。

在第一天,陶哲轩就对 GitHub Copilot 大加赞赏:

GitHub Copilot 在处理日常任务时非常有用,比如输入需要证明的新 Lean 定理,或者更新蓝图来整合最新的 PR 结果。

他具体举了个例子:要将 Lean 转换为 LaTeX,把 Lean 代码粘贴为注释,开始敲 LaTeX,GitHub Copilot 就会自动补全剩下的内容。

不过,陶哲轩也坦率表示,大模型们在项目中的表现 " 低于预期 ",更多的时候,数学家们用到的还是 " 经典 AI",比如自动定理证明器 Vampire 等。

他还提到:

项目的参与者非常多元化,包括处在职业生涯各个阶段的数学家和计算机科学家,学生和业余爱好者。Lean 在整合人类和机器生成的贡献方面表现出色。机器生成的部分在数量上是贡献的最主要来源,不过,许多自动生成的结果最初是人类在特殊情况下得出的,之后被进一步推广和形式化。

具体到项目中,GitHub Copilot 的主要作用还是加快代码的编写,而 Claude 则被用来帮忙创建可视化工具,比如这个 " 等式浏览器 ":

ChatGPT 则更多扮演激发数学家们灵感的小助手角色。

对陶哲轩来说,ChatGPT 能帮他快速掌握通用代数的一些细节。

而 lyphyser、Daniel Weber、Fan Zheng 和 Bhavik Mehta 这几位项目参与者,还通过跟 ChatGPT 的讨论,证明 1659 这个等式可能具有非平凡的合流性。

主项目里程碑达成,不过 " 等式理论计划 " 的其他衍生项目仍在进行中,比如研究在有限原群限制下的类似蕴含图、对蕴含图进行数据分析等等。

陶哲轩也再次强调了这一项目和 AI 的联系:

希望项目中的蕴含关系能够作为未来 AI 数学工具的基准测试。

除了陶哲轩之外,项目的主要维护人还有意大利数学家 Pietro Monticone 和 Shreyas Srinivas。

两位都是 Lean 重度爱好者。

△Shreyas Srinivas 主页

Pietro Monticone 还和他特伦托大学的同事们一起搞过指数 3 的费马大定理的 Lean 版证明。

GitHub:

https://github.com/teorth/equational_theories

参考链接:

[ 1 ] https://mathstodon.xyz/@tao/113522452070896956

[ 2 ] https://teorth.github.io/equational_theories/

[ 3 ] https://terrytao.wordpress.com/2024/10/12/the-equational-theories-project-a-brief-tour/

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們