大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

陶哲軒宣布“等式理論計劃”成功,人類AI協作,57天完成2200萬+數學關系證明

2024-11-25 简体 HK SG TW

今天小編分享的科學經驗:陶哲軒宣布“等式理論計劃”成功,人類AI協作,57天完成2200萬+數學關系證明,歡迎閲讀。

57 天,人類和 AI 合作搞定了 4694 個等式之間 22028942 個藴含關系!

大神陶哲軒激動宣布:等式理論計劃,成功。

" 等式理論計劃 ",由陶哲軒本人在 2024 年 9 月 25 日發起,目的是探索按藴含關系排序的原群(magma)等式理論空間。

特别的是,在這個項目裏,陶哲軒不僅集合了人類數學家的力量,還把AI 工具納入了合作者的範圍,包括ChatGPT、Claude和GitHub Copilot。

項目發起當日就正式啓動,僅僅 9 天,項目進度就達到了99.866%。

而現在,在 2200 萬 + 個需要證明的藴含關系中,8178279 個已被證實,13855193 個已被證偽,僅有 162 個還懸而未決。

按陶哲軒的説法,就是離 " 宣布完全成功 " 基本只是 " 時間問題 ":

因此,我們現在已經開始着手撰寫論文了。

什麼是 " 等式理論計劃 "

還是先來扒一扒陶哲軒這回究竟是整了個什麼樣的活兒。

簡單説," 等式理論計劃 " 是指:

采用 " 數學家 +AI(包括自動定理證明系統和大模型)+ 證明輔助語言 Lean" 這樣的協作方式,構建一個展示4694 個magma 等式(最多四次使用 magma 操作)之間所有藴含關系的 " 藴含圖 "。

首先,這個計劃的最初靈感源于陶哲軒本人對" 去中心化 "研究方式的暢想。

傳統上,大部分數學研究項目都由少數專業數學家(通常 1~5 名)進行,每個人都對自己的部分更專業,且彼此可以相互驗證。

不過也是因為存在驗證環節,組織更大規模的數學項目(尤其是需要涉及公眾貢獻),一直具有挑戰性。

而現在,通過 AI 工具以及 Lean 這樣的證明輔助語言,數學項目的大規模協作變得可能。

打前陣的就有,在這個代号 GIMPS 的志願項目中,任何擁有強大 PC 或 GPU 的人都可以加入尋找梅森素數。

雖然證明助手這樣的 AI 工具在這個項目裏用得還不多,但表達的精神是類似的。

因此,在開展等式理論計劃之前,陶哲軒就打算搞一個實驗:

在一個數學項目中,聚齊專業 / 業餘數學家、AI 工具、證明輔助語言 Lean 等,一同幹大事!

受去年 MathOverflow 上一個等式問題的啓發,這一次,陶哲軒将目光瞄準了代數領網域中的 magma。

當時的問題是醬嬸兒的:

交換恒等式和常量恒等式之間是否存在等價關系?

抛開具體問題不談,這裏主要想説明 magma涉及等式之間的關系。

簡單來説,magma 是一個代數結構,它由一個集合和一個在該集合上定義的二元運算組成,但不要求滿足任何額外的代數性質,如結合律、交換律等。

我們常見的有關 magma 的等式包括:

而等式理論計劃,就是要找出 magma 中不同等式之間的等價、推出和非推出關系。

就拿上面這 11 個等式來看,最終的關系圖 be like:

可以看出,常量公理等式(1)藴含了其他所有等式,即如果 1 成立,那麼其他等式也自動成立;而反身公理等式(11)由于最寬松(x=x),幾乎所有的 magma 都滿足這個公理。

回到計劃本身,陶哲軒等人在初始階段集中研究了那些只包含一個方程的 magma 定律,這些方程最多包含四個 magma 操作(即二元運算)。

舉個例子,如果我們有一個 magma(M,∗),其中 M 是元素的集合,∗是定義在 M 上的二元運算。

則一個 " 最多四次使用 magma 操作 " 的表達式如下:

a ∗ b(一次操作)

( ∗ ) ∗ ( a ∗ b ) ∗ c(兩次操作)

∗ ( ∗ ( ∗ ) ) a ∗ ( b ∗ ( c ∗ d ) ) (三次操作)

( ( ∗ ) ∗ ) ∗ ( ∗ ) ( ( a ∗ b ) ∗ c ) ∗ ( d ∗ e ) (四次操作)

其中 ,,,, 都是集合 M 中的元素,每次∗的使用都算作一次 magma 操作。

這樣的等式定律有4694 個,由于每個定律都可能藴含其他 4693 個定律(一個定律不能藴含自身),因此總共有 4694* ( 4694-1 ) = 22,028,942 個可能的藴含關系需要被證明或反駁。

這裏的藴含關系包括 " 藴含 " 和 " 反藴含 ",其中 " 藴含 " 關系又涉及到兩種類型:

已證明的藴含:在 Lean 中已經過驗證

推測的藴含:尚未在 Lean 中驗證,可能由人或計算機生成

更多項目細節,陶哲軒在項目日志中,留下了非常詳細的記錄——

9 天進度 99.866%,大模型有用但 " 表現低于預期 "

簡單總結 " 等式理論計劃 " 的進度,就是一個字:快。

陶哲軒本人都説:

這個項目的進度遠超我的預期。

有多快?

僅僅48 小時,很大一部分藴含關系就已 " 解決在望 "。

項目啓動第 5 天,項目參與者們已經從最初的約 2200 萬條藴含關系中解決了大量簡單藴含,只剩下約 300 萬的數量尚待解決。

項目啓動第 9 天,随着首次重大重構的完成——合作者們改進了 magma 的運算符号,以使 Lean 代碼的編譯速度顯著加快,以及一些研究問題的推進,項目完成度一舉從87%躍升到了99.866%。

第 19 天,項目進度來到99.9963%。陶哲軒在他的博客文章中提及,寫論文的事已經提上日程,并且可能包含數十名作者。

GitHub 顯示該項目有 45 位貢獻者:

到了 11 月 21 日,也就是項目第 57 天,随着主項目最後一個未解決的藴含關系被搞定(待驗證)," 等式理論計劃 " 目标已宣告達成。

論文可以正式開寫了。

陶哲軒透露,論文的框架早已拟好,但後續還需要大量工作來對其進行更新,并轉換為可以提交的形式。

日志中也詳細談到了大模型工具發揮的作用。

在第一天,陶哲軒就對 GitHub Copilot 大加贊賞:

GitHub Copilot 在處理日常任務時非常有用,比如輸入需要證明的新 Lean 定理,或者更新藍圖來整合最新的 PR 結果。

他具體舉了個例子:要将 Lean 轉換為 LaTeX,把 Lean 代碼粘貼為注釋,開始敲 LaTeX,GitHub Copilot 就會自動補全剩下的内容。

不過,陶哲軒也坦率表示,大模型們在項目中的表現 " 低于預期 ",更多的時候,數學家們用到的還是 " 經典 AI",比如自動定理證明器 Vampire 等。

他還提到:

項目的參與者非常多元化,包括處在職業生涯各個階段的數學家和計算機科學家,學生和業餘愛好者。Lean 在整合人類和機器生成的貢獻方面表現出色。機器生成的部分在數量上是貢獻的最主要來源,不過,許多自動生成的結果最初是人類在特殊情況下得出的,之後被進一步推廣和形式化。

具體到項目中,GitHub Copilot 的主要作用還是加快代碼的編寫,而 Claude 則被用來幫忙創建可視化工具,比如這個 " 等式浏覽器 ":

ChatGPT 則更多扮演激發數學家們靈感的小助手角色。

對陶哲軒來説,ChatGPT 能幫他快速掌握通用代數的一些細節。

而 lyphyser、Daniel Weber、Fan Zheng 和 Bhavik Mehta 這幾位項目參與者,還通過跟 ChatGPT 的讨論,證明 1659 這個等式可能具有非平凡的合流性。

主項目裏程碑達成,不過 " 等式理論計劃 " 的其他衍生項目仍在進行中,比如研究在有限原群限制下的類似藴含圖、對藴含圖進行數據分析等等。

陶哲軒也再次強調了這一項目和 AI 的聯系:

希望項目中的藴含關系能夠作為未來 AI 數學工具的基準測試。

除了陶哲軒之外,項目的主要維護人還有意大利數學家 Pietro Monticone 和 Shreyas Srinivas。

兩位都是 Lean 重度愛好者。

△Shreyas Srinivas 主頁

Pietro Monticone 還和他特倫托大學的同事們一起搞過指數 3 的費馬大定理的 Lean 版證明。

GitHub:

https://github.com/teorth/equational_theories

參考鏈接:

[ 1 ] https://mathstodon.xyz/@tao/113522452070896956

[ 2 ] https://teorth.github.io/equational_theories/

[ 3 ] https://terrytao.wordpress.com/2024/10/12/the-equational-theories-project-a-brief-tour/

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們