大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

DeepSeek加持,北大幾何模型達IMO金牌水平!32個CPU核心和1塊4090就能實現滿血解題

2025-02-18 简体 HK SG TW

今天小編分享的科學經驗:DeepSeek加持,北大幾何模型達IMO金牌水平!32個CPU核心和1塊4090就能實現滿血解題,歡迎閱讀。

國產 AI 幾何模型性能達 IMO 金牌水平,打平谷歌 DeepMind 最新 AlphaGeometry 系列——

TongGeometry,使用的策略網絡和價值網絡還來自微調版本的DeepSeek-Coder。

它能解決 IMO-AG-30 題中的所有 30 題,在 IMO-AG-50 上也能解決 42 題,而人類金牌選手平均水平分别為:25.9、40.9。

例如,下面是 TongGeometry 提出的一道 IMO2024 幾何題的解法,與标準答案完全一致:

TongGeometry不僅能解題還會出題,所出的題目甚至獲得了權威數學競賽認可。

就在去年全國高中數學聯賽預賽北京地區的考試中,就有 TongGeometry 出的幾何題;由美國 IMO 競賽教練組組織的一項美國民間數學競賽 USEMO,也收錄了 TongGeometry 出的兩道幾何題在他們的競賽短表中。

TongGeometry 由北京通用人工智能研究院打造,下文是更多細節。

DeepSeek 加持神經網絡基礎

IMO 是面向全球 200 多個國家,最頂尖高中生,所舉辦的最有影響力的數學競賽。這項競賽要求參賽選手對代數、數論、幾何、組合四項類型的問題有深刻的理解。其中,幾何學問題,又常常因為其優美的圖形性質,受到眾多參賽選手和數學愛好者們的熱議。

△Th é bault 定理,2003 年前曾一度被西方認為是最難證明的幾何定理之一

業界通常認為,能夠代表國家參加該項賽事并獲得金牌,是個人在數學研究歷程上的莫大榮譽。菲爾茲獎得主陶哲軒(Terence Tao)教授,就曾經是該項賽事最年輕的金牌得主。

△陶哲軒教授參加 IMO 比賽歷史記錄

對比賽而言,幾何題的難點就在于如何恰到好處地添加輔助線,使得原先難以推理出來的結論,能夠借助輔助的點、線、圓來得到。構建這些推理的橋梁,是解決這類問題的關鍵。

通常,非常困難的問題需要添加數條輔助線才能完成定理的證明。

谷歌 DeepMind AlphaGeometry 最早提出了使用結合語言模型和邏輯引擎解決此類問題的方案。

在他們的方案中,語言模型負責提出可能的輔助線,推理引擎則負責檢查添加輔助線後所能產生的結論是否是我們正在尋找的。如果所需要證明的定理仍然不在其中,系統則需要繼續搜索可能的輔助線構造方案。

在最新的工作中,AlphaGeometry 宣稱其工作超越了奧林匹克競賽金牌得主的平均水平,能夠解決 IMO-AG-30 數據集上的所有 30 題,并能解決 IMO-AG-50 上的 42 題。

而人類金牌選手的平均水平分别是,25.9 和 40.9。

△AlphaGeometry 系列工作在數據集上的表現

在 AlphaGeometry 最新工作公布後,北京通用人工智能研究院的 TongGeometry 工作也浮出水面。

相比較 AlphaGeometry1/2,TongGeometry 有如下改進:

摒棄算數推理(AR),僅僅使用歸納數據庫方法(DD)

嚴格構造對稱圖形,确保幾何圖形上的優美性

使用馬爾可夫鏈構造樹形狀搜索結構,并使用人類數據啟發數據生成樹的搜索方向

利用策略網絡(Policy)和價值網絡(Value)聯合 Beam Search 進行解題

純粹的歸納數據庫方法

相比較 AlphaGeometry,TongGeometry 摒棄了 DD+AR 的方法,轉而只使用 DD。

據悉,AR 方法由于計算慢,效率低,在實際測試中的嚴重影響性能。TongGeometry 使用的 DD 方法,包含類似 AlphaGeometry 使用的 10 個核心謂詞:共線(equine),共圓(eqcircle),等長(cong),中點(midp),平行(para),垂直(perp),等角(eqangle),等比(eqratio),相似(simtri),全等(contri)。

這套謂詞表示邏輯,能夠覆蓋 IMO 2000-2024 年的所有幾何題目中的 86.8%。

△歸納數據庫方法構造對稱圖形,确保幾何圖形保持美觀

相比于 AlphaGeometry 僅僅使用随機化的構造方案,TongGeometry 在設計問題搜索時就優先考慮對稱圖形。這種方法來自開源項目 GeoGen。在正式比賽中,多見大量對稱圖形。

因此,使用對稱方法生成數據,能夠在有限數據的情況下,盡可能确保數據符合問題的分布。

△TongGeometry 生成的對稱圖形使用人類數據啟發搜索方向

除了在問題構造的時候優先考慮對稱結構,TongGeometry 在問題生成的時候還将使用人類數據中獲得的分布,指導數據生成方向。

TongGeometry 從往屆 IMO,CMO,以及各大比賽中總共收集 196 題,并使用這個小數據集構造數據。從結果看,這一方法能夠產生大量難度上數倍于現有 IMO 題目的構型。

△使用人類數據進行啟發,TongGeometry 生成的數據難度可數倍于 IMO 現有題目難度利用策略網絡和價值網絡聯合搜索

TongGeometry 在解題過程中,使用了類似 Reinforcement Learning 的 Policy 和 Value 兩個網絡。

Policy 網絡用于提出可能的解題搜索方向。而 Value 網絡用于從 Policy 網絡提出的所有可能搜索方向中,篩選出最有用的幾種方向。

結合 Beam Search 和後端的邏輯推理引擎,TongGeometry 的解題策略能夠形成一個閉環。

△策略網絡和價值網絡聯合搜索解題

此外,TongGeometry 使用的策略網絡和價值網絡都來自微調版本的 DeepSeek-Coder。可以說,DeepSeek 也在默默地助力 TongGeometry 的發展。

△DeepSeek-Coder 在列,作為 TongGeometry 的神經網絡基礎

在性能測試上,TongGeometry 技術報告顯示,TongGeometry 能夠解決 IMO-AG-30 題中的所有 30 題。

根據北京通用人工智能研究院的最新介紹,在 IMO-AG-50 上,TongGeometry 也能解決 42 題。注意到 TongGeometry 的技術報告公布于 2024 年 12 月份,誰才是第一個超過人類金牌選手平均水平的幾何解題工具,還尚值得商榷。

△TongGeometry 在 2024 年 12 月公布的技術報告中的性能指标解題 / 出題樣樣精通

TongGeometry 除了是一個解題達人,還是一個出題教練。TongGeometry 的訓練數據包含許多很有價值的幾何關系發現,其中不乏大量具有鏡像對稱和旋轉對稱的美麗構型。

根據報告,這些題目的難度可能數倍于現有的 IMO 競賽題目。

此外,TongGeometry 所出的題目還獲得了數學競賽的認可。在 2024 年全國高中數學聯賽預賽北京地區的考試中,TongGeometry 所出的幾何題就正式亮相。

△TongGeometry 在全國高中數學聯賽北京卷和美國奧林匹克競賽中的供題

去年北京地區的考生,可能神不知鬼不覺地已經經歷了一次來自 AI 的測試。另外,由美國 IMO 競賽教練組組織的一項美國民間數學競賽 USEMO,也收錄了 2 題幾何題在他們的競賽短表中(shortlist)。

△北京卷賽題幾何部分記錄高效推理,性能提升 18 倍

相比 AlphaGeometry 需要 246 個 CPU 核心和 4 塊英偉達 V100 的高性能計算集群才能在 90 分鍾解決一題相比,TongGeometry只需要 32 個 CPU 核心和 1 塊 4090 就能實現滿血解題。

在這一配置下,TongGeometry最多用時僅僅需要 38 分鍾。

△AlphaGeometry 将解體時間控制在 90 分鍾需要使用 246 核心 CPU 和 4 塊英偉達 V100 的高性能計算集群

相比 AlphaGeometry 使用 246*90 核心分鍾相比,TongGeometry 僅僅需要 32*38 核心分鍾,性能提升 18 倍有餘。在這個配置要求下,你的黑神話主機,都能用來學習幾何了。

△TongGeometry 僅僅使用 32 個 CPU 核心和 1 塊 4090 就能将解題時間控制在 38 分鍾内

論文鏈接:https://arxiv.org/pdf/2412.10673

—  完  —

投稿請工作日發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

一鍵關注 點亮星标

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們