o1/Claude集體翻車！陶哲軒等60+頂尖數學家合力提出新數學基準，大模型正确率通通不足2% - 大酷樂

今天小編分享的科學經驗：o1/Claude集體翻車！陶哲軒等60+頂尖數學家合力提出新數學基準，大模型正确率通通不足2%，歡迎閲讀。

讓大模型集體吃癟，數學題正确率通通不到 2%！

獲大神卡帕西力薦，大模型新數學基準來勢洶洶——

一出手，曾在國際數學奧賽中拿下 83% 解題率的o1 模型就敗下陣來，并且 Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro 等全都未攻破 2% 這一防線。

所以，新挑戰者到底啥來頭？？

一打聽，這個新數學基準名為FrontierMath，由Epoch AI這家非營利研究機構号召陶哲軒在内的 60 多位頂尖數學家提出。

這群人這次鐵了心要給 AI 上難度，直接原創了數百道極具挑戰性的數學問題——

從數論中計算密集型問題到代數幾何和範疇論中的抽象問題，涵蓋了現代數學的大多數主要分支。

這些題有多難呢？按數學大佬陶哲軒對這項研究的評價説：

大模型們，至少需要再戰個幾年吧。

同時，卡帕西也表示非常喜歡這一新基準，甚至樂于見到大模型們 " 吃癟 "：

之所以引入這個基準，是因為大模型越來越多地碾壓現有的數學基準

FrontierMath：評估 AI 高級數學推理能力的新基準

今年以來，大語言模型（LLM）開始在各種數學 benchmark 上瘋狂刷分，而且正确率動辄 90% 以上。

宣傳看多了，人也麻了，于是紛紛反思——

一定是現在的基準測試 " 被污染了 "（比如讓 AI 在訓練階段提前學習基準測試中的問題）。

對此，非營利研究機構 Epoch AI 看不下去了，于是直接聯合 60 多位頂尖數學家（共獲得了 14 枚 IMO 金牌）推出 FrontierMath。

這一新基準擁有數百道大模型們之前沒見過的數學題，而且難度頗高。

通常需要專業數學家花費數小時甚至數天的努力

一番實踐檢驗下，果不其然，一眾頂尖大模型紛紛折戟（包括 Claude 3.5 Sonnet、GPT-4o 和 Gemini 1.5 Pro 等），解題率均不足 2%。

而且即使有延長的思考時間（10,000 個 token）、Python 訪問權限以及運行實驗的能力，相關成功率仍然低于 2%。

下面，我們具體介紹下 FrontierMath。這第一關主要解決數學題的原創性。

這群數學家們被要求按照3 個關鍵原則設計題目：

所有問題都是新的且未發表的，以防止數據污染；

解決方案是自動可驗證的，從而實現高效的評估；

問題是 " 防猜測 " 的，在沒有正确推理的情況下解決的可能性很低；

除了出新題，為了防止數據污染，機構還采取了其他措施。

比如為了最大限度地降低問題和解決方案在網上傳播的風險，機構鼓勵所有提交都通過安全、加密的渠道進行。

具體來説，機構采用加密通信平台與投稿人協調，并要求對在線存儲的任何書面材料進行加密（如加密文檔）。

同時，機構依賴于核心數學家團隊專家評審這一原創驗證性方法，以識别自動化系統可能錯過的潛在相似性（專家比機器更熟悉這些研究細節）。

當然也不完全依靠人力，為了進一步保證原創性，機構還通過抄襲檢測工具 Quetext 和 Copyscape 對問題進行測試。

最終，數學家們提出了數百道原創題目，涵蓋了現代數學的大多數主要分支，從數論中計算密集型問題到代數幾何和範疇論中的抽象問題。

其中數論和組合學最多，合計約占所有 MSC2020（數學學科分類系統 2020 版本）的 34%。

接下來，為了評估大模型在 FrontierMath 問題上的表現，研究開發了一個框架。

簡單説，這一框架具體執行任務的過程如下：

分析問題：模型首先分析給定的數學問題；

提出策略：模型提出可能的解決方案策略；

實施并執行代碼：将這些策略轉化為可執行的 Python 代碼并自動執行；

接收反饋：從代碼執行的結果中接收反饋，包括輸出和錯誤消息；

改進方法：根據實驗結果，模型會驗證中間結果，測試猜想，并可能改進其推理過程以修正潛在的錯誤；

該框架支持兩種提交方式：一種是模型可以直接給出問題的最終答案；另一種是，在提交最終答案之前，模型可以先通過代碼執行進行實驗，以驗證其解決方案的有效性。

不過需要提醒，在提交最終答案時，模型必須遵循一些标準化格式。

比如，在答案中需包含#This is the final answer這一标記注釋，且将結果保存在 Python 的 pickle 模塊中，同時需确保提交的代碼必須是自包含的，不依賴于先前的計算。

總之，這一評估過程将持續進行，直到模型提交了正确格式化的最終答案，或者達到了預設的标記限制（研究設定為 10,000 個 token）。

如果模型在達到标記限制之前沒有提交最終答案，它将收到一個最終提示，要求立即提交最終答案；

如果在收到該提示後模型仍然無法提供正确格式化的最終答案，則該嘗試被标記為不正确。

陶哲軒看了都説難

為了進一步驗證 FrontierMath 的難度，該機構還特意采訪了 4 位數學大佬。

包括菲爾茲獎得主陶哲軒 ( 2006 ) 、蒂莫西 · 高爾斯 ( 1998 ) 、理查德 · 博赫茲 ( 1998 ) ，以及國際數學奧林匹克競賽 ( IMO ) 教練陳誼廷 ( Evan Chen ) 在内，他們一致認為這些題非常具有挑戰性。

下一步 Epoch AI 也計劃從四個方面持續推進：

定期評估這些領先的大模型，并觀察高級數學推理能力随時間推移和規模擴大而提高的情況；

保持難度的同時，向 FrontierMath 添加更多問題；

在未來幾個月内發布更多代表性問題，供大家研究讨論；

擴大專家審查、增加錯誤數量和改進同行評審流程來加強質量控制；

這也合了卡帕西的心意，他認為這樣的新基準應該更多，尤其是為那些看似 " 容易 " 的事情創建評估。

之所以引入這個基準，是因為大模型越來越多地碾壓現有的數學基準。有趣的問題是，盡管從許多方面（/evals）來看，大模型正逐步跻身頂級專家行列（如數學和編碼等），但你不會雇用他們而不是讓他們從事最瑣碎的工作。

如果你把問題描述整齊地放在盤子裏，他們就能解決復雜的封閉式問題，但他們很難連貫地把長長的、自主的、解決問題的序列串聯起來，而人卻會覺得非常容易。

這是莫拉維克悖論的變相，他在 30 多年前就觀察到，對人類來説容易 / 困難的事情，與對計算機來説容易 / 困難的事情，在非直覺上可能大相徑庭。

例如，人類對計算機下國際象棋印象深刻，但國際象棋對計算機來説卻很容易，因為它是一個封閉的、确定性的系統，具有離散的行動空間、完全的可觀測性等等。

反之亦然，人類可以系好鞋帶或疊好襯衫，而且根本不需要考慮太多，但這是一項極其復雜的傳感運動任務，對硬體和軟體的技術水平都是挑戰。

這就像不久前 OpenAI 發布的魔術方塊一樣，大多數人都把注意力集中在解魔術方塊本身（這是微不足道的），而不是用機器人的手轉動魔術方塊的一個面這一實際難度極高的任務。

因此，我非常喜歡這個 FrontierMath 基準，我們應該制作更多的基準。但我也認為，如何為所有 " 容易 " 但其實很難的東西創建評估是一個有趣的挑戰。

很長的語境視窗、連貫性、自主性、常識、有效的多模态輸入 / 輸出…… 我們如何建立良好的 " 初級工作 " 評估？就像你對團隊中任何初級實習生的期望。

網友也表示，能在這種基準測試中取得高分的大模型将大有裨益。

陶哲軒夢想的就是這樣的東西，可以連接到 LEAN（微軟研究院推出的一款定理證明器），讓數學家成為編輯、顧問，偶爾處理一些真正困難的部分，而其餘部分則自動化且可證明正确。

很難説一個在這次基準測試中能夠達到 80% 的 LLM 對數學家來説沒有用處。

對此，你怎麼看？

論文：

https://arxiv.org/html/2411.04872v1

參考鏈接：

[ 1 ] https://x.com/EpochAIResearch/status/1854993676524831046

[ 2 ] https://x.com/karpathy/status/1855659091877937385?s=46

[ 3 ] https://news.ycombinator.com/item?id=42094546