大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

o1/Claude集體翻車!陶哲軒等60+頂尖數學家合力提出新數學基準,大模型正确率通通不足2%

2024-11-12 简体 HK SG TW

今天小編分享的科學經驗:o1/Claude集體翻車!陶哲軒等60+頂尖數學家合力提出新數學基準,大模型正确率通通不足2%,歡迎閲讀。

讓大模型集體吃癟,數學題正确率通通不到 2%!

獲大神卡帕西力薦,大模型新數學基準來勢洶洶——

一出手,曾在國際數學奧賽中拿下 83% 解題率的o1 模型就敗下陣來,并且 Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro 等全都未攻破 2% 這一防線。

所以,新挑戰者到底啥來頭??

一打聽,這個新數學基準名為FrontierMath,由Epoch AI這家非營利研究機構号召陶哲軒在内的 60 多位頂尖數學家提出。

這群人這次鐵了心要給 AI 上難度,直接原創了數百道極具挑戰性的數學問題——

從數論中計算密集型問題到代數幾何和範疇論中的抽象問題,涵蓋了現代數學的大多數主要分支。

這些題有多難呢?按數學大佬陶哲軒對這項研究的評價説:

大模型們,至少需要再戰個幾年吧。

同時,卡帕西也表示非常喜歡這一新基準,甚至樂于見到大模型們 " 吃癟 ":

之所以引入這個基準,是因為大模型越來越多地碾壓現有的數學基準

FrontierMath:評估 AI 高級數學推理能力的新基準

今年以來,大語言模型(LLM)開始在各種數學 benchmark 上瘋狂刷分,而且正确率動辄 90% 以上。

宣傳看多了,人也麻了,于是紛紛反思——

一定是現在的基準測試 " 被污染了 "(比如讓 AI 在訓練階段提前學習基準測試中的問題)。

對此,非營利研究機構 Epoch AI 看不下去了,于是直接聯合 60 多位頂尖數學家(共獲得了 14 枚 IMO 金牌)推出 FrontierMath。

這一新基準擁有數百道大模型們之前沒見過的數學題,而且難度頗高。

通常需要專業數學家花費數小時甚至數天的努力

一番實踐檢驗下,果不其然,一眾頂尖大模型紛紛折戟(包括 Claude 3.5 Sonnet、GPT-4o 和 Gemini 1.5 Pro 等),解題率均不足 2%。

而且即使有延長的思考時間(10,000 個 token)、Python 訪問權限以及運行實驗的能力,相關成功率仍然低于 2%。

下面,我們具體介紹下 FrontierMath。這第一關主要解決數學題的原創性。

這群數學家們被要求按照3 個關鍵原則設計題目:

所有問題都是新的且未發表的,以防止數據污染;

解決方案是自動可驗證的,從而實現高效的評估;

問題是 " 防猜測 " 的,在沒有正确推理的情況下解決的可能性很低;

除了出新題,為了防止數據污染,機構還采取了其他措施。

比如為了最大限度地降低問題和解決方案在網上傳播的風險,機構鼓勵所有提交都通過安全、加密的渠道進行。

具體來説,機構采用加密通信平台與投稿人協調,并要求對在線存儲的任何書面材料進行加密(如加密文檔)。

同時,機構依賴于核心數學家團隊專家評審這一原創驗證性方法,以識别自動化系統可能錯過的潛在相似性(專家比機器更熟悉這些研究細節)。

當然也不完全依靠人力,為了進一步保證原創性,機構還通過抄襲檢測工具 Quetext 和 Copyscape 對問題進行測試。

最終,數學家們提出了數百道原創題目,涵蓋了現代數學的大多數主要分支,從數論中計算密集型問題到代數幾何和範疇論中的抽象問題。

其中數論和組合學最多,合計約占所有 MSC2020(數學學科分類系統 2020 版本)的 34%。

接下來,為了評估大模型在 FrontierMath 問題上的表現,研究開發了一個框架。

簡單説,這一框架具體執行任務的過程如下:

分析問題:模型首先分析給定的數學問題;

提出策略:模型提出可能的解決方案策略;

實施并執行代碼:将這些策略轉化為可執行的 Python 代碼并自動執行;

接收反饋:從代碼執行的結果中接收反饋,包括輸出和錯誤消息;

改進方法:根據實驗結果,模型會驗證中間結果,測試猜想,并可能改進其推理過程以修正潛在的錯誤;

該框架支持兩種提交方式:一種是模型可以直接給出問題的最終答案;另一種是,在提交最終答案之前,模型可以先通過代碼執行進行實驗,以驗證其解決方案的有效性。

不過需要提醒,在提交最終答案時,模型必須遵循一些标準化格式。

比如,在答案中需包含#This is the final answer這一标記注釋,且将結果保存在 Python 的 pickle 模塊中,同時需确保提交的代碼必須是自包含的,不依賴于先前的計算。

總之,這一評估過程将持續進行,直到模型提交了正确格式化的最終答案,或者達到了預設的标記限制(研究設定為 10,000 個 token)。

如果模型在達到标記限制之前沒有提交最終答案,它将收到一個最終提示,要求立即提交最終答案;

如果在收到該提示後模型仍然無法提供正确格式化的最終答案,則該嘗試被标記為不正确。

陶哲軒看了都説難

為了進一步驗證 FrontierMath 的難度,該機構還特意采訪了 4 位數學大佬。

包括菲爾茲獎得主陶哲軒 ( 2006 ) 、蒂莫西 · 高爾斯 ( 1998 ) 、理查德 · 博赫茲 ( 1998 ) ,以及國際數學奧林匹克競賽 ( IMO ) 教練陳誼廷 ( Evan Chen ) 在内,他們一致認為這些題非常具有挑戰性。

下一步 Epoch AI 也計劃從四個方面持續推進:

定期評估這些領先的大模型,并觀察高級數學推理能力随時間推移和規模擴大而提高的情況;

保持難度的同時,向 FrontierMath 添加更多問題;

在未來幾個月内發布更多代表性問題,供大家研究讨論;

擴大專家審查、增加錯誤數量和改進同行評審流程來加強質量控制;

這也合了卡帕西的心意,他認為這樣的新基準應該更多,尤其是為那些看似 " 容易 " 的事情創建評估。

之所以引入這個基準,是因為大模型越來越多地碾壓現有的數學基準。有趣的問題是,盡管從許多方面(/evals)來看,大模型正逐步跻身頂級專家行列(如數學和編碼等),但你不會雇用他們而不是讓他們從事最瑣碎的工作。

如果你把問題描述整齊地放在盤子裏,他們就能解決復雜的封閉式問題,但他們很難連貫地把長長的、自主的、解決問題的序列串聯起來,而人卻會覺得非常容易。

這是莫拉維克悖論的變相,他在 30 多年前就觀察到,對人類來説容易 / 困難的事情,與對計算機來説容易 / 困難的事情,在非直覺上可能大相徑庭。

例如,人類對計算機下國際象棋印象深刻,但國際象棋對計算機來説卻很容易,因為它是一個封閉的、确定性的系統,具有離散的行動空間、完全的可觀測性等等。

反之亦然,人類可以系好鞋帶或疊好襯衫,而且根本不需要考慮太多,但這是一項極其復雜的傳感運動任務,對硬體和軟體的技術水平都是挑戰。

這就像不久前 OpenAI 發布的魔術方塊一樣,大多數人都把注意力集中在解魔術方塊本身(這是微不足道的),而不是用機器人的手轉動魔術方塊的一個面這一實際難度極高的任務。

因此,我非常喜歡這個 FrontierMath 基準,我們應該制作更多的基準。但我也認為,如何為所有 " 容易 " 但其實很難的東西創建評估是一個有趣的挑戰。

很長的語境視窗、連貫性、自主性、常識、有效的多模态輸入 / 輸出…… 我們如何建立良好的 " 初級工作 " 評估?就像你對團隊中任何初級實習生的期望。

網友也表示,能在這種基準測試中取得高分的大模型将大有裨益。

陶哲軒夢想的就是這樣的東西,可以連接到 LEAN(微軟研究院推出的一款定理證明器),讓數學家成為編輯、顧問,偶爾處理一些真正困難的部分,而其餘部分則自動化且可證明正确。

很難説一個在這次基準測試中能夠達到 80% 的 LLM 對數學家來説沒有用處。

對此,你怎麼看?

論文:

https://arxiv.org/html/2411.04872v1

參考鏈接:

[ 1 ] https://x.com/EpochAIResearch/status/1854993676524831046

[ 2 ] https://x.com/karpathy/status/1855659091877937385?s=46

[ 3 ] https://news.ycombinator.com/item?id=42094546

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們