限定120分鍾科研挑戰，o1和Claude表現超越人類 - 大酷樂

今天小編分享的科學經驗：限定120分鍾科研挑戰，o1和Claude表現超越人類，歡迎閲讀。

2 小時内，Claude 和 o1 就能超過人類專家平均科研水平。

甚至 AI 還會偷摸兒 " 作弊 "（doge）。事情是這樣的——

人類 VS AI科研能力大比拼，也有新的評估基準了。

代号 "RE-Bench"，由非營利研究機構 METR 推出，目的是搞清：當前 AI 智能體在自動化科研方面有多接近人類專家水平。

注意看，一聲令下之後，AI 和 50 多位人類專家開始暗自較勁：

前 2 小時，基于 Claude 3.5 Sonnet 和 o1-preview 構建的 Agent（智能體）表現遠超人類。

但拐點過後，AI 能力增速（在 8 小時内）卻始終追不上人類。

時間拉得更長（至 32 小時）之後，研究得出結論，目前 AI 智能體更适合并行處理大量獨立短實驗。

看完上述結果，知名預測師 Eli Lifland 認為這" 顯著縮短 "了他關于 AGI 的時間表（連續兩年将 2027 年作為中位數），由此也在 Reddit 引起熱議。

上也有人表示，AI 自動搞科研可能對推動爆炸性經濟增長至關重要。

甚至有人腦洞大開，開始美滋滋暢想躺着賺錢的生活 ( doge ) ：

以後 AI 智能體來做科研，然後雇一群人類寫代碼……

AI 更适合大量并行短時間任務，長期科研還得靠人類

在 RE-Bench 上，研究對比了基于大語言模型構建的 Agent（目前主要公布了 Claude 3.5 Sonnet、o1-preview）和 50+ 人類專家的科研能力。

值得注意的是，這些專家都有強大機器學習背景，其中很多人在頂級行業實驗室或機器學習博士項目中工作。

一番 PK 後，研究得出了以下主要結論：

2 小時内，Claude 和 o1 表現遠超人類專家。但随着時間增加，人類專家的能力提升更顯著；

在提交新解決方案的速度上，AI 是人類專家的十倍以上，且偶爾能找到非常成功的解決方案；

在編寫高效 GPU 内核方面，AI 表現超越所有人類；

AI 的運行成本遠低于人類專家；

……

總之一句話，不僅 AI 和人類各有所長，且不同 AI 都有自己最佳的科研節奏。

人類更适應更復雜、更長時間的科研，AI 更适應大量并行短任務。

回到研究起點，METR 之所以提出 RE-Bench 主要是發現：雖然很多政府和公司都在強調，AI 智能體能否自動研發是一項關鍵能力。但問題是：

現有的評估往往側重于短期、狹窄的任務，并且缺乏與人類專家的直接比較。

因此，RE-Bench 想做的事兒，就是全面評估 AI 科研所需的技能。本次研究一共提出了7 項：

高效編程：特别是在優化算法和内核函數（如 GPU 内核）方面；

機器學習理論與實踐：熟悉機器學習模型的訓練、調優和評估，包括神經網絡架構、超參數選擇和性能優化；

數據處理與分析；

創新思維：能夠在面對復雜問題時提出新的方法和策略，以及跨領網域思考；

技術設計：能夠設計和實現復雜的系統和解決方案，包括軟體架構和研究流程；

問題解決；

自動化與工具開發：能夠開發和使用自動化工具來加速研究流程；

這些任務被設計在≤ 8 小時内，以便人類專家可以使用合理的計算資源完成，從而實現人類與 AI 的直接比較。

而且主辦方特意提醒，要想獲得高分，就必須最大化利用計算資源來完成這些復雜任務。

通常來説，RE-Bench 的運行機制如下：

首先，7 項任務都是一個獨立的評估環境，各自都有一個清晰的目标，比如優化一個 GPU 内核或者調整一個機器學習模型的超參數。

為了确保任務的可比性，每個環境都提供了一個參考解決方案，這個解決方案是有效的，但效率較低，為 Agent 和人類專家提供了一個基準點。

AI 和人類專家都可以訪問這些環境，并且都有權限使用所需的計算資源，如 GPU。

然後，AI 通過自然語言處理和編程能力來執行任務，而人類專家則通過編碼和實驗來完成任務。

執行結束後，每個環境都有一個評分函數，用于衡量 Agent 或人類專家提交的解決方案的效果。

當然，評分函數會根據解決方案的性能給出一個數值得分，這個得分随後會被歸一化，以便于在不同環境之間進行比較。

需要注意，過程中還涉及時間預算分配（time budget）。實際情況是，人類專家通常被分配 8 小時來完成任務，而 AI 則根據實驗設計在不同的時間限制下進行評估。

舉個例子，對 AI 來説，8 小時的預算可以用于一次 8 小時的嘗試，也可以抽成 16 次、每次 30 分鍾的嘗試。

最後，由于在任務執行過程中，研究會收集 AI 和人類專家的解決方案日志，以及它們的得分記錄。因此最終将根據這些記錄來評估不同參與者的進步和表現。

實驗結果顯示，在 2 小時内，基于 Claude 3.5 Sonnet 和 o1-preview 構建的智能體表現遠超人類。

更具體來看，如果不取多次運行中的最佳結果（每個單獨繪制 8 小時運行），AI 最初比人類進步更快，但提高分數的速度較慢。

擴大時間線來看，整體上人類專家在較少的長時間嘗試中表現更佳，而 AI 則從大量并行、獨立的短時間嘗試中受益。

令人印象深刻的是，盡管大多數 AI 只能輕微改進參考解決方案，但一個 o1-preview 智能體在優化 Triton 内核運行時間的任務中超越了人類專家的最佳解決方案。

與此同時，評估過程中甚至發現了 AI 存在" 作弊 " 行為。例如，o1-preview 智能體在應該減少訓練腳本運行時間的任務中，編寫了只是復制最終輸出的代碼。

來自非營利研究機構 METR

以上這項新的基準出自 METR，作為一家非營利研究機構，他們主要通過實證測試評估可能對社會造成災難性危害的 AI 系統。

目前，RE-Bench 只包含 7 項任務，基準的劣勢也很明顯：

而且還伴随着一個老生常談的問題：

一旦 7 項任務公開，如何防止基準測試數據污染問題？

對此，METR 特别提出了幾項措施，來避免将這些任務包含在 LLM 訓練數據中，并防止過拟合。

用户應避免發布未受保護的解決方案，以減少過拟合的風險；

用户不應将評估材料提供給可能用于訓練的 API 或服務；

評估材料不應用于訓練或提高前沿模型的能力，除非是為了開發或實施危險能力評估；

更多細節歡迎查閲原論文。

論文：

https://metr.org/AI_R_D_Evaluation_Report.pdf

博客：

https://metr.org/blog/2024-11-22-evaluating-r-d-capabilities-of-llms/

GitHub：

https://github.com/METR/ai-rd-tasks/tree/main

實驗詳細記錄：

https://transcripts.metr.org/

參考鏈接：

[ 1 ] https://twitter.com/METR_Evals/status/1860061711849652378

[ 2 ] https://www.reddit.com/r/singularity/comments/1gxzslg/top_forecaster_significantly_shortens_his/