Claude3.5兩小時暴虐50多名專家，編程10倍速飙升！但8小時曝出驚人短板

今天小編分享的科技經驗：Claude3.5兩小時暴虐50多名專家，編程10倍速飙升！但8小時曝出驚人短板，歡迎閲讀。

AI 智能體離自主研發，還有多遠？

Nature 期刊的一篇研究曾證明了，GPT-4 能自主設計并開展化學實驗，還能閲讀文檔學習如何使用實驗室設備。

另有 Transformer 作者之一研發的「世界首個 AI 科學家」，一口氣肝出 10 篇論文，完全不用人類插手。

如今，AI 在研發領網域的入侵速度，遠超人類預期。

來自非營利組織 METR 的最新研究稱：

同時給定 2 個小時，Claude 3.5 Sonnet 和 o1-preview 在 7 項具有挑戰性研究工程中，擊敗了 50 多名人類專家。

論文地址：https://metr.org/AI_R_D_Evaluation_Report.pdf

令人印象深刻的是，AI 編程速度能以超越人類 10 倍速度生成并測試各種方案。

在一個需要編寫自定義内核以優化前綴和運算的任務中，o1-preview 不僅完成了任務，還創造了驚人的成績：将運行時間壓縮到 0.64 毫秒，甚至超越了最優秀的人類專家解決方案（0.67 毫秒）。

不過，當比賽時間延長至 8 小時，人類卻展現出了明顯的優勢。

由下可以看出，随着時間逐漸拉長，Claude 3.5 Sonnet 和 o1-preview 的性能提升逐漸趨于平緩。

有趣的是，為了獲得更高的分數，AI 智能體居然會違反規則「作弊」。

原本針對一個任務，智能體應該減少訓練腳本運行時間，o1-preview 直接復制了輸出的代碼。

頂級預測者看到這一結果驚嘆道，基于這個進步速度，AI 達到高水平人類能力的時間可能會比之前預計的更短。

RE-Bench 設計架構，遍歷七大任務

為了能夠快速迭代，并以合理的成本收集數據，研究人員設定了運行限制：人類專家的評估不超過 8 小時，且所有環境都只能使用 8 個或更少的 H100 GPU 運行。

在環境設計時，主要考慮最大化覆蓋前沿 AI 難題，同時确保人類專家與智能體能夠持續推進任務，不會遇到研究瓶頸或得分上限。

RE-Bench 包含了七個精心設計的評估環境，其中每個環境都提出了一個獨特的機器學習優化問題，要取得高分需要大量的實驗、實現和高效使用計算資源。

每個評估環境包括三部分：

1、評分函數（scoring function），定義了環境的目标，智能體可以随時運行該函數。每次運行評分函數時，都會在得分日志中添加一個帶時間戳的事項。智能體可以看到得分日志，并檢查評分函數的細節，有助于理解研究目标。

2、簡單但性能不佳的初始解決方案（starting solution），提供給智能體，以展示有效的解決方案是什麼樣子，有助于説明環境設定，可以讓智能體更快地開始研究問題中更具挑戰性的部分。比如説，在「優化核函數」環境中，智能體的輸入為一個簡單但運行緩慢的 Python 解決方案。

3、由任務作者創建的參考解決方案（reference solution），得分很高。但該解決方案不會提供給智能體，只用于歸一化得分（normalize score），作為一個優秀解決方案的示例。下式中 ys 為初始方案得分，yr 為參考方案得分，y 為模型得分，yn 為歸一化分數。

除了「Scaling Law Experiment」采用最終分數進行評估外，其他實驗都使用得分日志中的最高分。

8 小時極限，人類專家吊打 AI

研究人員使用開源的 Vivaria 平台來設定安全的虛拟機，配備 20-48 個虛拟 CPU、200-400 GB 的 RAM，以及 0 到 6 個 H100 GPU，對比模型選擇了 claude-3-5-sonnet-20241022 以及 o1-preview，框架選擇為 METR 和 AIDE

時間限制下的性能

在相同時間下，可以看到，o1-preview 和 Claude 3.5 Sonnet 在最初階段進展迅速，但在幾個小時後速度減慢；而人類專家起步較慢，但随後迅速取得進展。

采樣限制下的性能

除了長時間運行外，研究人員還評估了模型是否能在更短的時間限制下取得更好的性能：對每個環境進行 k 次采樣，并選擇所有 k 次運行中取得的最高分數。

結果發現，模塊化框架中的智能體在 30 分鍾嘗試中表現得更好，而 AIDE 框架中的智能體則在 2 小時嘗試中表現最佳。

還可以發現，在 AIDE 框架中的 o1-preview 和在模塊化框架中的 Claude 3.5 Sonnet 總體上取得了最高的分數，分别達到了人類專家的第 36 和第 37 百分位。

随着樣本數量的增加，最佳 -k 次分數（score@k）也會發生變化：Claude 3.5 Sonnet 在 30 分鍾時，樣本數量增加，性能也穩步提高，但即使在 k=128 個樣本下，智能體的表現也遠遠落後于頂尖人類的表現。

總體而言，人類起步較慢，但改進軌迹更陡峭，即進步更快，并且在 32 小時的時間預算内達到了比任何智能體都更高的分數。

按環境評估

研究人員對比了兩個智能體（模塊化框架中的 Claude 3.5 Sonnet 和 AIDE 框架中的 o1-preview）在 32 小時内的最高性能分配與人類結果（四次 8 小時運行中的最佳表現）以匹配智能體的時間預算。

結果發現不同智能體在不同環境中的表現存在顯著差異：Claude 3.5 Sonnet 智能體在「微調 GPT-2 進行問答」和「擴展法則實驗」環境中接近人類的表現，而 o1-preview 在這些環境中表現不佳；o1-preview 在「優化核函數」環境中的表現超過了人類。

人類 -AI 差距之間定性分析

為了更好地了解人類專家在哪些條件下，比 AI 智能體做得更好或更差的原因，研究人員對智能體成績和解決方案進行了定性分析。

AI 智能體：知識儲備大，嘗試頻率 37 次 /h

雖然 AI 智能體通常無法找到與頂級人類專家相匹配的解決方案，但它們也取得了一些顯著的成功。

比如，在 AIDE 加持下，Claude 3.5 Sonnet（新版）和 o1-preview 都能找到「優化内核」的解決方案，運行速度約為參考解決方案的 2 倍。

如下圖所示，其中，o1-preview 的解決方案甚至超過了 9 位人類專家。

這些都是復雜且新穎的算法，能有效繞過 GPU 通信限制，并使用一種缺少良好公開文檔的低資源編程語言（Triton）。

這個令人驚訝的結果可能部分歸因于，AI 智能體和許多人類專家之間的專業知識差距，因為大多數人類專家并不具備編程 GPU 内核的專門知識。

這種情況在多個環境中都有體現：一些不太熟悉該領網域的人類專家需要花費大量時間學習或復現标準方法（有時甚至完全失敗），而 AI 智能體憑借其廣泛的知識基礎往往能輕松完成。

AI 智能體成功的另一個關鍵因素可能是，它們能比人類專家嘗試更多的解決方案。

平均而言，AIDE 和模塊化智能體每小時分别運行 36.8 次和 25.3 次，而人類專家僅為 3.4 次。

這通常導致智能體找到高度優化的「局部最優」解決方案，僅通過調整初始解決方案的參數和代碼，就能實現顯著的改進。

例如，許多智能體在解決「優化内核」環境時，并非通過編寫成功的 Triton 解決方案（這很困難），而是通過仔細調整初始的 Pytorch 解決方案，使其運行速度顯著提高。

也就是説，它們能夠有效優化現有解決方案。

如下，是「微調 GPT-2 用于問答」最佳智能體解決方案中，Claude 3.5 Sonnet 調整了初始解決方案的參數，并在訓練軌迹和評估中獲得了準确結果。

不過，這一高分有可能是對噪聲過度拟合的結果。

總而言之，AI 智能體的成功在于能夠進行大量參數微調和代碼優化，偶爾還會提出創造性有效的解決方案，尤其是在評估成本低的環境在非常有效。

失敗因素

但在大多數環境中，智能體仍然沒有達到強大的人類專家的水平。

造成這種情況的原因之一是，AI 智能體提出的解決方案缺乏多樣性。

例如，在「受限架構 MLM」任務中，智能體在 84% 的情況下，都在嘗試使用稍作修改的 Transformer 架構。即使在不能使用除法和指數運算的情況下，仍固守這種方案。

另一個局限性是，持續性的指令理解錯誤，特别是在「受限架構 MLM」和「優化 LLM Foundry」任務中。

在某些情況下，這些對環境的誤讀可能導致智能體找到令人印象深刻且意想不到的漏洞，這些漏洞在自動評估中得分很高，但在人工檢查時明顯違反了環境規則。

縮小差距

基于以上的觀察，研究人員認為 AI 智能體在以下特征的環境中，會比人類表現更好：

- 短期且高保真循環反饋，可以讓 AI 智能體充分發揮嘗試多個解決方案的優勢

- 工程復雜度低，使得 AI 智能體通過幾個步驟就解決問題

- 需要專業知識的任務，AI 智能體比人類專家具備更全的知識

- 環境中有顯著的噪聲，這種情況下 AI 智能體可以進行大量嘗試的優勢會超過人類專家較少的嘗試次數。

- 不易出現意外情況，不需要太多的探索和發現

Re-Bench 局限性

評估環境的代表性不足

為了創建符合設計标準的高可靠性評估，研究人員需要努力确保指令和評分容易理解，8 小時内可以取得顯著進展，并且提供所有必要的資源，還必須選擇易于構建和評估的環境。

這些限制使得評估環境不太能代表真實的研究，常見問題包括不明确的目标、糟糕的指令、慢反饋和無法解決的問題。

結果噪聲

由于環境數量較少，且智能體得分嚴重向右傾斜，大多數運行得分為 0，只有少數得分非常高，所以結果評估對抽樣噪聲很敏感。

評估的成本和復雜性

使用 H100 GPU 運行智能體數小時需要相應的基礎設施和大量預算，對于普通研究人員來説壓力很大，運行大規模實驗來對比多個模型、框架和參數也更具挑戰性。

缺乏框架迭代

選擇不同的智能體框架或提示，有可能導致模型在相近的時間内，在基準測試上取得更好的成績。

研究人員的預期是，通過為智能體提供管理 GPU 資源的工具，或是通過并行探索解決方案來利用更多的 token 等來實現更好的性能。

覆蓋前沿研究的局限性

由于硬體訪問有限，并且前沿 AI 研究也大多是閉源的，評估所涵蓋的研究類型與推動前沿 AI 進步的研究類型之間可能存在差異。

方案可能過度拟合

除了「擴展法則實驗」之外，所有環境都向智能體提供了測試分數輸出，以最小化誤解或混淆的風險；在未來的迭代中，研究人員考慮只在大多數環境中向智能體提供驗證分數，把測試分數隐藏起來。

「擴展法則實驗」得分存在運氣成分

雖然良好的實驗可以幫助人類專家在環境中做出明智的預測，但智能體還是主要依賴猜測，更多是運氣而不是技巧的問題。