今天小編分享的互聯網經驗:OpenAI宣布推出AI Agent評測基準PaperBench,歡迎閱讀。
當地時間 4 月 2 日,美國開放人工智能研究中心(OpenAI)宣布推出 PaperBench ——一個評估 AI 智能體復現前沿 AI 研究能力的基準。智能體需從零開始復現 20 篇 ICML 2024 Spotlight 和 Oral 論文,包括理解論文貢獻、開發代碼庫并成功執行實驗。據介紹,在 PaperBench 上測試多個前沿模型後發現,表現最佳的智能體 Claude 3.5 Sonnet(新版)結合開源框架,平均復現得分為 21.0%。最終其招募頂尖機器學習博士嘗試部分測試集,發現上述模型表現尚未超越人類基線。(界面)