大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

Nature發文「智能體摩爾定律」,Agent能力每7個月翻倍,5年後能頂人類苦幹一個月的工作

2025-03-22 简体 HK SG TW

今天小編分享的科學經驗:Nature發文「智能體摩爾定律」,Agent能力每7個月翻倍,5年後能頂人類苦幹一個月的工作,歡迎閱讀。

AI Agents(智能體)也有自己的 " 摩爾定律 " 了?!

就在最近,Nature 報道了一項來自非營利研究機構 METR 的最新發現:

AI 在完成長期任務方面的進步速度驚人,其時間跨度大約每七個月翻一番。

為了衡量 Agent 自動完成任務的能力變化,研究人員提出了 "50%- 任務完成時間跨度(50%-task-completion time horizon)" 這一指标。

他們以 50% 任務成功率為基準,假設 2019 年 AI 達到這一目标所需時間對應人類需要的時間為 10 分鍾,那麼 7 個月後,其對應的人類完成任務時間則變成了 20 分鍾。

換句話說,AI 能夠勝任越來越多人工耗時久的任務,能力逐漸更強。

2024 年這一增長速度變得更快了,一些最新模型大約每三個月翻一番。

按照預測,大約五年後,AI 就能自動完成很多人類現在要花一個月才能完成的任務。

網友們紛紛表示,這下終于對 AI 進步神速有實感了!

提出 "50%- 任務完成時間跨度 " 指标

在 METR 的介紹中,他們将這一發現命名為 "Moore ’ s Law for AI agents",也就是 " 智能體摩爾定律 "。

下面我們詳細展開其研究方法。

整體而言,他們主要是讓 AI 和一些專業人員在相似條件下嘗試完成任務,然後測量人類所需要的時間,最終來比較 AI 成功率如何随着人類完成時間的長短而變化。

這第一步,研究團隊選擇了三個不同的任務套件來評估 AI 模型的能力:

97 個 HCAST 任務,涵蓋軟體工程、機器學習、網絡安全和一般推理挑戰的多樣化任務集合,難度從幾分鍾到 30 小時;

7 個 RE-Bench 任務,由七個開放式的機器學習研究工程環境組成,每個需人類專家約 8 小時完成;

66 個 SWAA 任務,代表軟體開發過程中的單個步驟操作,時長 1 秒到 30 秒。

接下來,為了量化評估 AI 模型的表現,團隊招募了800 多名軟體工程、機器學習和網絡安全領網域的專業人員執行任務,并記錄他們完成任務所需的時間。

據 METR 介紹,在這些任務中,人類完成時間從 1 秒到 16 小時不等。

這些時間被當作衡量任務難度的标準。

然後他們又評估了從 2019 年到 2025 年發布的13 個前沿 AI 模型,包括 GPT 系列和 o1、Sonnet 3.7 等,通過在構建的任務套件上運行這些模型,并記錄它們完成任務的成功率。

關鍵來了,随後他們引入了一個新的指标——50% 任務完成時間跨度(50%-task-completion time horizon),即 AI 模型在 50% 的成功率下能夠完成的任務的平均時間長度。

之所以選擇 50% 這一成功率,主要是它對于數據分布的微小變化最為穩健。

簡單說,當數據的分布(即數據的特征、比例或趨勢等)發生一些小的變化時,這個指标不會受到太大的影響,仍然能夠保持相對穩定的表現。

論文作者之一 Lawrence Chan 表示:

如果你選擇非常低或非常高的阈值,那麼分别移除或增加一個成功或失敗的任務,就會對你的估計值產生很大的影響。

利用這一指标,團隊通過對 AI 模型在各個任務上的成功與失敗數據進行邏輯回歸分析,計算出每個模型的時間跨度,也就是模型完成任務成功率達到 50% 之時,對應的人類完成任務的時間。

(每個模型在每個任務上運行 8 次,記錄成功率)

有了這些數據,團隊最終繪制了模型自主性随時間呈指數變化的圖表。

發現 "AI 智能體摩爾定律 "

如上圖所示,研究的主要發現是:

自 2019 年以來,AI 模型的時間跨度呈現出指數級增長,每七個月左右翻一番。

為了驗證研究結果的外部有效性,他們又進行了以下四個實驗:

1、用 2023-2025 年數據回溯預測,驗證趨勢一致性;

2、對 HCAST 和 RE-Bench 任務基于 16 個 " 混亂 " 因素評級,分析任務混亂程度對模型性能的影響;

3、在其他 SWE-bench Verified 數據集上應用相同方法,對比結果;

4、在内部 Pull Requests(PR)任務上測試模型性能,與人類基線對比。

最終,這一趨勢得到了以上外部驗證。

比如在第 2 個實驗中,所謂的 16 個 " 混亂(messy)" 因素是指現實任務比研究任務更難的方面,包括任務是否受到有限資源的限制、是否涉及實時協調或是否源自現實世界的環境。

每個任務都根據這些因素得到了一個 " 混亂度(messiness score)" 分數。

研究人員發現,盡管 AI 模型在更加混亂的任務上(比如缺乏明确提示和反饋、需要 AI 主動去獲取信息、任務條件和要求比較模糊等情況)的絕對性能較低,但另一方面其性能在穩步提升。

更有意思的是,不管任務的 " 混亂 " 程度如何,AI 都是以相似的速度在提升。

再比如在 SWE-bench Verified 基準上的驗證,他們也觀察到了一個類似的指數級增長趨勢。

不過由于标注時間的問題,該基準測試的時間跨度翻倍時間更短。

總之,按照 " 智能體摩爾定律 " 進行預測,AI 可能在 2028 年 11 月達到一個月的任務時間跨度;而在較為保守的估計下,這一目标可能在 2031 年 2 月實現。

METR 團隊認為,雖然研究還存在任務套件具有局限性、評估指标不完美、未來 AI 發展具有不确定性等需要完善的地方,但很确信這一指标每年有 1~4 倍的增長趨勢。

而結合現實中 Manus 智能體的走紅,我們已經能夠預見到智能體将迎來爆發。

論文:

https://arxiv.org/pdf/2503.14499

參考鏈接:

[ 1 ] https://www.nature.com/articles/d41586-025-00831-8

[ 2 ] https://x.com/METR_Evals/status/1902384481111322929

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

—  完  —

最後一周!2025 年值得關注的 AIGC 企業產品 報名即将截止

下一個 AI" 國產之光 " 将會是誰?歡迎申報獎項!

本次評選結果将于 4 月 16 日中國 AIGC 產業峰會上公布。

一鍵星标

科技前沿進展每日見

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們