大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

Nature发文「智能体摩尔定律」,Agent能力每7个月翻倍,5年后能顶人类苦干一个月的工作

2025-03-22 简体 HK SG TW

今天小编分享的科学经验:Nature发文「智能体摩尔定律」,Agent能力每7个月翻倍,5年后能顶人类苦干一个月的工作,欢迎阅读。

AI Agents(智能体)也有自己的 " 摩尔定律 " 了?!

就在最近,Nature 报道了一项来自非营利研究机构 METR 的最新发现:

AI 在完成长期任务方面的进步速度惊人,其时间跨度大约每七个月翻一番。

为了衡量 Agent 自动完成任务的能力变化,研究人员提出了 "50%- 任务完成时间跨度(50%-task-completion time horizon)" 这一指标。

他们以 50% 任务成功率为基准,假设 2019 年 AI 达到这一目标所需时间对应人类需要的时间为 10 分钟,那么 7 个月后,其对应的人类完成任务时间则变成了 20 分钟。

换句话说,AI 能够胜任越来越多人工耗时久的任务,能力逐渐更强。

2024 年这一增长速度变得更快了,一些最新模型大约每三个月翻一番。

按照预测,大约五年后,AI 就能自动完成很多人类现在要花一个月才能完成的任务。

网友们纷纷表示,这下终于对 AI 进步神速有实感了!

提出 "50%- 任务完成时间跨度 " 指标

在 METR 的介绍中,他们将这一发现命名为 "Moore ’ s Law for AI agents",也就是 " 智能体摩尔定律 "。

下面我们详细展开其研究方法。

整体而言,他们主要是让 AI 和一些专业人员在相似条件下尝试完成任务,然后测量人类所需要的时间,最终来比较 AI 成功率如何随着人类完成时间的长短而变化。

这第一步,研究团队选择了三个不同的任务套件来评估 AI 模型的能力:

97 个 HCAST 任务,涵盖軟體工程、机器学习、网络安全和一般推理挑战的多样化任务集合,难度从几分钟到 30 小时;

7 个 RE-Bench 任务,由七个开放式的机器学习研究工程环境组成,每个需人类专家约 8 小时完成;

66 个 SWAA 任务,代表軟體开发过程中的单个步骤操作,时长 1 秒到 30 秒。

接下来,为了量化评估 AI 模型的表现,团队招募了800 多名軟體工程、机器学习和网络安全领網域的专业人员执行任务,并记录他们完成任务所需的时间。

据 METR 介绍,在这些任务中,人类完成时间从 1 秒到 16 小时不等。

这些时间被当作衡量任务难度的标准。

然后他们又评估了从 2019 年到 2025 年发布的13 个前沿 AI 模型,包括 GPT 系列和 o1、Sonnet 3.7 等,通过在构建的任务套件上运行这些模型,并记录它们完成任务的成功率。

关键来了,随后他们引入了一个新的指标——50% 任务完成时间跨度(50%-task-completion time horizon),即 AI 模型在 50% 的成功率下能够完成的任务的平均时间长度。

之所以选择 50% 这一成功率,主要是它对于数据分布的微小变化最为稳健。

简单说,当数据的分布(即数据的特征、比例或趋势等)发生一些小的变化时,这个指标不会受到太大的影响,仍然能够保持相对稳定的表现。

论文作者之一 Lawrence Chan 表示:

如果你选择非常低或非常高的阈值,那么分别移除或增加一个成功或失败的任务,就会对你的估计值产生很大的影响。

利用这一指标,团队通过对 AI 模型在各个任务上的成功与失败数据进行逻辑回归分析,计算出每个模型的时间跨度,也就是模型完成任务成功率达到 50% 之时,对应的人类完成任务的时间。

(每个模型在每个任务上运行 8 次,记录成功率)

有了这些数据,团队最终绘制了模型自主性随时间呈指数变化的图表。

发现 "AI 智能体摩尔定律 "

如上图所示,研究的主要发现是:

自 2019 年以来,AI 模型的时间跨度呈现出指数级增长,每七个月左右翻一番。

为了验证研究结果的外部有效性,他们又进行了以下四个实验:

1、用 2023-2025 年数据回溯预测,验证趋势一致性;

2、对 HCAST 和 RE-Bench 任务基于 16 个 " 混乱 " 因素评级,分析任务混乱程度对模型性能的影响;

3、在其他 SWE-bench Verified 数据集上应用相同方法,对比结果;

4、在内部 Pull Requests(PR)任务上测试模型性能,与人类基线对比。

最终,这一趋势得到了以上外部验证。

比如在第 2 个实验中,所谓的 16 个 " 混乱(messy)" 因素是指现实任务比研究任务更难的方面,包括任务是否受到有限资源的限制、是否涉及实时协调或是否源自现实世界的环境。

每个任务都根据这些因素得到了一个 " 混乱度(messiness score)" 分数。

研究人员发现,尽管 AI 模型在更加混乱的任务上(比如缺乏明确提示和反馈、需要 AI 主动去获取信息、任务条件和要求比较模糊等情况)的绝对性能较低,但另一方面其性能在稳步提升。

更有意思的是,不管任务的 " 混乱 " 程度如何,AI 都是以相似的速度在提升。

再比如在 SWE-bench Verified 基准上的验证,他们也观察到了一个类似的指数级增长趋势。

不过由于标注时间的问题,该基准测试的时间跨度翻倍时间更短。

总之,按照 " 智能体摩尔定律 " 进行预测,AI 可能在 2028 年 11 月达到一个月的任务时间跨度;而在较为保守的估计下,这一目标可能在 2031 年 2 月实现。

METR 团队认为,虽然研究还存在任务套件具有局限性、评估指标不完美、未来 AI 发展具有不确定性等需要完善的地方,但很确信这一指标每年有 1~4 倍的增长趋势。

而结合现实中 Manus 智能体的走红,我们已经能够预见到智能体将迎来爆发。

论文:

https://arxiv.org/pdf/2503.14499

参考链接:

[ 1 ] https://www.nature.com/articles/d41586-025-00831-8

[ 2 ] https://x.com/METR_Evals/status/1902384481111322929

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

最后一周!2025 年值得关注的 AIGC 企业产品 报名即将截止

下一个 AI" 国产之光 " 将会是谁?欢迎申报奖项!

本次评选结果将于 4 月 16 日中国 AIGC 产业峰会上公布。

一键星标

科技前沿进展每日见

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們