今天小编分享的科技经验:竞逐AI Agent时代,欢迎阅读。
文 | 连线 Insight,作者 | 王慧莹,编辑 | 子夜
什么是更接近 AGI 的形态,是能用腦子思考的大模型,还是能用行动互动的 Agent?
随着技术不断进步,应用不断落地,人与机器的互动方式正在发生范式转变,这个答案成了两者的结合—— AI Agent。
AI Agent,又被称作是 AI 智能体,即一种能通过对环境的感知,进行思考决策并执行的智能体。与 GPT 等应用相比,AI Agent 在思考与行动方式上和人类很相似,是人工智能机器人的初级形态。
在过去三年中,大模型在自然语言处理、影像生成等领網域展现出惊人能力,但随着参数规模突破千亿级,技术边际效益递减的魔咒开始显现:模型理解能力停留在表层语义,复杂任务执行依赖人工指令拆解,应用落地陷入 " 玩具化 " 困境。
更重要的是,用户对 AI 的期待早已超越简单问答,他们需要一个能主动思考的助手,这种供需错位给了 AI Agent 爆发的机会。AI Agent 就像一个能感知、能理解、能行动的 AI 助手。
尤其是伴随大模型应用元年的到来,技术落地是个备受关注的问题,AI Agent 被很多人看作是这轮 AI 技术落地的最终范式。
去年,市场研究机构 Research and Market 发布的报告中指出,未来五年 AI 智能体的市场规模将增加 420 亿美元。麦肯锡也表示,AI 智能体将是生成式 AI 的下一个前沿。
进入 2025 年,从 OpenAI 的 Operator 到中国 AI 公司蝴蝶效应研发的 Manus,再到大厂和独角兽的竞相加速,一场围绕 AI Agent 的竞逐赛悄然拉开帷幕。
这场竞速赛注定不容易。算力成本的指数级增长、多轮对话中的幻觉误差、场景落地的复杂程度 …… 一如每一场技术风暴来临之时,这些都是行业玩家们面临的共同难题。
就像比尔 · 盖茨曾说的," 谁能主宰 AI Agent,那才是大事。因为你将永远不用去搜索网站或者亚马逊 "。
从实验室走向产业前线,AI Agent 的想象力很大,在技术与现实的博弈之间,精准迅速地落地,给用户一个可靠的 AI 助手,才是这场比赛的赛点。
1、从 Operator 到 Manus,AI Agent 为何令人兴奋?
" 求一个 Manus 邀请码 "。
上周,科技圈对这个名字一定不陌生。一如 ChatGPT 和 DeepSeek 在模型层的爆火,应用层也发生了新的爆点。
这款号称是 " 全球首款通用型 AI Agent 产品 ",由中国 AI 创业公司推出。据团队介绍,Manus 是一个真正自主的 AI Agent,能够解决各类复杂多变的任务。
该产品尚未完全对外开放,内测码一码难求,市场对 Manus 的好奇度已然达到顶峰。这是一种什么魔力?
很重要的一点在于,Manus 展现出了更 " 类人 " 的能力。
图源 Manus 官网
Manus 完全在独立虚拟机中,能够独立思考、规划并执行复杂任务,直接交付完整成果。在接到用户指令后,它可以直接操作电腦完成一系列报告撰写、表格制作等工作,并在最后导出符合用户需求的产品。
在筛选简历时,Manus 会自动解压檔案、上传简历、浏览简历,并记录重要信息,给出自动排名建议,还能根据工作经验等重要维度,将候选人分为不同等级。
换句话说,Manus 展现出了更进一步的自我思考和自我规划能力。与普通大模型不同,Manus 不只是提供想法,还能帮用户把想法变为现实,解决实际问题。
这背后,Manus 的核心竞争力在于其全链路自主执行能力—— Multiple Agent 架构。Manus 通过 " 规划 - 执行 - 验证 " 的多代理协同架构,用户不需要去对话引导,也不需要提供建议,只需要等待 Manus 直接交付完整的任务成果。
一夜之间,Manus 仿佛革了 OpenAI 和 Anthropic 的命。
实际上,市场对 AI Agent 更早的感知,来自于 OpenAI 和 Anthropic。
今年 1 月,OpenAI 推出了首款 AI 智能体 Operator,基于 Computer-Using Agent 模型,Operator 可以根据用户指令,在云端执行任务,如订餐、制定计划、购物等。
一个月后,OpenAI 又推出了面向深度思考领網域的智能体 Deep Research,相比于 Operator AI 助手的定位,Deep Research 像是一个 "AI 研究员 ",它能将原本人类需要 8 小时的任务缩减到 5 分钟,帮助人们在工作中节省几小时甚至几天。
由 OpenAI 前研究副总裁达里奥 · 阿莫迪、大语言模型 GPT-3 论文的第一作者汤姆 · 布朗等人共同创立的企业 Anthropic,布局 AI Agent 的动作更早。去年 10 月,Anthropic 基于 Claude 模型,推出了扩展功能 Computer Use,用户能够像指挥人类一样指导 Claude 操作电腦,包括移动游標、点击按钮和输入文本。
值得注意的是,Manus 的出现让大家纷纷想起了 Devin。这个在去年由 Cognition AI 推出的全球首个 AI 軟體工程师。Devin 也是一个自主 Agent,能自主学习不熟悉的技术,端到端地构建和部署应用程式,自己改 bug,甚至还能训练和微调自己的 AI 模型。
在一个新兴赛道,先发优势固然重要,但大家都在发力时,好用就成为一个新的评判标准。
AI 智能体的工作原理无外乎四个步骤:感知、信息处理、执行、输出。其中,想让 AI 智能体真正化身人类的 AI 助手,效率和准确度都很重要,这也是 Manus 此轮火爆的原因。
据 Manus 官方介绍,Manus 在 GAIA 基准测试中取得突破性成绩,其解决复杂问题的准确率比 Open AI 同类产品高出 12%。
从 Operator,到 Maunus,AI Agent 这把火显然越烧越旺。本质上,AI Agent 之所以让市场如此激动,是因为它让 AI 完成了从被动响应,到主动执行的跃迁。当 AI 开始突破认知层,转向行动层,AI 时代或许才真正到来。
2、大厂、独角兽集体加速,AI Agent 今年是爆发元年?
今年,ChatGPT 掀起的大模型浪潮尚未平息,AI Agent 也迎来爆发元年。
前不久,百度创始人李彦宏提出观点,2025 年可能会成为 AI 智能体爆发的元年。推理大模型涌现出让人惊叹的深度思考能力,这将推动人工智能的一个重要应用方向,即 "AI 智能体 " 的落地。
放眼整个行业,AI Agent 处于风口之上也是共识。市场研究机构 Gartner 将 Agentic AI 列为 2025 年十大技术趋势之一,并预测到 2028 年至少有 15% 的日常工作决策将由 Agentic AI 自主完成。德勤 AI 研究院称,AI 智能体将改变基础业务模式,实现新的工作、运营和价值交付方式。
与 GPT 等对话式 AI 不同,AI Agent 能像人类助手般独立规划任务、调用工具并交付成果。如果说大模型让 AI 长出了 " 腦 ",那 AI Agent 就是让 AI 长出了 " 手和脚 "。
悄然间,AI 领網域的竞争已悄然转向更具想象力的战场—— AI Agent。国内这场竞速赛中,科技大厂和 AI 独角兽依旧是两大主角。
大厂们的思路在于,利用 AI 智能体赋能业务,完善 AI 应用生态,提高业务及自身在 AI 时代的竞争力。
在 AI 领網域强势的百度,动作莫过于最多。尤其是去年以来,百度多次公布 AI 的进展,智能体是反复提到的关键词。百度已将智能体应用到移动生态的各个场景,包括百度新搜索、百度文库、百度电商、文小言等产品。
其中,以文心智能体为代表,目前已经吸引了 15 万家企业和 80 万名开发者参与。据百度透露,文心智能体为百度搜索带来了多轮对话、超级外腦、创意更新、拟人体验和多元推荐等五大新能力。
另一边,阿里近期将 AI 智能体重点放在了 To C 领網域,发布并开源推理模型通义千问 QwQ-32B 没多久,阿里将其融入到通义 APP 中。3 月 10 日,阿里通义 App 全新更新,上线超级智能体。通义 App 以超级智能体作为互動中枢,用户在通义首页能问、能聊,通义超级智能体还能理解图片、生成图片,翻译、写作等复杂功能。
同样聚焦 C 端的还有腾讯。今年 1 月的腾讯 2024 员工大会上,腾讯创始人马化腾表示,腾讯会持续投入资源进行算力的储备,希望各个事业部都能拥抱大模型的产品化落地场景。其中,包括微信、QQ、输入法、浏览器等产品都将推出 AI 智能体,游戏、微信读书、腾讯视频等产品也将基于混元做更多 AI 探索。
相比于 BAT 结合自身深度思考大模型推出智能体,字节跳动的智能体更像是追着 OpenAI 打。早在 Operator 发布前两天,字节跳动豆包大模型团队就已经公布了同类型智能体 UI-TARS,和 Operator 的功能基本差不多。识别过程基于视觉模型和推理实现,能够一步一步自动完成跨应用的复杂操作,并兼容各种系统。
不仅如此,凭借算力、数据等优势,大厂基本都是在模型端、应用端、智能体开发平台协同三个领網域闭环发展。
一站式智能体开发平台方面,字节跳动的扣子、腾讯云的腾讯元器、百度智能云千帆 AgentBuilder、阿里云大模型平台百炼均已上线。
而在 AI 独角兽中,智谱是最早探索 Agent 的初创企业。去年 10 月,推出自主智能体 AutoGLM ;一个月后的 Agent OpenDay 上,智谱展示了 AI Agent 的最新成果,包括 AutoGLM、AutoGLM-Web、GLM-PC 三个版本,对应手机、浏览器、电腦的应用场景。
据悉,新更新的 AutoGLM 能够理解超长指令,执行超长任务,在多步、循环任务中,AutoGLM 的速度表现超过人手动操作。今年 1 月,Agent GLM-PC 1.1 正式版上线,操作速度和任务成功率均有提升。
需要注意的是,经过 2023 年的百模大战,2024 年的应用之争,行业淘汰赛加剧,2025 年对于初创企业而言,落地路线的选择至关重要。
2 月 21 日,阶跃星辰宣布发力智能终端 Agent 方向。阶跃星辰与吉利汽车集团、OPPO、智元机器人等企业深化合作关系,尤其是智能终端 Agent 的开发,同时还展示了在金融财经、内容创作、新零售、数字人等领網域的创新和应用。
去年 5 月,月之暗面的 Kimi 上线了 Kimi+ 智能体商店,旗下有 20 多个由官方提供的智能体。
相较于互联网大厂而言,AI 初创企业布局智能体的思路在于,通过自身模型能力与智能体的结合,推出更多可场景化的落地方案,寻找商业变现的路径。
随着技术的不断发展和市场的逐渐成熟,AI Agent 领網域的竞争将愈发激烈,各企业的产品也将不断迭代更新,以满足用户日益增长的需求。
3、想象力大,落地却不易
Manus 的火爆很突然,以至于 Manus 的团队低估了市场的热情。
Manus AI 团队产品负责人张涛近日在朋友圈发文表示," 这本是一个产品探索过程中的阶段性收获分享,因此伺服器资源是对标 demo 水平来准备,不曾想过会引起巨大波澜。"
这段话的背景在于,Manus 爆火之后,关于 Manus 通用型的 " 套壳 " 嫌疑、官网卡顿等质疑声层出不穷。所谓 " 套壳 ",即 Manus 没有自研底层大模型的能力 , 其模型能力主要来自 Anthropic 的 Claude。
Manus 团队已声明,当前的 Manus 距离正式版想交付给大家的体验还差很远。" 像模型幻觉、交付物友好度、运行速度等方面都还有很大的提升空间。"
事实上,Manus 的困境是当下 AI Agent 赛道的缩影。
首当其冲的就是 AI 幻觉问题。OpenAI 的 Operator 可能因数据污染生成错误结论;Manus 在演示中虽流畅,实际应用中却常因系统权限限制无法完成订餐、支付等任务。
这些所谓的幻觉问题是目前的 AI 技术无法避免的。DeepSeek-R1 幻觉率高达 14.3%,GPT-4.5 幻觉率为 7.1%,某种程度上,AI 幻觉能力与其推理能力正相关。也就是说,越聪明的 AI 大概率幻觉越强。
这对 AI Agent 无疑是个老大难。作为提高效率的 AI 助手,用户的终极需求莫过于准确性,而幻觉问题可能为用户带来了包括检查、复查等多个环节,势必成为 AI Agent 爆发的主要障碍。
尤其是在金融、医疗、法律等高风险领網域,任何误差都可能引发暴风雨,这也就限制了 AI Agent 的场景落地。
更重要的是,相比于对话式的 GPT,AI Agent 的一个重要进步在于 " 有记忆 "。Manus 通用型 Agent 就具备 " 记忆能力 ",若用户曾要求 " 用表格呈现结果 ",下次任务中它会主动生成 Excel 檔案。一旦出现幻觉问题,AI Agent 作为工具的实用性也要受到质疑。
本质上,幻觉问题的来源于数据的缺乏。正如人类通过理论和实践在社会发展过程中的不断学习和进化,AI 则需要源源不断的数据反馈来进化,而数据的训练离不开实际的应用落地。
就目前实际应用而言,C 端智能体大多定位智能助手,可通过读取语音指令理解用户意图,并模拟人类行为,完成订机票、点外卖、筛简历等基础日常需求和工作。
这时候,用户留存和心智培养是个问题。像 Manus 这类主打通用的 Agent,或许很难在垂直场景下发挥作用。而人类社会正是由一个个具体的场景构成的,复杂程度难以想象,通用型 Agent 最终能在用户生活实际起到多大作用,还是未知。
另一边,B 端智能体则需要提供更为专业和定制化的服务。在 B 端场景下,Agent 可充当数字员工、个人助理、营销客服等工种,真正为企业创造价值。
一些声音认为,B 端 Agent 市场有望率先起量。具体到玩家身上,据 The Information 报道,OpenAI 计划为专业人士推出量身定制版 Agent,用于执行销售线索分类、軟體工程和博士级研究等高级任务。针对 " 高收入知识工作者 ",每月 2000 美元;用于軟體开发的,每月 1 万美元;博士级研究代理,每月 2 万美元。
从目前的发展趋势来看,AI Agent 最有可能在企业服务和办公场景中率先落地。在企业服务领網域,AI Agent 可以帮助企业实现业务流程的自动化和智能化,降低人力成本,提高工作效率。在办公场景中,AI Agent 可以成为员工的智能助手,协助完成各种办公任务,提升办公体验。
IDC 发布预测称,到 2026 年将有 50% 的中国 500 强数据团队使用 AI Agent 来实现数据准备和分析,并成为重要组织者和协调者;40% 的中国 500 强企业将实现数据智能与 AI 模型智能的结合,以统一 AI 模型和数据的综合治理政策、实践和技术。
不过,想要真正作为 AI 助手对接企业也有不少难题。企业的业务流程和需求各不相同,如何将 AI Agent 与企业的现有系统和业务流程进行无缝集成,是一个关键问题。
这需要 AI Agent 具备高度的定制化能力和兼容性,能够根据企业的具体需求进行灵活配置和调整。同时,企业对数据安全和隐私保护也非常重视,AI Agent 在处理企业数据时,必须确保数据的安全性和保密性,防止数据泄露和滥用。
落地当然是不容易的,这需要不断扩展的算力、数据、场景做支撑,好在市场的热情已经被点燃,玩家都在为 " 让 AI 帮人做事 " 而努力。
当大模型与 Agent 深度融合,一个更智能、更主动、更个性化的 AI 时代正加速到来,这一次,独角兽和大厂们都在加速奔跑,没有一个甘心落后于时代。