今天小编分享的互联网经验:API难以解决AI智能体执行能力问题,AI Agent深度落地锁定RPA,欢迎阅读。
图片来源 @视觉中国
文 | 王吉伟
论文、项目、产品不断涌现,AI Agent 工具使用瞄准 RPA
越来越多的 AI Agent 项目正在融合 RPA,背后的逻辑是什么?
被遗忘在角落的 RPA,成了提升 AI Agent 执行能力的天选神器
由 RPA 厂商推出的 RPA Agent,与市面上的 Agent 有什么不同?
源自 API 的实验性 AI 智能体越来越多,基于 RPA 的实用性 AI Agent 稳扎稳打
API 难以解决 AI 智能体执行能力问题,AI Agent 深度落地锁定 RPA
LLM(Large Language Models)刚爆发之时,很多人认为 RPA 要完了,自然语言互動 +API 操作足以干掉任何 UI 自动化工具。
然而,大语言模型应用发展到 AI Agent 这一步,大家才发现 API 并不是万能的。Agent 平台雨后春笋一般出现,但所构建的大多 Agent 只能在问答与订餐、买机票之间徘徊。
不能参与复杂业务流程的 Agent,也就无法帮助企业更好地增效降本。
为了让 Agent 深度参与到 ERP、CRM 等企业管理軟體的自动化操作中,除了构建与生成更多的 API 及相关函数,UI 自动化也再度成为解决问题的关键,成为 Agent 架构工具使用模块的首选。
面向庞大而复杂的企业管理系统,企业级 Agent 的工具模块解决方案就变成 API 与 UI 兼顾,API 用以直接调用插件与工具,UI 用于解决非接口軟體的连接。
由此,探索 Agent 与 RPA 的厂商越来越多。
OpenAI 投资了一家主打 "RPA 3.0" 的初创企业 Induced AI,面壁智能联合清华等机构发布了 "APA" 推出了 ProAgent,清华 & 智谱 AI 团队发布了专注于 GUI 图形互動界面的理解和导航的 CogAgent,腾讯推出了用于移动端的 AppAgent。
这些相关项目,本质上都是 Agent 与 RPA 的结合。
其实先一步对 "API+UI" 类型 Agent 解决方案进行探索的,是 RPA 超自动化厂商。从最开始接入 LLM 到现在推出 Agent 产品与解决方案,厂商们一直都在积极探索与跟进 LLM 的应用。
并且早在大语言模型之前,RPA 超自动化厂商就已经实现了兼容 API 与 UI。
Gartner 曾在 2022 年 RPA 魔力象限报告中预测,到 2024 年,95% 的 RPA 供应商将通过 API 与 UI 集成提供自动化。当前融合 RPA 的超自动化厂商,基本实现了兼顾 API 与 UI。
说到这里,有人可能会问,如果把功能强大的企业级 RPA 平台作为工具融入 Agent 架构,这样的 Agent 产品是不是就能深度参与到企业运营的复杂业务流程?由 RPA 厂商打造的 Agent 产品又与其他厂商的产品有什么不同?
本文,王吉伟频道就跟大家聊聊这些。
AI Agent 瞄准 RPA
今年 10 月份,OpenAI 投资了一家 RPA 初创公司 Induced AI。在 Induced AI,用户只需用简单的英语输入工作流程和录屏视频,Induced AI 就能将其实时转换为伪代码,并调取多种相关工具,来执行大量重复性任务。
从产品描述中可以看到,Induced AI 的 "RPA 3.0" 形态产品是一款基于大语言模型的智能体。
开始很多人并不知道 OpenAI 为何要投资一个 RPA 公司,但随着 AI Agent 越来越热,在大家意识到其落地方面存在执行能力不足的问题后,瞬间就想明白了 OpenAI 的 " 用意 "。
把 RPA 当作工具去操作 API 无法触达的企业管理軟體,自然就能大幅提升 Agent 的能力,且只有这样的才有可能打造出企业级 Agent。
自此开始,关于 Agent 与 RPA 的研究越来越多。
11 月份,面壁智能联合清华自然语言处理实验 等机构共同发布了新一代流程自动化范式 Agentic Process Automation(APA,相关项目为 ProAgent),该范式实现了工作流构建的自动化,以及工作流执行时动态决策的自动化,并通过实验揭示了大模型智能体在自动化中的可行性与潜力。
项目地址:https://github.com/THUDM/CogVLM
而该项研究的主要目的,就是将 Agent 技术的灵活性引入 RPA(或者说将 RPA 作为工具引入 Agent 架构,也是成立的)。
而在此之前,为了解决 LLM 面对用户指令使用外部工具(API)处理高级任务时的不足问题,面壁智能联合来自 TsinghuaNLP、耶鲁、人大、腾讯、知乎的研究人员推出 ToolLLM 工具学习框架中的 ToolBench 数据集,已经囊括 16464 个真实世界 API。
由此,UI 自动化对于 Agent 在真实世界应用重要性不言而喻。
12 月 15 日,清华 & 智谱 AI 团队发布了最新研究成果 CogAgent-Chat。CogAgent 是一个基于 180 亿参数规模的视觉语言模型(VLM)的图形用户界面(GUI)智能体,专注于 GUI 图形互動界面的理解和导航。
CogAgent 使用螢幕截图作为输入,在 PC 和 Android GUI 导航任务上超越了基于语言模型的方法,如 Mind2Web 和 AITW,引领了 GUI 理解领網域的最新技术发展。
这个技术理念,与实在智能推出的 RPA Agent 使用螢幕语义理解技术通过识别螢幕构建 UI 自动化非常相似,同样属于 Agent 与 RPA 技术的结合。
除了创业公司,科技大厂也在关注这个领網域。最近腾讯和德州大学达拉斯分校的研究团队合作开发了一个名为 AppAgent 的项目,该项目可以通过自主学习和模仿人类的点击和滑动手势,在手机上执行各种任务。
项目地址:https://github.com/mnotgod96/AppAgent
这包括在社交媒体上发帖、帮助用户撰写和发送邮件、使用地图、在线购物,甚至进行复杂的影像编辑。AppAgent 已在 50 个任务上进行了广泛测试,涵盖了 10 种不同的应用程式。
这个项目,可以看作 Agent 与 RPA 结合在手机端的应用。
除了上述项目,王吉伟频道也接触过几个智能体创业项目,都采用了 Agent+RPA 这个模式。
LLM 厂商、科研机构以及科技大厂对于 Agent 和 RPA 的探索与研究,进一步验证了当前阶段 RPA 对于 AI Agent 在各领網域落地应用的重要性。
背后的逻辑
相较于直接使用 LLM,目前的 AI Agent 产品在体验上的优势尽显:
首先,智能程度和普适性高,能较好的理解和推理复杂的任务并且做出规划;
其次,能高效判断并使用外部工具,整个过程的衔接非常流畅。
但随着更多的使用,大家发现当前 Agent 的实验性强于实用性,存在两个影响应用的重要问题:
一是效果不稳定,多步推理能力不够。大部分产品 demo 看上去效果惊艳,但对于抽象复杂的问题,能有效解决的比例不到 10%,只适合解决一些中等难度的问题。
二是外部生态融合度不高。第三方 API 支持的数量和生态不多(基本以搜索和檔案读取功能为主),API 覆盖范围不够广,很难做到比较完整的跨应用生态。
大家知道,目前最流行的也是最理想的 AI Agent 框架是由 OpenAI 提出的 "LLM+ 记忆 + 规划 + 工具使用 " 四件套。
对于一款 AI Agent 来说,LLM、记忆和规划担当了任务的分析、拆解与规划,工具使用则关系着执行任务的能力。任务规划得再好,没有执行能力也无法完成任务。
上面第一个问题关联的是用户体验与实际效果,当然还要看 Agent 面向什么应用场景。
如果是 2C 场景比如购物分析等效果不稳定或者等待太长时间,大概率会让很多用户放弃使用。
但若是 2B 场景比如用于程式构建,其自动化生成应用及业务流程的能力,远比之前手动输入代码或者拖拽式的无代码操作的效率要高得多。
而第二个问题则是企业应用 Agent 的关键,Agent 主要通过 API 来调用各种插件工具去执行各种任务,工具越强大执行能力也越强。
相关研究数据统计,目前公共和私人 API 的应用数量已接近 2 亿。在国内,仅 2022 年就有 6700 多万个 API 被创建。
但对于大型企业异构且复杂的信息化环境来说,这些 API 仍然无法满足其个性化、安全性等方面的需求。
加上很多企业軟體系统缺少 API 以及开发成本过高等因素,使得 Agent 无法操作更多的企业管理軟體,阻碍了 AI Agent 的跨部门、跨领網域应用,执行能力大打折扣。
这种情况下,在工具调用上,如果想打造一款能够参与复杂业务流程的企业级 Agent,不只需要通过 API 调用工具,更需要通过 UI 自动化实现各种軟體连接。
RPA 和 AI Agent 有着很强的关系。接口的设计原则是 " 高内聚、低耦合 ",实际上很多軟體很难有接口,这时候 RPA 的作用就尤为重要。把 API 和 RPA 封装起来作为 " 手和脚 ",结合大语言模型 " 大腦 ",Agent 才能真正实现无所不能的智能自动化。
由此,一些组织重新把目光重新聚焦到 RPA 身上。
使用 RPA 通过基于 LLM 的 AI Agent 自动执行业务流程任务企业级应用,并构建自动化流程的长期维护机制,也成为更多组织在智能自动化方面新的研究课题。
同时,Agent 的执行能力落点到 RPA,也使得已经积累大量数据、经验、技术以及生态能力的 RPA 厂商所推出的 Agent 产品,受到更多关注。
尤其是发布相关领網域模型的厂商,更是广大企业与投资机构关注的重点。
RPA Agent 的优势
由 RPA 超自动化厂商推出的基于 RPA 构建的 AI Agent,或者将 RPA 作为工具的 Agent,这里将其称之为 RPA Agent。
目前已经出现很多 Agent 构建平台,也出现了大量 Agent 产品。但如果仔细观察这些产品,会发现大多数产品还只是知识问答类的对话机器人,少部分可以通过 API 操作部分工具或者适用于 Agent 平台的内部生态,与 OpenAI 推出的 " 准 Agent" 产品 GPTs 相似。
这些封装了大语言模型产品能力的类智能体产品,或者说是智能体的早期产品,跟欧美技术圈所定义的智能体还有一些差距,在能力上缺少了调用 API 的灵活性,也缺少了用 RPA 去连接更多管理軟體的通用性。
类似的智能体能够胜任内容生成、推理分析及反馈等,对于一些不需要太多企业管理系统的中小微企业大部分业务运营都能胜任。
但在执行层面就要差很多,不能在生成内容后执行其他业务流程的任务自动化,缺少了对长流程的支持,无法调用工具去完成复杂业务流程的自动化执行。
与这类 Agent 相比,RPA Agent 恰好可以解决上述 Agent 难以解决的问题。
RPA 本身就是为解决 UI 自动化而生,用于弥补 API 自动化覆盖范围小、开发难度大等的不足。
为了保证 RPA 运行的稳定性,厂商们在技术及产品上面下了很大的功夫,比如螢幕语义识别、IPA 模式等,这样的产品作为 Agent 的调用工具,具备操作大型企业复杂业务流程的天然属性。
在上一轮业务数字化改造中,大量企业在业务流程自动化上都引入了性价比很高的 RPA 超自动化解决方案。LLM 爆发后,超自动化厂商都在积极融合 LLM,并且现在开始陆续推出 Agent 解决方案。
其实对于已经引入 RPA 超自动化解决方案的企业来说,想要享受 Agent 红利很简单。如果 RPA 服务商已经推出 Agent 解决方案,只需要将原有解决方案中使用的产品或者技术更新成为 Agent 解决方案即可,一般而言厂商可以提供技术平移及迭代的服务。
这样企业就不用再去了解和引入新的 Agent 解决方案,避免更多的投资与开销,这在当前经济下行的形势下是蛮重要的。
Agent 厂商在为广大企业提供个性化服务及部署时,也会基于原有企业的 RPA 系统去做相应的解决方案,这使得大量企业的 Agent 解决方案实则都是在工具应用上调用 RPA 去执行各种企业管理軟體的操作。
显然在这个部署的过程中,先一步推出基于 RPA 的 Agent 解决方案的厂商将会更具优势,因为他们对 RPA 以及超自动化有着更深的理解,也能让其 Agent 解决方案能够触达企业运营的更深层。
从目前市面上大多 AI Agent 以及用户反馈来看,AI 智能体想要真正在 B 端实现量级业务场景的落地及更好地商用,需要综合考量其本身的安全性、技术发展周期是否成熟以及 To B 端的场景是否密切贴合,更需要考虑接口成本、隐私、管理、授权等诸多因素。
从具体需求来看,比如金融领網域大 B 客户对于查询和拆解指标、项目数据查看分析、推送报表 / 报告等需求,看起来简单却不是简单的 GPTs 或者知识内容类 Agent 能够实现的。
其中的业务流程涉及到了深入企业管理系统的复杂流程自动化构建,更涉及到了数据库读取、API 管理及 UI 自动化连接等。
目前仅是基于 API 接口读取数据及调用工具插件的 Agent,难以实现这样的流程应用,而基于 LLM 并同时兼顾 API 与 UI 自动化的 RPA Agent 是不错的解决方案。
在广大企业关注的数据安全方面,相较于 API 模式,RPA 模式的优势在于对系统的无侵入。通过结合 ISSUT(智能螢幕语义理解)等技术,RPA 能够对人类作業系統的行为进行模仿,并通过识别螢幕上的軟體进行操作,全流程不会对系统和数据造成任何损害。
此外对于系统设计而言,对外暴露的 API 越多,安全风险越高。在实在智能 CEO 孙林君看来,系统的设计原则是 " 高内聚,低耦合 ",即用大模型去构建 Agent 时,軟體暴露的 API 越少越好。
所以,RPA Agent 不只是一种行之有效的 Agent 解决方案,更是当下 LLM 时代企业应用 Agent 的新范式。
RPA Agent 实例解读
下面,我们来看两个已经发布的 RPA Agent 产品案例。
案例 1:实在智能 TARS-RPA-Agent
上个月完成近 2 亿元 C 轮融资的实在智能在 8 月份所推出的实在 Agent 智能体,是一个典型的企业级 Agent 智能体产品。
实在 Agent 智能体,既可以支持私有化部署,又支持无需部署就可以方便用户使用的大语言模型的超自动化智能体,它基于 " 自研垂直大语言模型 TARS 和 ISSUT(智能螢幕语义理解)双模引擎打造。
该产品实现了全行业首个 " 你说 PC 做,所说即所得 ",能够自主拆解任务、感知当前环境、执行并且反馈、记忆历史经验。
实在智能自研的基座大语言模型 TARS,最大特点是被投喂了大量的行业知识,KNOW-HOW 和自动化流程数据,有利于 TARS 对客户业务流程的理解和拆解,使得实在 Agent 智能体能够更好的规划与执行复杂的业务流程。
实在 Agent 智能体能够听懂业务用户的所有指令,更能准确把指令任务自主拆解成方便后续自动化流程去执行的 " 生成式,懂业务的智能数字员工 "。
只需简单说一句话,实在 Agent 智能体就能帮用户操作电腦軟體完成各种工作和任务,每个流程中的步骤百分百可视,用户可以边查看执行的每一个步骤,边判断整个自动化流程是否准确,并可以随时进行调整。
使用智能体可以替代手工作业,实现至少 300% 效率提升,保证数据处理准确无误,防止人为因素风险,将个人智慧转化为企业组织智慧,沉淀人机协同经验。
作为一款企业级 AI Agent 平台,实在 Agent 智能体具备识别与理解、系统方案、深入匹配、专有部署、更加可信、自主可控、持续迭代等多种特性,可以为企业打造无需额外配置、开箱即用且效果立竿见影的智能体助理,帮助员工提升工作效率和创造力,赋能企业增效降本。
案例 2:壹沓科技 CubeAgent
CubeAgent 是壹沓科技推出的基于大模型的数字员工平台,为企业提供基于大模型技术驱动的数字员工聚合及训练平台,帮助企业轻松构建专有的 " 数字员工团队 ",为白领员工配备具备多种能力的 " 办公小助手 ",一站式帮助企业员工完成所有的日常工作。
在供应链领網域,运小沓数字员工平台是全球首款供应链大模型产品,能够为供应链企业量身打造虚拟数字员工专家团队,资深供应链运价经理、物流可视追踪经理、供应链新人成长师、行业案例专家行业翻译大师、行政问答助理等,提供高效所答即所问的供应链领網域准确知识。实现这一切,只需像跟同事聊天一样。
作为供应链企业更加智能的业务自动化解决方案,运小沓数字员工平台可以助力企业实现产品智能调用和办公系统智连:一句话查运价、发舱单、物流追踪,智能运行 FMS、OA、CRM,提升组织敏捷性,开启全新智能办公时代。
借助一系列虚拟办公助手,运小沓数字员工平台也将为供应链企业提供更加智能的业务自动化解决方案、「白领员工 +CubeAgent 数字员工」的人机协作智能办公新模式,提升组织人才密度、敏捷性,帮助供应链企业重构生产关系,推动企业生产力跃迁。
据悉在商业拓展方面,运小沓数字员工平台已经跟供应链 Top 企业在大模型方面达成战略合作,并宣布成立了 Next Club。
Induced AI 已经在前面介绍过,这里不再作为案例赘述。
后记:RPA Agent 的 "iPhone 时刻 "
把时间轴放大去看,在 API 一统数字化江湖之前,RPA 会一直拥有存在的价值。只要仍旧存在 UI 操作的业务流程,只要 API 无法解决所有軟體的联通问题,RPA 或者类 RPA 工具就会一直充当 UI 自动化的连接器。
欧美日韩等地網域的 RPA 超自动化应用普及率已经很高,意味着 API+UI 的 Agent 解决方案更容易得到推广。
而国内市场尤其是制造业等信息化相对滞后的领網域,目前刚进入 RPA2.03.0 的时代。对于引入 AI+RPA 解决方案的企业,传统 AI 技术早晚会变成 LLM 技术,而 Agent 解决方案也将是最佳的 LLM 应用方案。届时,大部分厂商都将是 RPA Agent 解决方案。
由此来看,至少未来 5-10 年,RPA Agent 或者以类 RPA 产品为工具的 AI Agent 会成为企业数字化运营的主流模式。
所以,"RPA Agent" 这个词组,除了表达它是一种 " 以 RPA 为工具的 Agent" 之外,更意味着 Agent+RPA 管理企业数字化运营的模式即将流行起来。
表面上看,RPA 成了 AI Agent 执行层面的超级工具。反过来看,AI Agent 也在借助 RPA 落地。
在埃森哲最新发布的《2024 年技术展望》趋势报告中,将 " 智能体 -AI 互联网的生态系统 " 列入第二趋势,再次证明 AI Agent 将在组织运营中扮演的重要角色。
同时该报告调查数据显示,96% 的高管认为,在未来 3 年内充分利用 AI Agent 生态系统将成为其组织的重要机遇。AI Agent 生态系统的崛起正在改变企业智能和自动化战略的思考方式,将带来巨大的机遇和挑战。
这意味着,AI Agent 会带来组织的深度变革与企业数字化运营范式的转变,也将带来广阔的市场空间。
▲ 图源:埃森哲中国官微
对于智能体早期企业可以做什么,埃森哲也提到越早为智能体准备好相关的基础设施和信息,智能体就能越早发挥潜力。并建议重新考虑某些数据管理实践,比如数据库的向量化处理、提供用于访问数据的新 API 以及扩展与公司系统进行接口互動的工具等。
而当前与系统进行接口互動的主流自动化工具,正是能够通过 UI 连接不同系统以补充 API 生态不足的 RPA。
由此,作为能够深扎复杂业务流程且执行能力更强的 AI 智能体,RPA Agent 的 "iPhone 时刻 " 已然到来。