今天小編分享的互聯網經驗:API難以解決AI智能體執行能力問題,AI Agent深度落地鎖定RPA,歡迎閲讀。
圖片來源 @視覺中國
文 | 王吉偉
論文、項目、產品不斷湧現,AI Agent 工具使用瞄準 RPA
越來越多的 AI Agent 項目正在融合 RPA,背後的邏輯是什麼?
被遺忘在角落的 RPA,成了提升 AI Agent 執行能力的天選神器
由 RPA 廠商推出的 RPA Agent,與市面上的 Agent 有什麼不同?
源自 API 的實驗性 AI 智能體越來越多,基于 RPA 的實用性 AI Agent 穩扎穩打
API 難以解決 AI 智能體執行能力問題,AI Agent 深度落地鎖定 RPA
LLM(Large Language Models)剛爆發之時,很多人認為 RPA 要完了,自然語言互動 +API 操作足以幹掉任何 UI 自動化工具。
然而,大語言模型應用發展到 AI Agent 這一步,大家才發現 API 并不是萬能的。Agent 平台雨後春筍一般出現,但所構建的大多 Agent 只能在問答與訂餐、買機票之間徘徊。
不能參與復雜業務流程的 Agent,也就無法幫助企業更好地增效降本。
為了讓 Agent 深度參與到 ERP、CRM 等企業管理軟體的自動化操作中,除了構建與生成更多的 API 及相關函數,UI 自動化也再度成為解決問題的關鍵,成為 Agent 架構工具使用模塊的首選。
面向龐大而復雜的企業管理系統,企業級 Agent 的工具模塊解決方案就變成 API 與 UI 兼顧,API 用以直接調用插件與工具,UI 用于解決非接口軟體的連接。
由此,探索 Agent 與 RPA 的廠商越來越多。
OpenAI 投資了一家主打 "RPA 3.0" 的初創企業 Induced AI,面壁智能聯合清華等機構發布了 "APA" 推出了 ProAgent,清華 & 智譜 AI 團隊發布了專注于 GUI 圖形互動界面的理解和導航的 CogAgent,騰訊推出了用于移動端的 AppAgent。
這些相關項目,本質上都是 Agent 與 RPA 的結合。
其實先一步對 "API+UI" 類型 Agent 解決方案進行探索的,是 RPA 超自動化廠商。從最開始接入 LLM 到現在推出 Agent 產品與解決方案,廠商們一直都在積極探索與跟進 LLM 的應用。
并且早在大語言模型之前,RPA 超自動化廠商就已經實現了兼容 API 與 UI。
Gartner 曾在 2022 年 RPA 魔力象限報告中預測,到 2024 年,95% 的 RPA 供應商将通過 API 與 UI 集成提供自動化。當前融合 RPA 的超自動化廠商,基本實現了兼顧 API 與 UI。
説到這裏,有人可能會問,如果把功能強大的企業級 RPA 平台作為工具融入 Agent 架構,這樣的 Agent 產品是不是就能深度參與到企業運營的復雜業務流程?由 RPA 廠商打造的 Agent 產品又與其他廠商的產品有什麼不同?
本文,王吉偉頻道就跟大家聊聊這些。
AI Agent 瞄準 RPA
今年 10 月份,OpenAI 投資了一家 RPA 初創公司 Induced AI。在 Induced AI,用户只需用簡單的英語輸入工作流程和錄屏視頻,Induced AI 就能将其實時轉換為偽代碼,并調取多種相關工具,來執行大量重復性任務。
從產品描述中可以看到,Induced AI 的 "RPA 3.0" 形态產品是一款基于大語言模型的智能體。
開始很多人并不知道 OpenAI 為何要投資一個 RPA 公司,但随着 AI Agent 越來越熱,在大家意識到其落地方面存在執行能力不足的問題後,瞬間就想明白了 OpenAI 的 " 用意 "。
把 RPA 當作工具去操作 API 無法觸達的企業管理軟體,自然就能大幅提升 Agent 的能力,且只有這樣的才有可能打造出企業級 Agent。
自此開始,關于 Agent 與 RPA 的研究越來越多。
11 月份,面壁智能聯合清華自然語言處理實驗 等機構共同發布了新一代流程自動化範式 Agentic Process Automation(APA,相關項目為 ProAgent),該範式實現了工作流構建的自動化,以及工作流執行時動态決策的自動化,并通過實驗揭示了大模型智能體在自動化中的可行性與潛力。
項目地址:https://github.com/THUDM/CogVLM
而該項研究的主要目的,就是将 Agent 技術的靈活性引入 RPA(或者説将 RPA 作為工具引入 Agent 架構,也是成立的)。
而在此之前,為了解決 LLM 面對用户指令使用外部工具(API)處理高級任務時的不足問題,面壁智能聯合來自 TsinghuaNLP、耶魯、人大、騰訊、知乎的研究人員推出 ToolLLM 工具學習框架中的 ToolBench 數據集,已經囊括 16464 個真實世界 API。
由此,UI 自動化對于 Agent 在真實世界應用重要性不言而喻。
12 月 15 日,清華 & 智譜 AI 團隊發布了最新研究成果 CogAgent-Chat。CogAgent 是一個基于 180 億參數規模的視覺語言模型(VLM)的圖形用户界面(GUI)智能體,專注于 GUI 圖形互動界面的理解和導航。
CogAgent 使用螢幕截圖作為輸入,在 PC 和 Android GUI 導航任務上超越了基于語言模型的方法,如 Mind2Web 和 AITW,引領了 GUI 理解領網域的最新技術發展。
這個技術理念,與實在智能推出的 RPA Agent 使用螢幕語義理解技術通過識别螢幕構建 UI 自動化非常相似,同樣屬于 Agent 與 RPA 技術的結合。
除了創業公司,科技大廠也在關注這個領網域。最近騰訊和德州大學達拉斯分校的研究團隊合作開發了一個名為 AppAgent 的項目,該項目可以通過自主學習和模仿人類的點擊和滑動手勢,在手機上執行各種任務。
項目地址:https://github.com/mnotgod96/AppAgent
這包括在社交媒體上發帖、幫助用户撰寫和發送郵件、使用地圖、在線購物,甚至進行復雜的影像編輯。AppAgent 已在 50 個任務上進行了廣泛測試,涵蓋了 10 種不同的應用程式。
這個項目,可以看作 Agent 與 RPA 結合在手機端的應用。
除了上述項目,王吉偉頻道也接觸過幾個智能體創業項目,都采用了 Agent+RPA 這個模式。
LLM 廠商、科研機構以及科技大廠對于 Agent 和 RPA 的探索與研究,進一步驗證了當前階段 RPA 對于 AI Agent 在各領網域落地應用的重要性。
背後的邏輯
相較于直接使用 LLM,目前的 AI Agent 產品在體驗上的優勢盡顯:
首先,智能程度和普适性高,能較好的理解和推理復雜的任務并且做出規劃;
其次,能高效判斷并使用外部工具,整個過程的銜接非常流暢。
但随着更多的使用,大家發現當前 Agent 的實驗性強于實用性,存在兩個影響應用的重要問題:
一是效果不穩定,多步推理能力不夠。大部分產品 demo 看上去效果驚豔,但對于抽象復雜的問題,能有效解決的比例不到 10%,只适合解決一些中等難度的問題。
二是外部生态融合度不高。第三方 API 支持的數量和生态不多(基本以搜索和檔案讀取功能為主),API 覆蓋範圍不夠廣,很難做到比較完整的跨應用生态。
大家知道,目前最流行的也是最理想的 AI Agent 框架是由 OpenAI 提出的 "LLM+ 記憶 + 規劃 + 工具使用 " 四件套。
對于一款 AI Agent 來説,LLM、記憶和規劃擔當了任務的分析、拆解與規劃,工具使用則關系着執行任務的能力。任務規劃得再好,沒有執行能力也無法完成任務。
上面第一個問題關聯的是用户體驗與實際效果,當然還要看 Agent 面向什麼應用場景。
如果是 2C 場景比如購物分析等效果不穩定或者等待太長時間,大概率會讓很多用户放棄使用。
但若是 2B 場景比如用于程式構建,其自動化生成應用及業務流程的能力,遠比之前手動輸入代碼或者拖拽式的無代碼操作的效率要高得多。
而第二個問題則是企業應用 Agent 的關鍵,Agent 主要通過 API 來調用各種插件工具去執行各種任務,工具越強大執行能力也越強。
相關研究數據統計,目前公共和私人 API 的應用數量已接近 2 億。在國内,僅 2022 年就有 6700 多萬個 API 被創建。
但對于大型企業異構且復雜的信息化環境來説,這些 API 仍然無法滿足其個性化、安全性等方面的需求。
加上很多企業軟體系統缺少 API 以及開發成本過高等因素,使得 Agent 無法操作更多的企業管理軟體,阻礙了 AI Agent 的跨部門、跨領網域應用,執行能力大打折扣。
這種情況下,在工具調用上,如果想打造一款能夠參與復雜業務流程的企業級 Agent,不只需要通過 API 調用工具,更需要通過 UI 自動化實現各種軟體連接。
RPA 和 AI Agent 有着很強的關系。接口的設計原則是 " 高内聚、低耦合 ",實際上很多軟體很難有接口,這時候 RPA 的作用就尤為重要。把 API 和 RPA 封裝起來作為 " 手和腳 ",結合大語言模型 " 大腦 ",Agent 才能真正實現無所不能的智能自動化。
由此,一些組織重新把目光重新聚焦到 RPA 身上。
使用 RPA 通過基于 LLM 的 AI Agent 自動執行業務流程任務企業級應用,并構建自動化流程的長期維護機制,也成為更多組織在智能自動化方面新的研究課題。
同時,Agent 的執行能力落點到 RPA,也使得已經積累大量數據、經驗、技術以及生态能力的 RPA 廠商所推出的 Agent 產品,受到更多關注。
尤其是發布相關領網域模型的廠商,更是廣大企業與投資機構關注的重點。
RPA Agent 的優勢
由 RPA 超自動化廠商推出的基于 RPA 構建的 AI Agent,或者将 RPA 作為工具的 Agent,這裏将其稱之為 RPA Agent。
目前已經出現很多 Agent 構建平台,也出現了大量 Agent 產品。但如果仔細觀察這些產品,會發現大多數產品還只是知識問答類的對話機器人,少部分可以通過 API 操作部分工具或者适用于 Agent 平台的内部生态,與 OpenAI 推出的 " 準 Agent" 產品 GPTs 相似。
這些封裝了大語言模型產品能力的類智能體產品,或者説是智能體的早期產品,跟歐美技術圈所定義的智能體還有一些差距,在能力上缺少了調用 API 的靈活性,也缺少了用 RPA 去連接更多管理軟體的通用性。
類似的智能體能夠勝任内容生成、推理分析及反饋等,對于一些不需要太多企業管理系統的中小微企業大部分業務運營都能勝任。
但在執行層面就要差很多,不能在生成内容後執行其他業務流程的任務自動化,缺少了對長流程的支持,無法調用工具去完成復雜業務流程的自動化執行。
與這類 Agent 相比,RPA Agent 恰好可以解決上述 Agent 難以解決的問題。
RPA 本身就是為解決 UI 自動化而生,用于彌補 API 自動化覆蓋範圍小、開發難度大等的不足。
為了保證 RPA 運行的穩定性,廠商們在技術及產品上面下了很大的功夫,比如螢幕語義識别、IPA 模式等,這樣的產品作為 Agent 的調用工具,具備操作大型企業復雜業務流程的天然屬性。
在上一輪業務數字化改造中,大量企業在業務流程自動化上都引入了性價比很高的 RPA 超自動化解決方案。LLM 爆發後,超自動化廠商都在積極融合 LLM,并且現在開始陸續推出 Agent 解決方案。
其實對于已經引入 RPA 超自動化解決方案的企業來説,想要享受 Agent 紅利很簡單。如果 RPA 服務商已經推出 Agent 解決方案,只需要将原有解決方案中使用的產品或者技術更新成為 Agent 解決方案即可,一般而言廠商可以提供技術平移及迭代的服務。
這樣企業就不用再去了解和引入新的 Agent 解決方案,避免更多的投資與開銷,這在當前經濟下行的形勢下是蠻重要的。
Agent 廠商在為廣大企業提供個性化服務及部署時,也會基于原有企業的 RPA 系統去做相應的解決方案,這使得大量企業的 Agent 解決方案實則都是在工具應用上調用 RPA 去執行各種企業管理軟體的操作。
顯然在這個部署的過程中,先一步推出基于 RPA 的 Agent 解決方案的廠商将會更具優勢,因為他們對 RPA 以及超自動化有着更深的理解,也能讓其 Agent 解決方案能夠觸達企業運營的更深層。
從目前市面上大多 AI Agent 以及用户反饋來看,AI 智能體想要真正在 B 端實現量級業務場景的落地及更好地商用,需要綜合考量其本身的安全性、技術發展周期是否成熟以及 To B 端的場景是否密切貼合,更需要考慮接口成本、隐私、管理、授權等諸多因素。
從具體需求來看,比如金融領網域大 B 客户對于查詢和拆解指标、項目數據查看分析、推送報表 / 報告等需求,看起來簡單卻不是簡單的 GPTs 或者知識内容類 Agent 能夠實現的。
其中的業務流程涉及到了深入企業管理系統的復雜流程自動化構建,更涉及到了數據庫讀取、API 管理及 UI 自動化連接等。
目前僅是基于 API 接口讀取數據及調用工具插件的 Agent,難以實現這樣的流程應用,而基于 LLM 并同時兼顧 API 與 UI 自動化的 RPA Agent 是不錯的解決方案。
在廣大企業關注的數據安全方面,相較于 API 模式,RPA 模式的優勢在于對系統的無侵入。通過結合 ISSUT(智能螢幕語義理解)等技術,RPA 能夠對人類作業系統的行為進行模仿,并通過識别螢幕上的軟體進行操作,全流程不會對系統和數據造成任何損害。
此外對于系統設計而言,對外暴露的 API 越多,安全風險越高。在實在智能 CEO 孫林君看來,系統的設計原則是 " 高内聚,低耦合 ",即用大模型去構建 Agent 時,軟體暴露的 API 越少越好。
所以,RPA Agent 不只是一種行之有效的 Agent 解決方案,更是當下 LLM 時代企業應用 Agent 的新範式。
RPA Agent 實例解讀
下面,我們來看兩個已經發布的 RPA Agent 產品案例。
案例 1:實在智能 TARS-RPA-Agent
上個月完成近 2 億元 C 輪融資的實在智能在 8 月份所推出的實在 Agent 智能體,是一個典型的企業級 Agent 智能體產品。
實在 Agent 智能體,既可以支持私有化部署,又支持無需部署就可以方便用户使用的大語言模型的超自動化智能體,它基于 " 自研垂直大語言模型 TARS 和 ISSUT(智能螢幕語義理解)雙模引擎打造。
該產品實現了全行業首個 " 你説 PC 做,所説即所得 ",能夠自主拆解任務、感知當前環境、執行并且反饋、記憶歷史經驗。
實在智能自研的基座大語言模型 TARS,最大特點是被投喂了大量的行業知識,KNOW-HOW 和自動化流程數據,有利于 TARS 對客户業務流程的理解和拆解,使得實在 Agent 智能體能夠更好的規劃與執行復雜的業務流程。
實在 Agent 智能體能夠聽懂業務用户的所有指令,更能準确把指令任務自主拆解成方便後續自動化流程去執行的 " 生成式,懂業務的智能數字員工 "。
只需簡單説一句話,實在 Agent 智能體就能幫用户操作電腦軟體完成各種工作和任務,每個流程中的步驟百分百可視,用户可以邊查看執行的每一個步驟,邊判斷整個自動化流程是否準确,并可以随時進行調整。
使用智能體可以替代手工作業,實現至少 300% 效率提升,保證數據處理準确無誤,防止人為因素風險,将個人智慧轉化為企業組織智慧,沉澱人機協同經驗。
作為一款企業級 AI Agent 平台,實在 Agent 智能體具備識别與理解、系統方案、深入匹配、專有部署、更加可信、自主可控、持續迭代等多種特性,可以為企業打造無需額外配置、開箱即用且效果立竿見影的智能體助理,幫助員工提升工作效率和創造力,賦能企業增效降本。
案例 2:壹沓科技 CubeAgent
CubeAgent 是壹沓科技推出的基于大模型的數字員工平台,為企業提供基于大模型技術驅動的數字員工聚合及訓練平台,幫助企業輕松構建專有的 " 數字員工團隊 ",為白領員工配備具備多種能力的 " 辦公小助手 ",一站式幫助企業員工完成所有的日常工作。
在供應鏈領網域,運小沓數字員工平台是全球首款供應鏈大模型產品,能夠為供應鏈企業量身打造虛拟數字員工專家團隊,資深供應鏈運價經理、物流可視追蹤經理、供應鏈新人成長師、行業案例專家行業翻譯大師、行政問答助理等,提供高效所答即所問的供應鏈領網域準确知識。實現這一切,只需像跟同事聊天一樣。
作為供應鏈企業更加智能的業務自動化解決方案,運小沓數字員工平台可以助力企業實現產品智能調用和辦公系統智連:一句話查運價、發艙單、物流追蹤,智能運行 FMS、OA、CRM,提升組織敏捷性,開啓全新智能辦公時代。
借助一系列虛拟辦公助手,運小沓數字員工平台也将為供應鏈企業提供更加智能的業務自動化解決方案、「白領員工 +CubeAgent 數字員工」的人機協作智能辦公新模式,提升組織人才密度、敏捷性,幫助供應鏈企業重構生產關系,推動企業生產力躍遷。
據悉在商業拓展方面,運小沓數字員工平台已經跟供應鏈 Top 企業在大模型方面達成戰略合作,并宣布成立了 Next Club。
Induced AI 已經在前面介紹過,這裏不再作為案例贅述。
後記:RPA Agent 的 "iPhone 時刻 "
把時間軸放大去看,在 API 一統數字化江湖之前,RPA 會一直擁有存在的價值。只要仍舊存在 UI 操作的業務流程,只要 API 無法解決所有軟體的聯通問題,RPA 或者類 RPA 工具就會一直充當 UI 自動化的連接器。
歐美日韓等地網域的 RPA 超自動化應用普及率已經很高,意味着 API+UI 的 Agent 解決方案更容易得到推廣。
而國内市場尤其是制造業等信息化相對滞後的領網域,目前剛進入 RPA2.03.0 的時代。對于引入 AI+RPA 解決方案的企業,傳統 AI 技術早晚會變成 LLM 技術,而 Agent 解決方案也将是最佳的 LLM 應用方案。屆時,大部分廠商都将是 RPA Agent 解決方案。
由此來看,至少未來 5-10 年,RPA Agent 或者以類 RPA 產品為工具的 AI Agent 會成為企業數字化運營的主流模式。
所以,"RPA Agent" 這個詞組,除了表達它是一種 " 以 RPA 為工具的 Agent" 之外,更意味着 Agent+RPA 管理企業數字化運營的模式即将流行起來。
表面上看,RPA 成了 AI Agent 執行層面的超級工具。反過來看,AI Agent 也在借助 RPA 落地。
在埃森哲最新發布的《2024 年技術展望》趨勢報告中,将 " 智能體 -AI 互聯網的生态系統 " 列入第二趨勢,再次證明 AI Agent 将在組織運營中扮演的重要角色。
同時該報告調查數據顯示,96% 的高管認為,在未來 3 年内充分利用 AI Agent 生态系統将成為其組織的重要機遇。AI Agent 生态系統的崛起正在改變企業智能和自動化戰略的思考方式,将帶來巨大的機遇和挑戰。
這意味着,AI Agent 會帶來組織的深度變革與企業數字化運營範式的轉變,也将帶來廣闊的市場空間。
▲ 圖源:埃森哲中國官微
對于智能體早期企業可以做什麼,埃森哲也提到越早為智能體準備好相關的基礎設施和信息,智能體就能越早發揮潛力。并建議重新考慮某些數據管理實踐,比如數據庫的向量化處理、提供用于訪問數據的新 API 以及擴展與公司系統進行接口互動的工具等。
而當前與系統進行接口互動的主流自動化工具,正是能夠通過 UI 連接不同系統以補充 API 生态不足的 RPA。
由此,作為能夠深扎復雜業務流程且執行能力更強的 AI 智能體,RPA Agent 的 "iPhone 時刻 " 已然到來。