今天小編分享的科技經驗:競逐AI Agent時代,歡迎閲讀。
文 | 連線 Insight,作者 | 王慧瑩,編輯 | 子夜
什麼是更接近 AGI 的形态,是能用腦子思考的大模型,還是能用行動互動的 Agent?
随着技術不斷進步,應用不斷落地,人與機器的互動方式正在發生範式轉變,這個答案成了兩者的結合—— AI Agent。
AI Agent,又被稱作是 AI 智能體,即一種能通過對環境的感知,進行思考決策并執行的智能體。與 GPT 等應用相比,AI Agent 在思考與行動方式上和人類很相似,是人工智能機器人的初級形态。
在過去三年中,大模型在自然語言處理、影像生成等領網域展現出驚人能力,但随着參數規模突破千億級,技術邊際效益遞減的魔咒開始顯現:模型理解能力停留在表層語義,復雜任務執行依賴人工指令拆解,應用落地陷入 " 玩具化 " 困境。
更重要的是,用户對 AI 的期待早已超越簡單問答,他們需要一個能主動思考的助手,這種供需錯位給了 AI Agent 爆發的機會。AI Agent 就像一個能感知、能理解、能行動的 AI 助手。
尤其是伴随大模型應用元年的到來,技術落地是個備受關注的問題,AI Agent 被很多人看作是這輪 AI 技術落地的最終範式。
去年,市場研究機構 Research and Market 發布的報告中指出,未來五年 AI 智能體的市場規模将增加 420 億美元。麥肯錫也表示,AI 智能體将是生成式 AI 的下一個前沿。
進入 2025 年,從 OpenAI 的 Operator 到中國 AI 公司蝴蝶效應研發的 Manus,再到大廠和獨角獸的競相加速,一場圍繞 AI Agent 的競逐賽悄然拉開帷幕。
這場競速賽注定不容易。算力成本的指數級增長、多輪對話中的幻覺誤差、場景落地的復雜程度 …… 一如每一場技術風暴來臨之時,這些都是行業玩家們面臨的共同難題。
就像比爾 · 蓋茨曾説的," 誰能主宰 AI Agent,那才是大事。因為你将永遠不用去搜索網站或者亞馬遜 "。
從實驗室走向產業前線,AI Agent 的想象力很大,在技術與現實的博弈之間,精準迅速地落地,給用户一個可靠的 AI 助手,才是這場比賽的賽點。
1、從 Operator 到 Manus,AI Agent 為何令人興奮?
" 求一個 Manus 邀請碼 "。
上周,科技圈對這個名字一定不陌生。一如 ChatGPT 和 DeepSeek 在模型層的爆火,應用層也發生了新的爆點。
這款号稱是 " 全球首款通用型 AI Agent 產品 ",由中國 AI 創業公司推出。據團隊介紹,Manus 是一個真正自主的 AI Agent,能夠解決各類復雜多變的任務。
該產品尚未完全對外開放,内測碼一碼難求,市場對 Manus 的好奇度已然達到頂峰。這是一種什麼魔力?
很重要的一點在于,Manus 展現出了更 " 類人 " 的能力。
圖源 Manus 官網
Manus 完全在獨立虛拟機中,能夠獨立思考、規劃并執行復雜任務,直接交付完整成果。在接到用户指令後,它可以直接操作電腦完成一系列報告撰寫、表格制作等工作,并在最後導出符合用户需求的產品。
在篩選簡歷時,Manus 會自動解壓檔案、上傳簡歷、浏覽簡歷,并記錄重要信息,給出自動排名建議,還能根據工作經驗等重要維度,将候選人分為不同等級。
換句話説,Manus 展現出了更進一步的自我思考和自我規劃能力。與普通大模型不同,Manus 不只是提供想法,還能幫用户把想法變為現實,解決實際問題。
這背後,Manus 的核心競争力在于其全鏈路自主執行能力—— Multiple Agent 架構。Manus 通過 " 規劃 - 執行 - 驗證 " 的多代理協同架構,用户不需要去對話引導,也不需要提供建議,只需要等待 Manus 直接交付完整的任務成果。
一夜之間,Manus 仿佛革了 OpenAI 和 Anthropic 的命。
實際上,市場對 AI Agent 更早的感知,來自于 OpenAI 和 Anthropic。
今年 1 月,OpenAI 推出了首款 AI 智能體 Operator,基于 Computer-Using Agent 模型,Operator 可以根據用户指令,在雲端執行任務,如訂餐、制定計劃、購物等。
一個月後,OpenAI 又推出了面向深度思考領網域的智能體 Deep Research,相比于 Operator AI 助手的定位,Deep Research 像是一個 "AI 研究員 ",它能将原本人類需要 8 小時的任務縮減到 5 分鍾,幫助人們在工作中節省幾小時甚至幾天。
由 OpenAI 前研究副總裁達裏奧 · 阿莫迪、大語言模型 GPT-3 論文的第一作者湯姆 · 布朗等人共同創立的企業 Anthropic,布局 AI Agent 的動作更早。去年 10 月,Anthropic 基于 Claude 模型,推出了擴展功能 Computer Use,用户能夠像指揮人類一樣指導 Claude 操作電腦,包括移動遊標、點擊按鈕和輸入文本。
值得注意的是,Manus 的出現讓大家紛紛想起了 Devin。這個在去年由 Cognition AI 推出的全球首個 AI 軟體工程師。Devin 也是一個自主 Agent,能自主學習不熟悉的技術,端到端地構建和部署應用程式,自己改 bug,甚至還能訓練和微調自己的 AI 模型。
在一個新興賽道,先發優勢固然重要,但大家都在發力時,好用就成為一個新的評判标準。
AI 智能體的工作原理無外乎四個步驟:感知、信息處理、執行、輸出。其中,想讓 AI 智能體真正化身人類的 AI 助手,效率和準确度都很重要,這也是 Manus 此輪火爆的原因。
據 Manus 官方介紹,Manus 在 GAIA 基準測試中取得突破性成績,其解決復雜問題的準确率比 Open AI 同類產品高出 12%。
從 Operator,到 Maunus,AI Agent 這把火顯然越燒越旺。本質上,AI Agent 之所以讓市場如此激動,是因為它讓 AI 完成了從被動響應,到主動執行的躍遷。當 AI 開始突破認知層,轉向行動層,AI 時代或許才真正到來。
2、大廠、獨角獸集體加速,AI Agent 今年是爆發元年?
今年,ChatGPT 掀起的大模型浪潮尚未平息,AI Agent 也迎來爆發元年。
前不久,百度創始人李彥宏提出觀點,2025 年可能會成為 AI 智能體爆發的元年。推理大模型湧現出讓人驚嘆的深度思考能力,這将推動人工智能的一個重要應用方向,即 "AI 智能體 " 的落地。
放眼整個行業,AI Agent 處于風口之上也是共識。市場研究機構 Gartner 将 Agentic AI 列為 2025 年十大技術趨勢之一,并預測到 2028 年至少有 15% 的日常工作決策将由 Agentic AI 自主完成。德勤 AI 研究院稱,AI 智能體将改變基礎業務模式,實現新的工作、運營和價值交付方式。
與 GPT 等對話式 AI 不同,AI Agent 能像人類助手般獨立規劃任務、調用工具并交付成果。如果説大模型讓 AI 長出了 " 腦 ",那 AI Agent 就是讓 AI 長出了 " 手和腳 "。
悄然間,AI 領網域的競争已悄然轉向更具想象力的戰場—— AI Agent。國内這場競速賽中,科技大廠和 AI 獨角獸依舊是兩大主角。
大廠們的思路在于,利用 AI 智能體賦能業務,完善 AI 應用生态,提高業務及自身在 AI 時代的競争力。
在 AI 領網域強勢的百度,動作莫過于最多。尤其是去年以來,百度多次公布 AI 的進展,智能體是反復提到的關鍵詞。百度已将智能體應用到移動生态的各個場景,包括百度新搜索、百度文庫、百度電商、文小言等產品。
其中,以文心智能體為代表,目前已經吸引了 15 萬家企業和 80 萬名開發者參與。據百度透露,文心智能體為百度搜索帶來了多輪對話、超級外腦、創意更新、拟人體驗和多元推薦等五大新能力。
另一邊,阿裏近期将 AI 智能體重點放在了 To C 領網域,發布并開源推理模型通義千問 QwQ-32B 沒多久,阿裏将其融入到通義 APP 中。3 月 10 日,阿裏通義 App 全新更新,上線超級智能體。通義 App 以超級智能體作為互動中樞,用户在通義首頁能問、能聊,通義超級智能體還能理解圖片、生成圖片,翻譯、寫作等復雜功能。
同樣聚焦 C 端的還有騰訊。今年 1 月的騰訊 2024 員工大會上,騰訊創始人馬化騰表示,騰訊會持續投入資源進行算力的儲備,希望各個事業部都能擁抱大模型的產品化落地場景。其中,包括微信、QQ、輸入法、浏覽器等產品都将推出 AI 智能體,遊戲、微信讀書、騰訊視頻等產品也将基于混元做更多 AI 探索。
相比于 BAT 結合自身深度思考大模型推出智能體,字節跳動的智能體更像是追着 OpenAI 打。早在 Operator 發布前兩天,字節跳動豆包大模型團隊就已經公布了同類型智能體 UI-TARS,和 Operator 的功能基本差不多。識别過程基于視覺模型和推理實現,能夠一步一步自動完成跨應用的復雜操作,并兼容各種系統。
不僅如此,憑借算力、數據等優勢,大廠基本都是在模型端、應用端、智能體開發平台協同三個領網域閉環發展。
一站式智能體開發平台方面,字節跳動的扣子、騰訊雲的騰訊元器、百度智能雲千帆 AgentBuilder、阿裏雲大模型平台百煉均已上線。
而在 AI 獨角獸中,智譜是最早探索 Agent 的初創企業。去年 10 月,推出自主智能體 AutoGLM ;一個月後的 Agent OpenDay 上,智譜展示了 AI Agent 的最新成果,包括 AutoGLM、AutoGLM-Web、GLM-PC 三個版本,對應手機、浏覽器、電腦的應用場景。
據悉,新更新的 AutoGLM 能夠理解超長指令,執行超長任務,在多步、循環任務中,AutoGLM 的速度表現超過人手動操作。今年 1 月,Agent GLM-PC 1.1 正式版上線,操作速度和任務成功率均有提升。
需要注意的是,經過 2023 年的百模大戰,2024 年的應用之争,行業淘汰賽加劇,2025 年對于初創企業而言,落地路線的選擇至關重要。
2 月 21 日,階躍星辰宣布發力智能終端 Agent 方向。階躍星辰與吉利汽車集團、OPPO、智元機器人等企業深化合作關系,尤其是智能終端 Agent 的開發,同時還展示了在金融财經、内容創作、新零售、數字人等領網域的創新和應用。
去年 5 月,月之暗面的 Kimi 上線了 Kimi+ 智能體商店,旗下有 20 多個由官方提供的智能體。
相較于互聯網大廠而言,AI 初創企業布局智能體的思路在于,通過自身模型能力與智能體的結合,推出更多可場景化的落地方案,尋找商業變現的路徑。
随着技術的不斷發展和市場的逐漸成熟,AI Agent 領網域的競争将愈發激烈,各企業的產品也将不斷迭代更新,以滿足用户日益增長的需求。
3、想象力大,落地卻不易
Manus 的火爆很突然,以至于 Manus 的團隊低估了市場的熱情。
Manus AI 團隊產品負責人張濤近日在朋友圈發文表示," 這本是一個產品探索過程中的階段性收獲分享,因此伺服器資源是對标 demo 水平來準備,不曾想過會引起巨大波瀾。"
這段話的背景在于,Manus 爆火之後,關于 Manus 通用型的 " 套殼 " 嫌疑、官網卡頓等質疑聲層出不窮。所謂 " 套殼 ",即 Manus 沒有自研底層大模型的能力 , 其模型能力主要來自 Anthropic 的 Claude。
Manus 團隊已聲明,當前的 Manus 距離正式版想交付給大家的體驗還差很遠。" 像模型幻覺、交付物友好度、運行速度等方面都還有很大的提升空間。"
事實上,Manus 的困境是當下 AI Agent 賽道的縮影。
首當其衝的就是 AI 幻覺問題。OpenAI 的 Operator 可能因數據污染生成錯誤結論;Manus 在演示中雖流暢,實際應用中卻常因系統權限限制無法完成訂餐、支付等任務。
這些所謂的幻覺問題是目前的 AI 技術無法避免的。DeepSeek-R1 幻覺率高達 14.3%,GPT-4.5 幻覺率為 7.1%,某種程度上,AI 幻覺能力與其推理能力正相關。也就是説,越聰明的 AI 大概率幻覺越強。
這對 AI Agent 無疑是個老大難。作為提高效率的 AI 助手,用户的終極需求莫過于準确性,而幻覺問題可能為用户帶來了包括檢查、復查等多個環節,勢必成為 AI Agent 爆發的主要障礙。
尤其是在金融、醫療、法律等高風險領網域,任何誤差都可能引發暴風雨,這也就限制了 AI Agent 的場景落地。
更重要的是,相比于對話式的 GPT,AI Agent 的一個重要進步在于 " 有記憶 "。Manus 通用型 Agent 就具備 " 記憶能力 ",若用户曾要求 " 用表格呈現結果 ",下次任務中它會主動生成 Excel 檔案。一旦出現幻覺問題,AI Agent 作為工具的實用性也要受到質疑。
本質上,幻覺問題的來源于數據的缺乏。正如人類通過理論和實踐在社會發展過程中的不斷學習和進化,AI 則需要源源不斷的數據反饋來進化,而數據的訓練離不開實際的應用落地。
就目前實際應用而言,C 端智能體大多定位智能助手,可通過讀取語音指令理解用户意圖,并模拟人類行為,完成訂機票、點外賣、篩簡歷等基礎日常需求和工作。
這時候,用户留存和心智培養是個問題。像 Manus 這類主打通用的 Agent,或許很難在垂直場景下發揮作用。而人類社會正是由一個個具體的場景構成的,復雜程度難以想象,通用型 Agent 最終能在用户生活實際起到多大作用,還是未知。
另一邊,B 端智能體則需要提供更為專業和定制化的服務。在 B 端場景下,Agent 可充當數字員工、個人助理、營銷客服等工種,真正為企業創造價值。
一些聲音認為,B 端 Agent 市場有望率先起量。具體到玩家身上,據 The Information 報道,OpenAI 計劃為專業人士推出量身定制版 Agent,用于執行銷售線索分類、軟體工程和博士級研究等高級任務。針對 " 高收入知識工作者 ",每月 2000 美元;用于軟體開發的,每月 1 萬美元;博士級研究代理,每月 2 萬美元。
從目前的發展趨勢來看,AI Agent 最有可能在企業服務和辦公場景中率先落地。在企業服務領網域,AI Agent 可以幫助企業實現業務流程的自動化和智能化,降低人力成本,提高工作效率。在辦公場景中,AI Agent 可以成為員工的智能助手,協助完成各種辦公任務,提升辦公體驗。
IDC 發布預測稱,到 2026 年将有 50% 的中國 500 強數據團隊使用 AI Agent 來實現數據準備和分析,并成為重要組織者和協調者;40% 的中國 500 強企業将實現數據智能與 AI 模型智能的結合,以統一 AI 模型和數據的綜合治理政策、實踐和技術。
不過,想要真正作為 AI 助手對接企業也有不少難題。企業的業務流程和需求各不相同,如何将 AI Agent 與企業的現有系統和業務流程進行無縫集成,是一個關鍵問題。
這需要 AI Agent 具備高度的定制化能力和兼容性,能夠根據企業的具體需求進行靈活配置和調整。同時,企業對數據安全和隐私保護也非常重視,AI Agent 在處理企業數據時,必須确保數據的安全性和保密性,防止數據泄露和濫用。
落地當然是不容易的,這需要不斷擴展的算力、數據、場景做支撐,好在市場的熱情已經被點燃,玩家都在為 " 讓 AI 幫人做事 " 而努力。
當大模型與 Agent 深度融合,一個更智能、更主動、更個性化的 AI 時代正加速到來,這一次,獨角獸和大廠們都在加速奔跑,沒有一個甘心落後于時代。