今天小編分享的科技經驗:解構Manus AI:這是通用Agent革命,還是精巧縫合怪?,歡迎閱讀。
自媒體的反應堪稱狂熱:" 通用 Agent 終于實現了!"" 這是繼 DeepSeek 之後的又一技術革命!" 這樣誇張的贊譽随處可見。
從 Benchmark 來看,它的表現确實非常亮眼,在 GAIA 測試中超越了之前的各種 Agent 以及 OpenAI 的 DeepResearch。
GAIA 測試非常權威。它是由數個來自 Meta、HuggingFace 和 AutoGPT 的大佬共同完成,模拟了真實世界的復雜問題,要求 AI 展現推理、多模态處理、網頁浏覽和工具使用等多維能力。之前,GPT-4+ 工具調用在這個測試中僅獲得了 15% 的成績。
然而,技術世界的真相往往藏在熱鬧喧嚣之下。想要真正評估 Manus 的進步意義,我們需要審視一下它在已有的技術土壤上究竟播種了什麼新芽。
Manus 之前,Agent 離臨門一腳還有多遠?
當前的 Agent 已經發展到什麼水平了?
借用 OpenAI 前應用研究主管 Lilian Weng 的經典定義,一個合格的 Agent 需要三大核心能力作為其 " 大腦 " 中樞:
1. Planning(規劃):如同一位棋手,能将復雜局面分解為一系列精妙的子步驟
2. Tool use(工具使用):宛如工匠,懂得從工具箱中選取最合适的工具并熟練使用
3. Memory(記憶):既有短期記憶存儲即時信息,又有長期記憶沉澱持久知識
而過去這半年中,Agent 領網域雖然看起來沒什麼火爆的產品,但技術底層能力卻在大幅躍進。
尤其在 Planning(規劃)和 Tool Use(工具使用)兩個方向上進步快速。
Memory(記憶)領網域雖略顯滞後,但 DeepSeek 的 NSA(原生稀疏注意力機制),Google 和微軟也在發力突破這一瓶頸。
我們今天重點聊 Planning(規劃)和 Tool Use(工具使用)兩個方向。
Planning 的進化:推理之翼展開
Planning(規劃)是最先有進步的。從 GPT-o1 開始的測試時計算(test-time compute)拓展模型,也就是我們常說的推理模型,讓單個大模型的 Planning 能力大幅提升。
這裡就需要展開說說基礎模型和推理模型的區别。相比基礎模型,推理模型在四種關鍵認知能力上有很大提升:
● 驗證:如同一位細心的校對者,不放過任何錯誤
● 回溯:當發現道路不通,敢于放棄并尋找新路徑
● 子目标設定:将龐大山峰分解為可攀登的階梯
● 逆向思考:從終點回望起點,尋找最優路徑
也就是說,基礎模型需要四個模型完成的事情,推理模型用一個就夠了。
斯坦福大學最近的一篇論文正在試圖破解推理模型為什麼這麼厲害。研究者在 Qwen-2.5-3B 和 Llama-3.2-3B 上施加相同訓練後發現,Qwen 如同開了挂一般迅速進步,而 Llama 則進展緩慢。
深入探究後發現,Qwen 天生就具備驗證和回溯等思維習慣,而 Llama 則缺乏這些 " 思維良習 "。
當研究者用含有這些思維模式的 " 示範 " 來引導 Llama 時,即使示範中的答案是錯的,Llama 也能迅速提升。這揭示出,要想讓 AI 在有更多思考時間時真正變聰明,它必須先掌握上面提出的四種基本思維方法。
此外,推理模型帶來的另一個好處是靈活性。過去由 workflow 構建的模型往往只能解決特定問題。而推理模型因為其本身的泛化能力可以處理更通用的事物。這也是 Manus 能更 " 通用 " 的基礎。
當前,Agent 工作流系統中的主要核心節點功能在很大程度上就是在模拟這些思維模式。這四種能力齊全的推理模型本身已經是一個天然的 Planning Agent 系統了。這就是今天我們想重點探讨的。
在 Manus 出現前,在 Agent 中使用推理模型最成功的實踐是 2 月 2 日 OpenAI 的 DeepResearch 及其類似產品,如 Grok 3 的 DeepSearch。
在紅杉對 OpenAI DeepResearch 產品團隊的訪談中,團隊在解釋其能力時就提到,"DeepResearch 是 o3 模型的一個微調版本,o3 是一個非常智能和強大的模型。很多分析能力也是來自底層的 o3 模型訓練。"
DeepResearch 是直接通過端到端的訓練,而非搭建工作流的方式來運作。在這裡,推理模型本身就成了 Agent。
而 DeepResearch,根據嘗試進行復現的 Jina AI(AI 搜索產品)的分析,主要也就是搜索、閱讀和分析三者間的循環工作。只不過推理需要能判别内容是否充足、搜索到的資料是否對應,再去要求下一輪搜索。
而同樣是在前日發布、在外網獲得滿堂彩的 Qwen 團隊推出的 QwQ-32B 模型,在其說明中特别提到了,它在推理模型中集成了與 Agent 相關的能力,使其能夠在使用工具的同時進行批判性思考,并根據環境反饋調整推理過程。
這都是為了已經有能力 Agent 化的大模型在打基礎,做拓展。
而作為一款通用的 AI 代理,Manus 毫無疑問的使用了推理模型帶來的新能力。我們看到其搜索路徑規劃與 DeepResearch 非常相似,但在網頁浏覽中使用到了後面工具使用章節中的浏覽器控制能力。
這确實很聰明,因為可以更好地閱讀如網頁 PDF 類直接讀取頁面難以完整呈現的内容。
Tool Use 的進化:從工具到環境的征服
而(Tool Use)工具使用能力的進化則開始得更早。這裡有幾個關鍵裡程碑标記着這一進程:
● 2023 年 7 月 9 日:Code Interpreter 問世,AI 開始能執行代碼,這是工具使用的第一步。
● 2024 年 6 月 20 日:Claude Artifacts 登場,AI 能夠在對話中動态創建和修改各類 " 人工制品(各種小型工具和虛拟機)",生成從代碼到圖表,從文檔到互動式組件的直觀内容。
● 2024 年 10 月 22 日:Claude 的 Computer Use 功能橫空出世,AI 不再局限于專用工具,而是能像人類一樣 " 看見 " 螢幕并操作計算機,移動遊標、點擊按鈕、輸入文本,真正模拟人類與計算機的自然互動。這一能力的上線,使得 Claude 3.5 Sonnet 的 Agentic 工具使用評分整體來看,平均提升了一半以上。
● 2024 年 11 月 25 日:Anthropic 開源了劃時代的 " 模型上下文協定 "(MCP),這是一把打開數據世界的萬能鑰匙,讓 AI 能直接連接各類數據源而無需繁瑣的定制開發。
● 2025 年 1 月 23 日:OpenAI 推出 Operator,主打網頁浏覽能力的計算機使用代理。能力上和 Claude 的 Computer Use 非常相近,但在網頁 UI 上更有加成。
這種工具使用的能力,目前在 Manus 的演示中和 Artifact 水平相似,只是多加了網頁浏覽能力,至于和計算機的其他互動,限于虛拟機的限制并不能達成。
特别值得一提的是,在所有這些嘗試中,MCP 的出現堪稱革命性。因為對于 AI 工具使用來講,最大的問題是數據獲取和功能獲取。
過去常用的數據和功能的調用方式 Function call(函數調用),最大的問題就是用 API 的時候,需要為每個功能進行額外開發。
每個功能分别進行開發,工具的拓展速度就會很慢。但 MCP 直接高靈活、高復用,很多工具和數據都可以直接通過協定調用,不用再進行單獨開發了。
它優雅地統一了本地資源和遠程 API 的訪問方式。
(圖片來自知乎作者 Dukee)
正如 AIGCLINK 發起人所言:"MCP 相當于一個萬能的數據插頭,打通了 Agent 構建的最後一公裡。" 更重要的是,它解決了隐私安全和知識產權問題," 工作流完全可以在本地運行,沒有商業授權問題。"
這意味着,中間件平台如 Coze、Dify 等產品的空間被大大壓縮,模型方和應用方的分工将更加清晰。
因為在過去 Agent 工作流裡,另一個核心功能就是工具調用。這都是中間件平台用 function call 手搭的,一般開發者不想自己寫,就得用開發 Agent 工作流的中間件平台。
可以說,Agent 原來的中間件平台的兩大作用——工具調用和節點式步驟規劃,到這步就都被新的技術進化取代掉了。
Manus 的真相:是創新革命還是組裝?
讓我們回到 Manus 本身,看看它的能力範圍有沒有超出前兩點呢?
從演示來看,它确實是有效整合了 DeepResearch、Artifacts 和 Operator 三大現有能力。
據媒體引用但未出現在 Manus 官網上的官方資料稱,Manus AI 使用一套名為 "Multiple Agent" 的架構,運行在獨立的虛拟機中。通過規劃代理、執行代理、驗證代理的分工協作機制,來大幅提升對復雜任務的處理效率,并通過并行計算縮短響應時間。
在這個架構中,每個代理可能基于獨立的語言模型或強化學習模型,彼此通過 API 或消息隊列通信。同時每個任務也都在沙盒中運行,避免幹擾其他任務,同時支持雲端擴展。每個獨立模型都能模仿人類處理任務的流程,比如先思考和規劃,理解復雜指令并拆解為可執行的步驟,再調用合适的工具。
我們可以大膽地從當前 Manus 可以執行的操作和其技術描述去重構其能力:它很有可能是三個相關功能的串聯,由一個主腦做步驟調配。
當然也有可能根本不需要主腦,以規劃代理同時承擔工作協調的能力。
這也是 Zengyi Qin(MIT 博士)認為它在本質上還是一個預先設定的 " 工作流 " 的原因。
只不過這個工作流當前各個節點的能力大幅增強了,而其負責規劃的主腦也進化成了可以分布拆解和發起任務的推理模型。
而其代理層及模型層架構中與 DeepResearch 和 Artifact 能力的重疊基本是 100% 的(影像浏覽用了一些 Operator 能力)。
在 Manus 的解釋中,除了浏覽網頁用到了 Computer Use(計算機使用)之外,它在虛拟機中的計算機應用并不多。這也是 Zengyi Qin 認為它在無邊界作業系統級環境(open-ended OS Level environment)中未取得突破的原因。
因此官網上介紹的智能研究、高級數據分析、任務自動化三大功能其實也就是 Manus 的極限了。
Less Structure, More Hype?
相較于 DeepResearch 這類嘗試用推理模型賦能 Agent 的前沿工作,或 Claude 的 MCP 協定對工具使用領網域的革新,Manus 的技術突破相對有限。它的主要創新點是借助推理模型實現了簡化結構,同時增強智能處理能力的設計。
這也就是楊遠騁 Koji 發布的據說來自 Manus 團隊内部的 "Less Structure, More Intelligence" 理念。
當然,這個理念 OpenAI 的產品團隊在紅杉的訪談中也提到了類似的說法。
盡管如此,Manus 作為一款產品,也展示了 Monica 公司在整合功能、優化用戶體驗方面的專長。它提供了簡潔而強大的工作流更新,将當前最先進的 AI 能力整合到一個流暢的用戶體驗中。
在它之前,領先模型公司中唯一做過這個嘗試的是谷歌。在 2024 年 12 月 12 日,谷歌推出 Gemini 的同時,也推出了一個 Agent 系統 Project Mariner。可以同時完成獲取表單、找到公司官網、聯系方式等多步驟任務,Agent 會自動執行在谷歌搜索中查找電子郵件的過程,且這一過程中用戶可以随時點擊暫停和停止。同時,用戶可以看到 Agent 每一步行動的推理步驟和計劃。
在計算機使用層面上,它比 Manus 還激進。
但谷歌的這個產品還只是個餅,并沒上線。因此,Manus 代表了當前 AI 技術整合的一個優秀案例。而且整體性,而非技術創新上甚至超越了最先進的基礎模型公司。
但無論如何,把它和 DeepSeek 的突破相比,也許并不合适。