今天小編分享的科技經驗:「工程的勝利」不僅在 Manus 自身,而是讓整個智能體生态真正走上舞台,歡迎閲讀。
自從發布以來,Manus 經過了一個堪比過山車的傳播歷程。
從一開始的驚豔,到被加速捧至高點,再到遭受套殼、營銷的批評,一切都發生在短短一周内。
在各種各樣的聲音當中,我們找到了和 Manus 最為相關的一群人:正在參與 agent 以及配套設施的開發者們,聊了聊他們眼中的 Manus ——不讨論營銷和争議,僅僅是技術層面。
結論并不復雜:Manus 無疑是一款優秀的產品。以「套殼」為理由來否定 Manus,是它的無妄之災。
同時,「縫合」一詞,也并不公允。一個通用型 agent 的能力和潛力,不僅體現在鏈接了多少工具,更在于對于 agent 本身的認知。
那些圍繞營銷和套殼展開的争議,指向的是一個問題:Manus 的價值到底是什麼?
橫空出世的「全球首個」
快忘了上周盛況的朋友們,這裏有一個快速回顧:3 月 5 号深夜,Manus 上線内測,在官方展示的視頻中,放出了好幾個原本只在 PPT 中才會出現的精彩使用案例,無一不展現出 Manus 獨特的任務理解和執行能力。
老實説 Agent(智能體)并不新鮮,但 Manus 打出「全球首個通用型智能體」的説法,掀起了前所未有的讨論浪潮,也讓「通用型 agent」走到台前。
由于内測使用需要申請邀請碼,且發放速度慢,一時間造成了哄搶的局面——用例有多驚豔,用不上的人就有多焦慮。
這種邀請碼的機制,陰差陽錯地把 Manus 推到一個近乎詭異的熱度,甚至被稱為「又一個 DeepSeek 時刻」。
DeepSeek 是模型,Manus 是智能體,是截然不同的兩種產品。然而某種程度上,二者的歷程,确實有相似之處。
DeepSeek 做的是模型,但它并非是從零開始,而是在一系列已有的開源工作上,實現了工程上的勝利。
類似地,Manus 實際上并非第一個做通用型 agent 產品,在 2023 年同類產品就湧現過一輪。Manus 本身也從大量開源工作中獲得幫助,團隊此前曾經打造過 monica,一款集成式 AI 助手,積累了豐富的 agent 工程經驗。因此,Manus 也同樣被視為一種工程上的勝利。
工程上的勝利究竟是指什麼?
這個問題必須回到「通用型 agent」是什麼這個根本源頭上。
人跟動物之間的區别在于制造和使用工具,這句話,放在 agent 身上也成立——普通 agent 和通用型 agent 的區别在于,後者能夠主動調用工具。
「很多人覺得 agent 就是原來的對話機器人,接上數據庫,就叫做 agent。實際上,一直以來 agent 的定義都是需要能使用工具,能真正的有所行動。」 William Lee 解釋道,他從去年開始和創業團隊一起開發針對 agent 的中台系統 ACI.DEV,就是在為 agent 類產品提供盡可能便捷的 API 調用服務。
在具體的產品使用上,工具調用能夠把 agent 的能力邊界,再推得更推遠一些。活躍在 agent 開發社區的堅白,見識過 Manus 在執行上的能力:剪視頻。
「剪的效果怎麼樣另説,但是它可以去做到,可以完成,不會拒絕你。」
原理并不復雜:剪輯的動作,可以在一定程度上以代碼的方式來實現。又或者,一些在線工具可以被調用出來,完成剪輯的動作。
這樣完成的剪輯當然是粗放的,成品跟人工剪輯無法相提并論,但就像堅白所説,Manus 不會拒絕這個要求,而是會主動尋找工具完成。「在過去的應用裏,agent 可能會推薦給你一個剪視頻的網站或者工具,但沒有這樣端到端的結果。」
他認為這反應了 Manus 團隊的認知,是在一種更有高度的位置上。「我認為他們把代碼,包括整個代碼的運行環境,更多作為工具,而不是目标。」
曾經一些類似的項目,給出一段代碼或者設定虛拟機,就已經是最終目的。而 Manus 的理解是,設計虛拟機跑代碼,只是實現方式,它們是為了完成某種目的而存在。
「我覺得是他們在認知上有領先」,堅白説,「大家都在説要把 agent 當成人看,但他們真的是認真思考了 agent 如何作為一個主體。」
Key differentiation
那麼,虛拟機是那個讓 Manus 脱穎而出的設計嗎?
「虛拟機不是一個 creative 的設計,」同樣是在做通用型 agent 產品的鄭淺解釋。
鄭淺所在的公司 Convergence.ai,在 1 月時推出了同樣屬于通用型 agent 的產品 Proxy,在 webvoyage 基準測試中險勝 OpenAI。
不久前 Proxy 登上 Product Hunt 榜單,鄭淺忙着帶領工程團隊應對突然湧來的流量。他們面對的是海外市場,可見通用型 agent,在海内外都是被寄于厚望的 agent 形态。
「OpenAI Operator 就是虛拟機,Manus 是給 browser use 之後,加了一個 coding execution,然後放到一個虛拟機裏面去實現。」
Browser use,是一個在 Github 上獲得了 4 萬星的開源項目,它相當于把網頁浏覽器放在了 agent「眼」前,結合了大語言模型以及視覺識别。用户只需要通過自然語言,就能讓智能體對網頁上的元素進行實際操作。
早期 Proxy 也嘗試過類似 browser use 的路線。「通過這種方式幫用户做點擊、拖動等等的動作。整體是比較簡單直接的,只需要用户給一個任務,它一步一步去執行。」
這個形态比較線性,無法勝任更復雜的任務。或者説,當任務的復雜程度上升,需要用户給出更有細節的指令,反而成了對用户的挑戰。
「我們公司算開始得比較早,跟 OpenAI 和 H Company 他們也比較多交流,後來 OpenAI Operator 出來,agent 一下就變火了。大家很快就往一個新的東西上面去靠攏,就是 agent orchestrator。」鄭淺非常明确,「可以説 general agent 真正的區别,不在于縫合了多少工具。」
建設一個普通的 agent,可以用「縫合」簡單粗暴地概括。但是要建設一個 general agent,必須是一個系統工程。
「你可以把 agent 想象成一個人,最復雜的部分在于核心決策系統——就是大腦和神經傳輸。其次復雜的是執行構建,比如説相當于人類的四肢與末端。至于你剛才提到的生成報告、浏覽器互動、代碼執行等功能模塊,本質上屬于工具鏈層面的能力。」
人并不是生下來就會走路的,嬰兒只會胡亂揮舞手腳,然後會爬、會站,磕磕絆絆地學會走路,最後學會精準地控制自己的四肢。
整個學習的過程,也是大腦逐漸成熟的過程。Proxy 的絕大多數工作都在圍繞這個「大腦」展開,具體而言,是 planner agent 所負責的動态規劃。
「有一個調侃是,規劃不能預測未來:規劃可以做的很好,但你不知道未來會發生什麼。放在 agent 上面也是一樣的,比如説它浏覽某個網站,碰到無法打開的情況,比如改版啊或者網域名過期,或者直接關停等等,那這時候 agent 該怎麼做,這就需要動态規劃。」
▲ Manus 實測中,碰到網站登錄及驗證問題
一個典型場景是驗證碼,Proxy 和 Manus 可以解決一些簡單的驗證碼,但太復雜的還是需要交回給用户,也可能被直接跳過。
鄭淺解釋難度藏在細節裏,「都是細節,而且情況非常多樣。如何在規劃上去實現復雜任務,同時又能回傳——用户基數一大,做什麼千奇百怪的事情都有,如何覆蓋各種各樣的場景是很大的難點。」
現階段 Manus 并非盡善盡美,但它足以作為一個工程啓示錄。「它主要的成功之處,确實就是在工程上面」Wiilliam 非常認同這一點,「它結合了市場上已有的模型,很好的跟工具做了對接,然後讓用户第一次看到,真正可以調用工具的 agent 到底能做出什麼樣的效果。這樣子我覺得百分之百是工程上的勝利。」
真正的勝利屬于生态
Manus 正像是那個正在學走路的幼兒,它能夠造成巨大的讨論,并不在于它已經能走多遠、跳多高,而在于展示出了足夠的潛力。
這或許才是它最大的貢獻:Manus 的走紅,讓一系列與 general agent 類的應用,乃至基礎建設的工作,都漸漸浮出水面。
最新的進展是 OpenAI 推出了 Responses API,這是一個面向開發者,而且就是 agent 開發者的新發布。
在開發者社群裏,Manus 更加是激發了許多想法。堅白正在做和 agent 記憶相關的項目,Manus 的出現讓他開始重新思考記憶儲存相關的範式。
記憶儲存對于 agent 的實際工作至關重要,這不僅影響着 agent 能否從過往任務裏學習到經驗并沿用,也影響着能否形成關于用户使用習慣的記憶,真正做到個性化。
另外,通用型 agent 在理論上有着最大的自由度,可以鏈接和調用任何工具——在延遲、接口标準化等方面足夠好的前提下。這正是 ACI 這類中台型產品,所想要提供的服務。
這可能是 Manus 最成功的一點:它作為現階段通用型 agent 最出圈的案例,為一系列配套設施打開了想象和探索的空間。
「其實通過 Manus 可以看到,現在模型已經跑在工程的前面很多了。」William 認為工程方面還有很多可以探索的空間,「我們還可以在工程上面繼續做點什麼,來拉高這種 AI agent 產品的效能。我個人的看法是現在 agent infrastructure 這一端的話都還是挺不成熟的,包括像我們這種工具調用平台,或者是説這種 memory layer,這些在工程方面都還有很多方向是可以優化的。」
這也是我們跟開發者社群接觸下來最大的感受:他們感到興奮與躍躍欲試。「通用」兩個字所包含的可能性,前所未有的生動。
Proxy 馬上要基于新的 parallel agent 思路,推出迭代的版本。鄭淺一直在觀察社群的反饋,他看到許多用户把 Proxy 用出了自己根本沒想過的方式,不斷被挖掘出新的可能。
「大多數產品最後的使用目的,都不太會是一開始開發的目的,可能後面是由用户來發現我們沒有發現的用途,我們也在等待那一個 moment 的到來。」