今天小編分享的互聯網經驗:深度實測Manus,我依然認為這就是AI Agent行業的DeepSeek時刻,不過……,歡迎閲讀。
文 | 闌夕
Manus 刷屏一天,從開始的一夜成名,到中間的一碼難求,再到質疑它的宣發一擲千金,整個過程裏,FOMO 情緒和直覺警惕交纏不休,是很有意思的傳播學樣本。
其實 AI 行業這幾年來一直都是「炸裂驅動型」的資訊模式,了解的都已經祛魅了,不了解的卻還會少見多怪,但是有一説一,天天這麼炸裂下來,客觀上也會存在真的炸裂蒙混其中。
而我對 Manus 的評價就是,它确實屬于真 · 炸裂的那一桌,稱得上 AI Agent 行業的 DeepSeek 時刻,不過有個補丁,結尾時我再疊上。
先看 Manus 的一個演示效果:
讓它開發一款文字互動遊戲,可以扮演谷歌公司的 CEO,通過體驗公司歷史上的重要決策,既能獲得遊戲的樂趣,也可以順便了解公司的文化。
用了差不多一個小時,Manus 把谷歌 CEO 模拟器的網頁遊戲開發好了,完成度很高,點擊開始遊戲,還會讓你自選難度,接着就會面對谷歌發展史上的每一次轉變節點,你的選擇會決定公司資源的變化,并影響最終的遊戲結局。
在一個小時裏,用一句話,做一個遊戲出來,這就是 AI Agent 的能力。
它和傳統的對話式 AI 不同,不再只是提供信息層的答案,而是能夠操作電腦完成更加具體的工作任務,包括但不限于寫程式、做網頁、整報告、篩簡歷等等等等,它能夠完全自主的解決過程中遇到的各種困難,并交付工作結果,當然也有例外,這個例外我們後面再説。
目前主流的 AI Agent 服務不多,而且普遍很貴,比如 ChatGPT Operator 需要 200 美元一個月 Pro 會員才能使用,還有主打編程市場的 AI 工程師產品 Devin,每個月的費用更是要 500 美元。
Manus 的開發商是中國大模型團隊 Monica,目前是免費測試階段,單任務成本壓縮到了 2 美元,是 OpenAI 的 1/10,同時在基準測試的排行榜上已經超過 OpenAI 拿下了全球最強。
我在拿了邀請碼後,已經在幾個小時之内耗盡了 Manus 的單日計算資源,确實非常興奮,效果也非常震撼。
展示幾個實測案例吧:
首先我讓它幫我做一張 linktree 風格的個人主頁,Manus 把這個任務拆成了 8 個步驟,先在全網搜集我的資料信息,包括我在各個平台的鏈接以及代表作,然後基于 linktree 的設計風格開始編寫網頁代碼,半個小時之後,它交付了這麼一個作品給我。
簡單,但是完美符合要求,互動也都沒問題,寫輪眼級的復制效果,如果想做得更美觀,還可以繼續寫提示詞讓它修改。
第二個測試,是我用 Manus 幫一個工程師群友解決實際問題,他在工廠裏負責維護的阿特拉斯機械臂出了點小問題,找售後的話費用要花幾千塊錢,不如自己想辦法找補,他又懶得看文檔,于是直接給了我一段話,讓 Manus 看看怎麼處理。
注意啊,這個需求理論上普通的對話式 AI 也能接住,但會需要更多的互動流程,比如你得把文檔喂給它,一步一步的得到答案,但是 Manus 不需要這些,它會自己去阿特拉斯官網下載文檔,讀完之後找到解決問題所需的關鍵内容,仔細分析,創建程式,最後的代碼我發給了朋友,有點小瑕疵但手工修改之後完全可用,直接省掉了一次售後呼叫的次數。
第三個測試,是我的微博讀者提議,讓 Manus 去做一個國家的極簡編年史,我增加了漫畫表選和網頁設計的要求,最後交付的作品配色有點難繃—— AI 沒有審美,這點必須反復強調——但是這時 Manus 的伺服器已經宕機了,暫時沒法修改,所以我也就把半成品展示出來吧。
可以看到,Manus 将英國的歷史抽成了 10 個不同的時代,并基于時代風貌繪制了 SVG 圖片,最後呈現在 HTML 的網頁端,可以説是人機協同的模範間了,無論是作為課外教案還是作品預覽,都有極其便捷的上手門檻。
最後一個案例,是我讓 Manus 做一款消消樂遊戲,但是圖示得用原神的角色,它先是開始研究消消樂的遊戲機制和實現方法,接着試圖搜集原神的圖片素材,這個時候就出現例外了,它第一次發出了接管請求,原因也很讓人無語,它的運行邏輯被一個網盤給堵住了,沒法注冊賬号,所以下載不了資源,想讓我幫它去下載。
看來再強大的 AI,也會被網盤的會員攔在門外。
本着盡可能讓 AI Agent 獨立完成工作的原則,我沒有這麼做,而是稍微改了一下需求,讓 Manus 改用科技公司的 logo 來做遊戲圖示,因為開放版權的 SVG 素材全網都是,所以這下 Manus 跑起來就沒什麼問題了,很快就做完了一個帶積分的消消樂遊戲,玩起來也算順暢。
不過也能看到,在解決這類相對復雜的問題時,Manus 在細節方面的缺失還是有的,這也和人類(我)參與過少有關,比如對螢幕的适配問題,需要給它更多的説明,Manus 的修改響應也不慢,但因為同樣遇到了伺服器宕機的麻煩,這個任務暫時沒有繼續精進下去。
我覺得這幾個實測例子已經可以非常清晰的表明,AI Agent 在現階段的能力和不足,Manus 已經不是那種只能操作浏覽器的產品了,它本身具有沙盒環境,能在完成工作之前自行進行測試,驗收合格再做交付,但也限于互聯網的數據邊界,如果網絡上的資源不夠,它是沒有辦法生產資源自給自足的。
我還做了一些偏文書類的測試,也可以用來對比 AI Agent 的特點:
比如我讓 Manus 根據 B 站最熱門的 10 個星見雅(遊戲角色)視頻,給出她的操作技巧。
Manus 是真的足足看完了 10 個視頻——花了一個多小時的時間——再去把各個 UP 主的小作文精煉成了我要的材料,而且相當準确,同樣的任務如果交給聯網的大模型去做,雖然也能完成,但幻覺的產生概率很高,在「老實」程度上不及 AI Agent 靠譜。
再如讓 Manus 去研究 PolyMarket 的套利可能,雖然我确實有那麼一絲期待,想得到一個穩賺不賠的投資指南——别笑—— Manus 倒是兢兢業業的做足了功課,列出了四個套利機會,讓我只要在 PolyMarket 看到符合條件的項目出現,就能無腦按規則下注。
從回放來看,Manus 每次都是從最基礎的信息開始切入,先了解 PolyMarket 是什麼,再分析預測市場的遊戲玩法,接着結合平台規則構建風險策略,标準的實習生作風,任勞任怨,踏實耐用。
對了,回放這個設計,在我看來也是 Manus 的亮點之一,它有點像推理模型暴露思維鏈的選擇,很多時候,AI 的思考過程要比答案供給更能給人啓發,Manus 的每一個任務都有回放功能,且可被分享出去,它在解決問題的途中所展現出來的手段,完全稱得上是另一種形式的智能資產,可以扮演人類的老師。
所以話説回來,我評價 Manus 是 AI Agent 行業的 DeepSeek 時刻,這裏需要打一個補丁,是 DeepSeek-V2 時刻,2024 年 5 月,DeepSeek 開源 V2 版本的模型,這是它第一次出圈,因為價格非常便宜,但是因為模型本身的能力一般,所以當時很多人只是覺得 DeepSeek 要來打價格戰了,感到意外但不重視,熱度也沒有持續太久。
直到 DeepSeek-V3 和 R1 的連續發布,大家這才發現事情完全不一樣,一夜之間整個大模型市場的成本邏輯都被颠覆了。
我的意思是,AI 技術的發展是連續性的,而在這條跌宕起伏的曲線上,每一次的信号強度都決定了後面的突破深度,就像 DeepSeek 沒有 V2 就不會有 V3,更不會有 R1,我對 Manus 的看法沒有變化,在把 AI Agent 服務從專業場景帶向通用場景的歷史轉捩點,它就是開山立派的創始品牌。
從用例來看,作為 AI Agent 的功能性非常強大,對于拆解任務的熟練度很高,CoA(代理鏈)的觀測感覺和看 CoT(思維鏈)很像,能「看到」AI 在多個方案裏評估并尋求最優解。
理論上應該是内置了海量的 CoA 來做承接,就和 DeepSeek 這類推理模型也是提前消化了足夠豐富的 CoT 之後才會推向大眾市場,盡可能的覆蓋到了主流需求,從官網的 Use Case 就能看到。