今天小編分享的科技經驗:讓Manus給36氪當一天實習生後,我們想給Ta多發點獎金,歡迎閱讀。
文|鄧詠儀
編輯|蘇建勳
(鑑于 Manus 引起的炒作争議,36 氪特别申明,本文絕非投放,實際上,我們連要到邀請碼都頗費了一番周折 ……)
應該無需贅述 Manus 的引起的轟動了:大家已經在各種視頻切片中,看到 Manus 勤勤懇懇地搜資料、做 PPT、開發網頁小遊戲。回放形式的分享設計,讓人一眼就能感受到 Agent 帶來的直觀效率提升,這也讓 Manus 經歷一場迅速破圈。
在輾轉拿到邀請碼後,36 氪編輯部讨論了一下,為了更好地了解 Manus 的特性和功能,我們決定請 Manus 來當實習生,按照正常的工作流給 ta 分配任務,看看 Manus 能否勝任。
OK,輸入邀請碼,36 氪的新實習生 Manus 就位!
來源:Manus
先說第一觀感,如果你要請這位 " 實習生 ",可能第一個需要接受的現實狀況就是:這是位容易宕機的同學。
Manus 如今的服務非常不穩定。36 氪在周末實測時,第一感覺就是:讓人崩潰 …… 任務頻繁遇到停滞,因為 Manus 在雲上的虛拟機跑,經常需要手動重置,才能繼續跑。
本期實測,就是在 Manus 不斷的崩潰間隙,測出來的。
測試的界面,總是停留在 " 連接已斷開 "、" 遇到嚴重問題 ",需要不斷重置 / 開啟新會話 …
偶爾出現的幻覺(不确定是幻覺還是官方通知)也很真實。Manus 前一句還在說需要兩小時更新維護,你再敲敲它,它就馬上又開始幹活了 ……
捉摸不透的 Manus
Manus 号稱是 " 第一款通用型 Agents(智能體)",這意味着它不走垂直專家路線,優勢在于更通用能力的任務。Manus 的官網就列出了多個分類:
Manus 官網 來源:Manus
Agents(智能體)不同于大模型,如果說大模型只有一個對話視窗,實現信息輸入 - 輸出。那麼 Agents 就相當于讓大模型有了行動能力,可以靈活調用各類工具完成任務。
36 氪決定先從我們編輯部的日常使用場景出發,以從易到難的程度排列,請 Manus 都跑一遍。
請注意,以下場景均為一次性輸出的結果,除了任務中途崩潰重置計算機之外,36 氪沒有做任何的重復測試。
校對及整理
我們先請 Manus 完成比較基礎的校對、整理工作。
36 氪将此前的一份訪談錄音原文(約 2.8 萬字)交由 Manus 進行整理,核心要求是對錄音速記 " 逐字逐句整理,不要壓縮 ",去除相應的口癖、對語義不清的部分進行校對。
在以前的操作中,起碼要來回和模型互動十多次:将錄音速記中的錯誤進行人工校對——再分段扔到模型中——輸出完畢後,還需要重新投喂給模型進行校對,看是否有事實錯誤。
但 Manus 很明顯将以往的多個步驟壓縮到一個步驟,這種下達任務之後等待驗收的感覺,比和 ChatBot 互動體驗,完全是十倍以上的體驗提升。
來源:Manus
但 Manus 的缺陷也是明顯的:上下文太短,幻覺依然有。很多復雜任務還沒有完成,就因為 Token 消耗太多而中止了任務。
在校對潤色這一任務中,最終輸出的文檔長度大大壓縮,基本只輸出了訪談的最後一部分,總共 3800 多字,前面的部分基本丢失。但從已輸出整理的部分來看,語氣、信息完整性還是算不錯。
Manus 在執行長文任務
這大概率是因為推理和協作機制做得還不夠好,模型只能提供一次性輸出的結果,導致壓縮;也有可能是 Memory 機制還未能做得很好—— Memory 可以看作是模型暫時存儲信息的 " 倉庫 ",比如聊天機器人會記住你之前說過的話。
早前一些研究工作指出,memory 會随着時間或任務步驟的增加而消退。而 Agent 所消耗的 Token,比起單 ChatBot 起碼是兩個數量級的提升——一位 Agent 從業者對 36 氪估計,Manus 的一個復雜任務的 Token 消耗估計會有百萬 Token 級别。Memory 的分層管理、壓縮等技術難點,還有很多提升空間。
新聞跟進及寫作
對一般的 ChatBot 來說,輸出長度都是一個老大難—— 36 氪之前的測試體驗中,如果是一個 128K 的模型,一般而言單次輸出長度都在 1000-2000 字左右,才能保證信息完整性,不被大量壓縮。
36 氪先讓 Manus 完成最基本的新聞跟進工作。這包含幾項能力:日常的新聞監控——看是否會篩選靠譜的信息源,再進行重要性分析判斷,以及找相應的資料,加以補充和跟進。
來源:Manus
Manus 開始進行學習範例 - 搜索相關新聞等等,但是在訪問路透社時被驗證碼擋住了,請求人類接管。36 氪接管後,發現 Manus 已經被認證為機器,被屏蔽了。
來源:Manus
Manus 約花費 9 分鍾完成這個任務,輸出 5 條最值得關注的 AI 新聞,新聞源都是靠譜權威的。最後,Manus 最後選擇了寫有關自己的新聞 …… 哈哈。
Manus 寫有關自己的新聞
Manus 的新聞文本輸出已經算是 70 分水平,文字通順,主要信息點都能覆蓋,但和參考的範本不同,現在的文本偏軟,AI 味較重。
但在我們提出修改意見後,第二版好了許多。
基本是可以細微調整調後,直接發表的水平
難度往上,我們也在 Manus 也輸入了一段 prompt,讓 Manus 幫忙直接以 36 氪的深度報道欄目 " 深氪 " 為例,生成一篇長文:
這周 " 稚晖君 " 創立的智元機器人預告要發新品。" 稚晖君 " 原名彭志輝,請你搜索彭志輝以及智元機器人的歷史過程,用 36 氪的風格去寫作一篇文章,主題為回溯智元機器人的歷史,以及反映這家公司的成長,在科技行業中的意義,長度為 5000 字左右,可參考深度報道 " 深氪 " 欄目的風格。
請注意,語句需要深入淺出,普通人都能看懂,不要堆砌專業術語。
Manus 自動進行了資料收集,寫作階段直接進行分段寫作,再合并,順利地完成了長文寫作,輸出結果:
寫作一篇有關智元機器人的深度長文
在輸出的文章中,Manus 在深度寫作上效果一般,更偏資料型整理。但遣詞造句也算合格,但是風格還是偏軟文。在高質量内容方面,Manus 的品味還有待加強。
數據分析及可視化
研究型任務也是 Manus 的強項。
從性質上來講,Manus 采用了多智能體架構。簡單來說,就是可将復雜任務拆解為子任務(如數據清洗、特征工程、模型訓練),通過不同的智能體,分工并行處理,顯著提升數據分析效率。
不過,如果一致性做不好,多智能體的局部決策可能導致全局結果偏差較嚴重。
36 氪讓 Manus 和 OpenAI 旗下的 Deep Research,都試着做了一張 " 大模型 API 兩年多以來的的 API 價格走勢表 "。
OpenAI 旗下的 Deep Research 則是單智能體,端到端訓練的模式——僅一個中心化智能體負責所有任務,決策與執行集中化。但好處在于模塊集成度高,易于管理,輸出質量比較有保證。
來源:Manus
Manus 花費的時間較長,約三個小時,生成了一個可以互動的網頁。互動性和表格樣式都相當不錯。不過數據詳實程度,和專門做研究的 Deep Research 仍有差距,但問題不大
來源:Deep Research
Deep Research 暫時還無法輸出圖表,但從輸出的内容質量來看,是現在的 Manus 還沒法趕上的。
創意型任務:可以做,但審美有點難評
我們也讓 Manus 上了點難度。
第一個任務是模仿行業大 V" 影視飓風 "Tim 老師的風格,做一期有關 Manus 相關的視頻,長度在 5 分鍾左右。
Manus 用了約 45 分鍾完成了這一任務,全程絲滑,依舊是兢兢業業拆任務,先上油管學習影視飓風的視頻,再搜集資料寫腳本。
來源:Manus
最後產出的内容,形式嚴謹,是一個結構完整的小科普視頻——
來源:Manus
我們請教了視頻組的老師,評價是:實習生水平,優點在于把工作流說明白了,分鏡和鏡頭調度可以直接用作參考,但内容還不能直接用。
第二點是,視頻腳本過于亢奮,全場充斥着 " 炸裂 "" 颠覆 " 之感,對人類的感情理解比較表面,有點難繃。
節選一段,供大家參考:
第二部分:Manus 的核心能力(1:10-2:20)
[ 場景:主持人誇張地在電腦前掙扎,被各種檔案和任務包圍 ]
主持人:(誇張的疲憊表情,抓狂狀)我們都經歷過這樣的時刻——需要整理大量數據、撰寫報告、分析市場趨勢 ... 這些工作可能要花費我們幾小時,甚至幾天!而且還很容易出錯!
[ 特效:時鍾快速旋轉,日歷頁快速翻動 ]
主持人:(突然振作,眼睛發亮)但有了 Manus,這一切都将改變!它就像給你復制了一個數字版的自己,但更聰明、更高效!
[ 分屏效果:四個視窗同時展示 Manus 的不同能力,每個視窗都有動态效果 ]
主持人:(指向第一個視窗)Manus 的第一大核心能力:自主完成復雜任務!
[ 視窗放大,展示 Manus 自動撰寫報告的加速過程,從收集資料到成品輸出 ]
主持人:(解說,語速适中)你只需要告訴它你需要什麼,然後 ...(打響指,配合音效)它會自己規劃、搜索信息、整理數據、撰寫内容,最終交付一份完整的成果!就像有了一個永不疲倦的助手!
[ 特效:第二個視窗放大,伴随着轉場音效 ]
主持人:(熱情洋溢)第二大核心能力:多領網域通用能力!無論是金融分析、教育内容創作、旅行規劃,還是代碼開發,Manus 都能勝任!
[ 快速剪輯展示 Manus 處理不同領網域任務的畫面,每個場景都有對應的圖示和文字标籤 ]
主持人:(誇張的驚訝表情,手勢豐富)這就像同時擁有了一個金融分析師、一個内容創作者、一個旅行顧問和一個程式員!而且,它們都是 24 小時待命的!不需要休息,不會喊累!
[ 特效:第三個視窗放大,伴随着科技感音效 ]
主持人:(神秘語氣,稍微降低音量)第三大核心能力:多模型協作機制!這個有點專業,但非常酷!
[ 動畫展示多個 AI 模型協同工作的概念圖,類似于團隊協作的可視化 ]
主持人:(解說,配合手勢)Manus 不是依靠單一大模型,而是采用 " 多重籤名 " 機制,由多個獨立 AI 模型共同驅動!就像一個高效的團隊,每個成員負責不同的任務,相互配合,确保結果的可靠性和準确性!
36 氪還讓 Manus 試着做了一個偏分析型的創意工作——對我們的微信公眾号版式和設計分析後,進行改進。
為了更明确設計需求,我們也給 Manus 提供了一份設計案例,以及我們認為風格突出、審美優秀的數個公眾号,作為參考。
來源:Manus
Manus 依舊很快就對任務進行拆解,雖然最後任務沒有正式完成,但還是輸出了一套完整的方案給我們。
除了我們建議的步驟(分析好版式的共性、聯網搜索比較優秀的公眾号設計實踐,提出建議),Manus 還自己規劃了更多步驟,也做了更細致的分類,包括分析 36 氪公眾号,分為設計元素、板式布局、視覺資產、配色方案等等。
不過從結果可以看出,Manus 在審美這件事上 …… 并不擅長。就配色來說,Manus 給出了一個放之四海而皆準的方案,分為春夏秋冬四個季節,配色飽和度過高,審美可以說約等于沒有。
來源:Manus
字體也是分為多個版本,并不統一。
來源:Manus
Manus 的輸出依然非常依賴于公網數據的質量。
在 Manus 學習排版、設計相關知識時,打開了不少知乎網頁。但 Manus 很難繞過登陸限制,然後就會轉戰到其他公開網頁。更不必提如同獨立王國一樣的各大 App ——比如微信公眾号内的數據,爬蟲工具也很難完全觸及。
被知乎登陸視窗卡住多次的 Manus
可能這需要期待以後模型間的接口進一步打通,包括端側 Agent 跨平台等能力的進展,才能讓 Agent 輸出質量有質的提升。
最後,我們試着讓 Manus 使用高推理模式,生成一個 Jellycat 主題的吃豆人遊戲,Manus 花費約 45 分鍾時間完成。
來源:Manus
吃豆人網頁遊戲
可以看到,代碼和遊戲開始界面都已經相當完整,但最後到了 " 開始遊戲 " 這一環節,音效都能聽到,但無法點擊開始遊戲。而後,對話因為上下文過長,停止響應了。
總結
在測試過程中,36 氪最大的感觸在于,前端互動非常絲滑,有一種簡潔的美感——從進入 Manus 官網到實際對話,Manus 都在營造一種 " 對面真的是個活人 " 的感覺。
尤其是在對話視窗旁邊,可以打開一個名為 "Manus 的電腦 " 的小視窗,實時顯示 Manus 正在操作什麼,真的像遠程看着一位實習生同學,幫你完成任務。
你可以随時拖動進度條,查看 Manus 正在進行的任務。對已經完成的步驟,Manus 都會提供類似網頁快照的界面,讓你對任務進展有明顯感知。
Manus 正在通過百度百科學習智元機器人相關背景資料
另一個體驗優秀的地方在于,Manus 對工具的調用成功率算是比較高的。在不遭遇崩潰、宕機的情況下,如果測試 10 個任務,大概能有 8 個自動完成任務,無需人類介入。
這能大大提升用戶體驗——在以前,很多 agent 調用外部工具的成功率都在 60% 以下,體驗不佳,難以吸引到更多的用戶。
市場普遍認為,Manus 團隊對各類通用任務都先置入了不少 CoA(代理鏈)模版,覆蓋眾多通用任務(寫作、數據分析、攻略等開放式問題)等等,這些工作顯著提高了任務成功率。
這種機制,類似在 DeepSeek 對話中不斷蹦出來的思維鏈,用戶可以看到,Manus 是怎麼樣一個接一個調用外部工具的。
Manus 的糾錯能力也很強。
36 氪多次發現,Manus 在任務進行過程中會遭遇錯誤。但 Manus 會嘗試不同的解決方案,直至沒法解決,才會向人類報錯,讓人類介入到問題解決中。
來源:Manus
來源:Manus
用戶還可以随時打斷 Manus,自己來完成某些步驟。
在 "Manus 的電腦 " 視窗右下角,有一個 " 接管 " 按鈕。一旦任務進行得不對,人類可以直接打斷進程,自己進入到這部 " 雲上電腦 " 進行操作。
不過可能是計算資源不夠,36 氪在操作 Manus 的電腦時,卡頓嚴重,只能勉強進行操作。
Manus 的電腦
這樣的形式天然更符合人類工作的互動形式——只要使用一次,模型盡可能地自行糾錯,減少人類參與的次數。
總結一句話:分析總結、數據分析、開放性問題等需要強邏輯性的任務,是 Manus 最擅長的部分。最不擅長的是創意工作,審美基本等于沒有。
不過,受限于現在的服務穩定性和上下文視窗,Manus 完成任務的邏輯和過程很好,但交付質量只能說在中等水平,包括數據、文本等,都需要人類進行二次校對。但從完成任務的時間和質量來說,已經算是很不錯的同學。
無論是對文本、影像、視頻等相關内容,Manus 調用大模型只能模仿到内容的框架,就像一層皮——但内容質量還是需要人類強把關。
從周末的争議中再次回看 Manus,36 氪頻繁想起的,是 2009 年的電影《阿凡達》上映之時。當時的阿凡達,是特效電影的集大成者,一個最重要的意義在于,讓全球觀眾都見識到:頂尖的電影工業水平是這樣的。
如今的 Manus,盡管還處于比較粗糙的形态。但至少在產品層面,和年初爆火的 DeepSeek 有一個共通點:用技術平權的手段,将 AI 產品迅速拉到大眾面前,而不是停留在小圈子中狂歡。
Manus 集成了現在編程開發能力最強的 Claude,并且受到許多最新技術成果如 CodeAct 的啟發。比起 OpenAI Operator 或者 Devin 高達數百美金的定價,Manus 的成本價大約在 2 美元左右。
而且,Manus 通用任務的體驗已經足夠絲滑,這讓普羅大眾都能感受到:"AI 居然還能這麼玩 ",以及真正感受到 AI 對人類帶來的巨大效用。
這也是現階段,AI 產品在能為市場貢獻的的最大價值。