今天小編分享的科技經驗:完整復盤:Manus 是怎麼誕生的?,歡迎閱讀。
去年獲得最多精神養分的創業故事,來自 Dify 創始人張路宇。
第一次見到他是在 2023 年「西溪論道」活動上,現場一眾星光熠熠的名字中,張路宇三個字并不起眼。2024 年再次見到,Dify 已經是另一個故事了——一位沒有光鮮背景的創業者,愣是在所有人都問商業模式的質疑聲中,做出了全球最成功的 AI 開源產品之一。
一年的時間裡在這家公司上發生的,比如意外在「因循守舊、易守難攻」的日本市場大受歡迎等故事,讓我進一步理解「創業」。多的是意外,更需要運氣,最終是要有本事在持續變化與事與願違中摸出一條道路。
現在,相似的故事發生在另一位備受關注的創業者—— Manus.im 肖弘和他的團隊身上。
4 個月前,肖弘提過一個困惑,「團隊擅長從 0 到 1,抓機會的能力很強,一旦開始 1 到 N,狀态就沒有那麼好」。
在他過往的經歷中,創業項目大都獲得了相對穩定、可觀的營收,上一家公司也被成功收購。2023 年,他的新公司「蝴蝶效應」更是以一款浏覽器插件 Monica.im,在百模大戰的 AI 叙事中錯位競争,成為增長最快、產品體驗極佳的 AI 應用之一。看上去,他是一路很順的創業者。做到這些事情,也才 32 歲。
但實際上,他并沒有太多爽感。在肖弘看來,所謂「連續退出創業者」、所謂不斷從 0 到 1 的爽感,像是圍城——從 0 到 1 抓機會的能力很強、很爽,但是反過來,也擔心會不會又需要再來一次。
2024 年,行業人士認為,像 Monica.im 這樣帶有記憶功能的 AI 助手,會面臨來自比如豆包這樣的強勁對手的壓力,做起來并不會像 2023 年那樣容易。Monica.im 有一個很好的從 0 到 1,但未必能衝擊 1 到 N。
而他之所以會困惑,也是因為「團隊接下來真的要做更難的事情、天花板更高的事情」,探索能夠跨越 1 到 N 的事情。
更早之前,很多關注 Monica.im 的聲音都假定這件「更難、天花板更高的事」是指傳了很久、但團隊遲遲未發布的 AI 浏覽器。
現在看,确實,猜錯了。
這段更難的探索其實是:放棄已經達到發布狀态的AI浏覽器、尋找下一個「ChatGPT 時刻」的 AI 產品、找到了通用型 agent 這個目标、做出了最新發布的 Manus.im。
Manus 是什麼程度的創新、未來能做到什麼水平,現在已經是一聊就炸了的話題。但值得看的,依舊是在「事與願違」中找到的方向和找到方向的過程。Manus.im 未必就能讓這支團隊做成 1 到 N 的事情,甚至未必會復刻 Monica.im 的勢頭,但就像這家公司的名字——「蝴蝶效應」,許多小的動作和決定無意間對未來竟有深遠的影響,「Connect the Dots」,明天的路會藏在今天的經歷裡。
01 Manus 的獨特產品體驗,源自做「AI 浏覽器」的教訓
去年中下旬以來,「蝴蝶效應」團隊做 AI 浏覽器成為行業「半公開」的秘密。正式對外亮相的產品,是引發失控般關注度的 Manus。
如果你親自上手體驗過 Manus,或者看過演示視頻,你會感覺到它和聊天機器人或一些類 agent 應用相比,有一個明顯的不同:Manus 可以異步、并行執行任務。
當你打開比如豆包、Kimi 或者類 Computer Use 等應用,向它發一個問題,你要等它回復完。否則在它回復或者做任務的過程中跟它說話,上一段回復 / 任務就中斷了,你和它只能是 A-B-A-B 接力式的對話。
但是,在 Manus.im 裡,盡管看着還是聊天機器人的產品形态,你卻可以提出比如 20 個問題讓它同步執行任務。一旁的你可以在電腦上做其他任何事情,看視頻、寫文檔、打遊戲等等,都不耽誤它工作。一旦這些任務有完成的或者執行過程遇到問題,Manus 可以通知你。如果在執行任務中途,你看到它的思考出現了偏差,也可以随時在對話框補充提示詞,它會帶着新的上下文接着思考和執行任務。
體驗是異步的、可以并行的,确實像有了一支可以幫你幹活的真人實習生團隊。
事實上,Manus 對異步體驗的產品架構設計,源自團隊在上一個未公開的產品—— AI 浏覽器中學到的一課。同時這也是團隊投入了很大精力、但在去年 10 月決定終止做浏覽器的原因。
The Browser Company 于 2024 年 10 月 25 日宣布停止對 Arc 浏覽器的新功能開發,決定将資源轉移到一款新浏覽器 Dia 上,旨在打造一個更簡潔、更易用的 AI 浏覽器。|來源:Arc 官網
「在 AI 浏覽器裡,AI 在不斷打斷用戶。」因為它是為單用戶設計的場景,AI 用了,你就用不了了,當 AI 開始工作,你只能看着 AI 工作,很難上手。看着 AI 搶走了你的滑鼠、電腦,你不僅不敢搶過來,而且還怕一不小心碰到鍵盤、滑鼠導致它的整個流程崩掉需要再來一次。
這讓團隊做出兩個判斷:
直接用電腦去做 Computer Use,短時間内不太可行。
AI 應該用浏覽器,但不是在你的浏覽器裡用,它應該有自己的浏覽器,這個浏覽器最好在雲端,最後把結果反饋給你。
在和騰訊科技張小珺的采訪對話中,肖弘提到團隊在總結從 Jasper 到 ChatGPT 到 Monica 到 Cursor 到 Devin 的產品形态時,發現「人類程式員」Devin 就很符合這個異步體驗的架構。
它不像用 Windsurf 時,有時要讓你确認你的電腦要不要裝這個庫;或者它執行一個命令行操作,讓你填 yes or no,因為它可能真會把你的電腦搞壞,或者是某個東西衝突——它讓你填「yes」才能到執行下一步,但要甩鍋。
所以在 Manus 團隊看來,「Chatbot 應該在雲上有個電腦,把它寫的代碼、要通過浏覽器查的東西都在那台電腦上執行。因為是虛拟伺服器,壞了無所謂,可以再來一台。它甚至可以在當前任務執行完之後釋放掉那個伺服器。」
值得注意的是,相比 Devin 選擇了垂直領網域、硬核的工程師,Manus 團隊則選擇了通用型、消費級的 AI 助手,有 Web,也會有 App。它是一個可以根據指令,調用工具、完成與工作與生活中的各類任務的一款通用型 AI 助手,未來也會以一個消費級可負擔得起的價格交付任務結果。
02 Less Structure,More Intelligence
有了明确的思路和目标,下一步就是實現這個想法。Manus 到底是怎麼做到的?
在其產品合夥人張濤看來,這需要給大模型配一台電腦,同時也給它配系統權限(接入代碼倉庫、專業數據查詢網站等私有 API),并給予一定的培訓。
這樣一來,AI 可以自己用這台電腦打開浏覽器,做動作去調度工具,再根據工具產生的反饋觀察它的動作對真實世界造成的影響,再思考下一步,再做動作,再觀察……這是 AI 在探索和調研中完成任務的過程。期間,Manus 也會在你的「調教」下越來越懂你的要求,未來即便你沒有清晰定義需求,它也可以根據一個個任務中沉澱下來的知識「揣摩聖意」。
華為天才少年、Logenic AI 創始人李博傑認為 Manus 有一眼不同于其他產品的厲害之處:以極客程式員的方式解決問題。|圖片來源:微信截圖
Manus 產品的理念,在其團隊的產品實踐過程中逐漸明确:即 Less Structure、More Intelligence(更少的結構,更多的智能)。
這也是讓 Manus 團隊產生一個個「A-Ha,Wait!」(驚呆了)的時刻。舉個例子,這是今年 1 月在團隊發生的一幕:
當讓 Manus 試着做 GAIA 測試集上的一個題目:「在一個類似國家地理風格的 Youtube 視頻鏈接裡,各種企鵝們來來回回走出又進來畫面,讓 Manus 數一幀畫面裡面同時出現最多種企鵝時,是有幾種?」
然後,神奇的事情發生了。
Manus 先是打開這個視頻鏈接,接着做的第一個動作是「Press K」,接着挨個截圖記錄哪一幀出現了哪種企鵝後,最後得出最多的一幀畫面有 3 種企鵝。Manus 接下來要回去檢查,它的下一個動作是「Press 3」……。最後檢查後給出答案就是 3。
作為建造 Manus 背後的人,理應很了解它的能力邊界,但對團隊來說,真實情況是「總有驚喜發生」。意外的不僅是 Manus 做對了題目,而且,用了多年電腦和 Youtube 的人類朋友可能都不一定清楚,鍵盤上「K」「3」這些按鍵是什麼?
看着有些恍惚的眼前一幕,團隊跟着 Manus 做了一遍,鍵盤上的「K」是暫停鍵,可以讓 Manus 暫停後挨個截圖記錄哪一幀出現了哪種企鵝後;「3」也是一個快捷鍵,從 0 到 9 分别代表進度條的 0% 到 90%,3 是進度條的 30%,可以精确定位到那個視頻的那一秒鍾,然後告訴人類這個畫面有幾種企鵝。
「這個過程跟傳統意義上的 Chatbot 不一樣。第一,它能看 YouTube 的畫面,而不是看字幕。第二,我們甚至發現它在用 YouTube 快捷鍵,非常震驚,它回答出來了這個問題。」肖弘在此前騰訊科技的采訪中也提到了這一幕。
突然就發現,Manus 不僅在編程上比人擅長,就連在人們天天使用的 Web、App 上,Manus 的知識量也遠超想象,作為一個全知全能的 AI,它可以在任何工具裡了解所有途徑和手段,然後選擇最優的方法。
這讓團隊再一次感受到了「Less Structure,More intelligence」——盡量減少人工對 AI 的限制,讓 AI 通過自己的進化來發揮作用,而不是教它怎麼做。
在 Manus 官網的最底部,悄悄呈現了 Manus 背後最重要的發現:「Less Structure,More intelligence」。|截圖來源:Manus
這是「蝴蝶效應」聯合創始人、首席科學家 Peak 在 Manus 產品上線當天,對 Manus 產品背後最重要的第一性原理——「Less Structure,More intelligence」作出的闡述和延展思考:
當你的數據足夠優質、模型足夠智能、架構足夠靈活、工程足夠扎實,那麼 Computer Use、Deep Research、Coding Agent 等概念就從產品特性變為了自然湧現的能力。
回歸第一性原理也讓我們對產品形态有了全新的思考:· AI 浏覽器不是在浏覽器裡加 AI,而是做給 AI 用的浏覽器;
· AI 搜索不是從索引召回再總結,而是讓 AI 以用戶的權限去獲取信息;
· 操作 GUI 不是搶奪用戶設備的控制權,而是讓 AI 有自己的虛拟機;
· 編寫代碼不是最終目的,而是解決各種問題的通用媒介;
· 生成網站的難點不是搭建框架,而是讓内容言之有物;
· Attention 不是 all you need,解放用戶的 attention 才能重新定義 DAU;
· ···
一次次「Less Structure,More intelligence」的發現與實踐,Manus 產生了超出期待的效果,包括在 GAIA benchmark 中的 pass@1 分數超過了 OpenAI Deep Research 在 cons@64 下的成績;同時,在内部測試中,Manus 也能夠直接覆蓋 Y Combinator W25 中 76% 的專用 agent 產品的場景。
03「Agent 可能是『對齊』的問題,而不是基礎模型能力的問題」
現在,這些洞察的含金量正在更大的範圍内引起讨論:
Hugging Face 創始人、CEO Clement Delangue 在 X 平台提出 Peak 的發現值得思考:智能體的能力不是卡在基座模型上,而是像 GPT-3 與 InstructGPT(ChatGPT)的差别一樣,是對齊的問題。一些開源基礎模型被簡單訓練成「無論問題的復雜程度如何,都能在一個輪次中回答完所有問題」,但這是聊天機器人場景中的要求,只需要對智能體的路徑做一些後訓練,就能立即帶來巨大的不同。|截圖來源:X
Manus 并未引入 MCP(《模型上下文協定》),而是讓 AI 能夠自己寫代碼去調用 API,來勝任各種各樣長尾任務。|截圖來源:X
在過去幾天對 Manus 的讨論中,聽到最多的一個問題是:「通用的AI Agent」行不行得通,邊界在哪裡?
在 Peak 看來,因為人與世界的互動其實非常标準,有眼睛、手、耳朵,如果把 action space(行動空間)定義好,就應該能把一個 agent 嵌入到一個本來由人來進行的一個環節中。
既然人能夠使用各種工具來完成垂直領網域很深的操作,那麼如果一個 agent 本身具有足夠好的知識,經過了适當的培訓,又有很好的一個與世界互動的界面,它應該能像人一樣工作,甚至可以讓這個 agent 用某個 SaaS 產品。比如在 Manus.im 官網呈現的一個找房子的案例,其實就是讓 AI 用一個房地產領網域專用的 SaaS 產品工作。
他認為,應該定義清楚的是 agent 使用工具的邊界,而不是它為哪群人服務。Manus 不是在模拟一個幹具體事的一個人,不是比如按照研發、產品經理等劃分的角色智能體;而是在模拟一個能幹事的人、是模拟一個實習生是怎麼工作的。
Manus 的多智能體系統(Multi-agent system),指的是規劃(Planning)和執行(Execution)的分離。
在執行器(Executor)上,Manus 采用了在編程、以及長程規劃和逐步解決問題的能力暫時領先的 Claude,也在用 Qwen 的一系列模型做後訓練。
昨天,Manus 也與阿裡通義千問達成戰略合作,致力于在國產模型和算力平台上實現 Manus 的全部功能。|圖片來源:Manus
在規劃器(Planner)的部分,Manus 則做了很多工作。
由于目前市面上的貨架 API 或者說模型,本質上是為聊天機器人的場景做對齊的,在訓練的時候,無論用戶提了一個多麼復雜的問題,其訓練的優化目标都是在一個回復裡把用戶的問題回答清楚,但這其實跟 agent 所需要的 planning 完全相反。
所以如果把市面上現有的模型直接用在 agent 場景,并沒有「對齊」,這個模型永遠會急功近利地在一輪對話内給出一個「稀裡糊塗」的結果,就像很多 bullet point 總結。
「對齊方式會應該不一樣,我們團隊認為,需要不同數據去專門做對齊」,肖弘說。
去年 10 月,Peak 在知乎也記錄過一個嘗試復現 OpenAI o1 興趣項目—— Steiner 開源模型的進展與失敗,實際上這個項目恰是在做 Manus 規劃器部分 step by step planning(一步步規劃)的預研。
總體上,Manus 是在模拟一個做事的人,這是團隊對 Manus 作為通用型 AI 助手的產品定義。至于對其邊界的思考,團隊大概率也仍在探索中,需要更多的用戶使用案例。
在 Manus 發布前放出的騰訊科技采訪中,肖弘其實已經提到了對 Manus 通用性所在的初步思考,「一個很核心問題,或者說產品經理很重要的一個職責,是控制好用戶預期。假定它能幹世界上所有事,比如:我要怎麼賺 100 萬美金?這本來就不是應該由一個 Agent 去執行的事情。但如果我們能夠給出更多更具體的例子,讓大家的預期更合理,大家會用起來更順暢。」
04「殼有殼的用」,最懂殼的團隊
2 月 27 号凌晨,Manus 產品合夥人張濤和首席科學家季逸超(Peak)看到 Manus.im 打榜成績出來的一瞬間,兩位都落淚了。Manus 在 GAIA Benchmark 上的成績超過 OpenAI 的 Deep Research,而且以 OpenAI 打榜時 1/10 左右的成本(2 美元 / 任務)做到了這個意外的成績。
圖片來源:Manus.im
幾十人的團隊,在 agent 達成全行業共識的競争态勢之時,成為第一波做出通用 agent 產品的團隊之一,在產品工程、前端互動體驗上,也有獨特性。
做成事情的正反饋,勝過所有。對創業團隊來說,沒有比這更好的激勵了。但在這之前,Manus 是怎麼發生的?為什麼是這個團隊做出來的?
「今天的模型能力是能夠完成一些復雜、多步才能搞定的任務。只是沒有這樣的產品,所以大家感受不到。」肖弘在此前騰訊科技的采訪中提到的洞察可以用來理解這一問題。
同時,「能有機會嘗試做 Agent 的產品的團隊,并不多。因為,需要很多復合能力。他要搞過 Chatbot,搞過一點 AI 編程相關,搞過浏覽器相關,因為要調用浏覽器,而且對 LLM 的邊界有不錯感知——今天發展到什麼水平,接下來會發展到什麼樣的水平。這些能力首先同時擁有的公司沒那麼多,而且有這些能力的公司,可能手頭正在幹一個很具體業務。我們恰好有些同學剛好有時間一起把這些事做出來。」
「恰好」。
在恰好的時間發現模型能力達到了可以做 agent 的程度,而不一定非要等一個像 Operator 一樣的端到端大模型出來;
也恰好發現了問題出在對齊上;
也恰好做過聊天機器人延展出來的所有功能和 AI 浏覽器;
同時因為一直在所謂「套殼」做大模型應用產品所以對 LLM 有敏銳的感知;
「蝴蝶效應」團隊達成了在當下做出這樣一款通用 agent 的全部要素,所以現在有了完成度相對行業比較高的通用 agent。
在被問及要做 Manus 的決定性瞬間是什麼時,Peak 還原了更多的細節,他表示,「創業其實沒有『幹淨的』pivot」,這一切是連貫的、沒有明确界限的。
「在做一款產品的時候,也會頻繁關注外界的情況。」當時有幾件事,一是做浏覽器的時候,做過端側模型,後來發現浏覽器需要的場景非常非常寬,有不同的 feature,做的過程發現了基座模型變強的速度在加快,強到它跟 agent 之間的差距可能是一個 alignment 問題。盡管可能外界覺得好像大語言模型已經要逐漸收斂、撞牆。
同期,外界也在發生變化。去年年初 Cursor 開始火,然後是 Windsurf 和 Devin。這背後對應同一個脈絡,agent 在編程領網域火了,火的途徑逐級遞進。Cursor 是程式員的一個 copilot,提升編程效率,從 Windsurf 開始逐漸有些自動化的流程進來,讓你在本機有更強的自動化能力,Devin 又達到了自動化新高度。
VC 的動向也是一致的,比如在去年和前年,YC 投了兩類公司,一是雲端的 Browser,比如 Browser base;第二類是類似于 e2b 這種輕量級的 AI Sandbox 虛拟機這些東西。
這說明「模型的基建在迅速成熟,Infra 的基建也在迅速成熟,再加上看見外界產品逐漸有更多的接受度,我們就覺得這是一個值得 all in 的方向。這是一個非常漸進的、平滑的過程,再加上做浏覽器時的積累比如 chromium 那些基建可以無縫遷移過來,這也是為什麼我們敢在雲端搞浏覽器」。
總結來說,在所謂「套殼」中對需求和模型的敏銳感知和經驗積累,共同造就了 Manus。Monica 的很多場景需要做模型後訓練,同時在AI浏覽器的實踐中強化了最重要的一課「less structure、more intelligence」,發現模型能力達到了做 agent,問題在于對齊。接着就是 Manus 飛速進化的 3 個月。
此前,「蝴蝶效應」團隊一度被質疑「套殼」的價值何在,其在不自研大模型的情況下,通過整合現有大模型做出了 Monica,把聊天、搜索、閱讀、寫作、翻譯等功能整合在一起,也通過一個個接 API 的方式集成了很多任務執行的場景,去年底用戶量達千萬。
現在,當豆包、誇克、元寶都大力推廣各自的 Monica 類產品,當一個小團隊又把現有技術利用起來做出第一個通用消費級 agent 時,是時候該重新理解「殼」了。
「套殼」以及「殼」究竟是什麼?
在肖弘看來,所有突破都是模型帶來的,基本上是模型先驅動、模型先行。殼是要把模型技術上的創新點,以一個用戶可感知的方式展示出來,把模型創新能力封裝成用戶最能感知的樣子。
從這個定義出發,DeepSeek App(包括思維鏈的展示)是 DeepSeek-R1 的殼,Cursor 是 Anthropic Sonnet 3.5 的殼,Perplexity 是 GPT-4 的殼,ChatGPT 是 InstructGPT 的殼。
随着模型能力在快速進化,「那個殼」也需要進化。每一代模型能力進化之後,甚至不一定是原廠,是一個第三方廠商把它的用戶可感知價值給呈現出來。就像 Cursor 把 Claude 3.5 Sonnet 的用戶可感知的價值。
3 月 5 日,在 Monica.im 發布兩周年的時間點,為什麼是這幾十個人做出了超過各類 Deep Research 和 OpenAI Operator 的產品體驗,答案就在對殼的理解和實踐裡。
如何做出新的、可以做 agent 的模型下最好的殼?
作為 Manus 的建造者,張濤認為,「從後台去看它整個的架構,我們看到每個地方都有大量的未完成的工作要去做,而那些地方每一個地方都是決勝的關鍵,都是讓產品面都不一樣的地方。」
在團隊看來,最重要的優勢是創新速度(pace of Innovation),無論是應用還是模型,現在都到了一個相對飽和的狀态,真正到最後的核心能力唯有一個,就是跑得快,盡管「數據飛輪」「網絡效應」這些東西還未被驗證有沒有。
「在一個全新的領網域裡,一切未定,一切未知,最重要的就是創新速度,拼的是在各種各樣的方向上探索、試錯,快速找到正确的路徑。」而 Manus 團隊從管理理念、組織架構、產業流程上,足夠靈活。當新機會出現時,能在有限的資源裡能夠貫通整個公司從上下所有的資源,并且極高的決策速度,并适應犯錯的反饋。
從左至右依次是「蝴蝶效應」首席科學家 Peak、CEO 肖弘、產品合夥人張濤|圖片來源:網絡
對于 Manus 的預期,肖弘認為「哪怕有視窗期你也值得試一試。」過去一年,他的思考也在發生劇烈變化,比如現在的他認為「當意識到自己提前的時候,更激進,超級激進。今天復盤,覺得 23 年 Monica 不夠激進。」「如果你知道你在創新,你在領先,你就應該激進。」
不知道 Manus 能不能給肖弘和他的團隊帶來從 1 到 N 的體驗與跨越,但這個最懂「殼」的團隊相信心手合一地創造、也相信創造帶來的蝴蝶效應—— Manus 來源于 MIT 的一個 motto:Mens at manus,強調心手合一。不能光學,還得做,對現實世界產生 impact,才是真正的知識。
未來,随着 Manus 背後更多的沉澱開源出來,更廣範圍的蝴蝶效應也會進一步釋放。