今天小編分享的科技經驗:撥開Manus迷霧,誰是AI關鍵勝負手?,歡迎閱讀。
文 | 極智 GeeTech
世事的起伏本來是波浪式的 , 人們要是能夠趁着高潮一往直前,一定可以功成名就;要是不能把握時機,就要終身蹭蹬,一事無成。——莎士比亞
近期,德意志銀行發布了一份引起全球關注的報告,标題很刺眼——《China Eats the World》,直譯過來就是《中國正鲸吞世界》,聽起來像是危言聳聽,但内容确實分量感十足。
這份報告直指中國的迅猛崛起,稱中國如今不僅是全球制造業的中心,還在重重包圍中的高科技領網域殺出了血路,甚至威脅到了西方的技術霸權。報告中還用了一個歷史比喻—— " 斯普特尼克時刻 "。
" 斯普特尼克時刻 " 是美國在冷戰期間提出的概念。美蘇冷戰時期的 1957 年,蘇聯領先美國,将第一顆人造衛星 " 斯普特尼克 1 号 " 送入地球軌道。蘇聯這一科學技術領網域的優勢,給美國帶來巨大衝擊。
德意志銀行用了這個詞,形容中國如今的技術突破,尤其是在人工智能、制造業、新能源等領網域的表現,其認為 2025 年正成為中國超越世界其他國家的一年。以 DeepSeek 為開端,越來越多的事實已表明,中國科技企業正在以精益的工程化思維,完成另一種東方叙事。
AI 精益思維與工程化能力
在《技術的本質》中,布萊恩 · 阿瑟(Brian Arthur)曾表示:新技術并不是無中生有地被 " 發明 " 出來的,我看到的技術的例子都是從先前已有的技術中被創造(被建構、被聚集、被集成)而來的。
2023 年,一款名為 Monica 的 AI 助手以浏覽器插件的形式在歐洲和拉美地區迅速走紅。這款集合了 GPT-4、Claude、Bard、Gemini 等主流模型于一體的智能應用,能夠讓用戶在浏覽網頁的同時即時調用 AI 功能,從 AI 對話、翻譯到繪圖、寫作無所不包,特别是其語言模型支持 22 種語言,用戶可以通過語音輸入進行實時翻譯,驗證了 " 工具全家桶 " 模式的用戶需求。
3 月 6 日,Monica.im 發布全球首個通用 AI Agent 產品 Manus,效果超越 OpenAI 的 Deep Research。與現有 AI 助手不同,Manus 能夠獨立思考、規劃并執行復雜任務,直接交付完整成果,展現出較好的通用性和執行能力。
Monica 創始人肖弘在 Manus 發布的前幾個小時,在即刻平台上發文 " 高潮來臨 ":很難現在就判定 Manus 的誕生就是 AGI 的裡程碑,但它很有可能将讓 Agent 時代真的進入 " 高潮時刻 "。
從技術角度看,Manus 本質上是基于基座大模型的系統性工程優化,通過構建多智能體協作框架,将任務劃分為 " 規劃 - 執行 - 驗證 " 三個階段,由不同 AI 代理接力協作,模拟人類處理復雜任務的流程。同時,針對不同應用場景設計了多層次環境适配機制,最終形成面向復雜任務的高度工程化整合方案。
在互動體驗方面,Manus 的核心能力體現在對用戶需求的洞察,它最後交付的不僅僅是文字,而是借助代碼生成了各類契合任務需求的結果,涵蓋了文檔、網頁、圖示甚至是視頻。由此,用戶能夠更加直觀地獲取到自己想要的結果,還能在過程中對最終的交付結果進行驗證。
事實上,Manus 并非在底層技術上有重大突破,而是通過工程化能力擠壓出了模型可以完成的最復雜任務。
首先,通過深度的後訓練(Post-Training)帶來令人驚豔的 " 魔法感 "。後訓練,就是在預訓練模型的基礎上,通過針對特定任務的數據集和監督信号,對模型進行微調,使其更好地适應下遊任務。
後訓練過程通常包括微調、對齊和評估三個階段。
在微調階段,模型通過針對特定任務的數據集進行監督學習,調整模型參數以适應任務需求。
在對齊階段,模型通過人類偏好數據等手段進行訓練,以使其輸出更符合人類價值觀和道德标準。
在評估階段,則需要對模型進行全面評估,确保其在實際應用中表現出良好的性能。
通過後訓練,模型能夠學習到更多與任務相關的知識,更好地理解人類意圖,生成更符合人類期望的回答,從而在實際應用中表現出更佳的性能。
其次,借助 Monica 在模型聚合領網域的積累,構建了一個遠超單一模型調用的多模型協同網絡。最後,它将現有技術進行整合,展現出了較強的系統集成能力。
Manus 通過預設工作流和标準化場景(如生成報告、翻譯合同、簡歷篩選),将語音、影像、文本等多模态互動與行業工具鏈進行整合,并通過優化工具調用順序和參數配置,全面提升工作效率和產出效果。
例如,在生成市場報告時,能自動調用數據分析工具和設計平台完成全流程,形成 " 端到端 " 解決方案。這種工程化封裝能力使其在标準化任務中表現優于通用大模型。
無論是 DeepSeek 還是 Manus,都體現出了 "Less is More" 的技術理念。相比大模型,它們用更少的結構、更少的資源,調動更強的智能,強調通過優質數據、強大模型和靈活架構實現能力的自然湧現。
這輪中國 AI 技術崛起,本質上是一場大規模系統級工程創新的勝利。它證明在既有技術框架下,通過工程優化與路徑創新,完全可能實現局部超越。
Manus 沒有追求自研大模型,而是通過多模型動态調用(GPT-4、Claude3、Gemini)提升綜合能力,也就是常說的 " 套殼 ",這成為其最受争議的焦點。
其實 " 套殼 " 本身并不可怕,可以視為一種整合和優化資源的方式,關鍵在于是否能夠解決用戶的實際問題。用戶更在乎的是產品體驗,有沒有迅速且準确地獲得所需的内容,而不是底層用了什麼,如何調用工具。
不過,互聯網時代的系統與應用 " 兩層思維 " 在 AI 時代已經失效,模型和應用兩者的能力已經相互融合不分彼此,模型即應用。
做 AI 應用最終還是在向用戶交付一項大模型能力,無論使用的是提示工程、強化學習、工作流、Agent,還是别的 " 套殼 " 手段,底層都還是那台貫通一切的 " 大腦 "。
比如 OpenAI 的 Agent 走的就完全是模型訓練的路徑。Deep Research 突出特點便在于端到端訓練帶來的自主能力進化,基于微調的 OpenAI o3 版本,底層訓練賦予了 Deep Research 很多分析能力。
長期來看,在模型之上進行強化學習調整,可能才是構建強大 Agent 的關鍵。
至于 Manus 是否是個好產品,仍需等待市場的驗證。無論褒贊和争議如何,Manus 讓虛掩着的 AI 應用大門正慢慢敞開。
Agent 離臨門一腳還差多遠?
人類與 AI 互動大致可分為三種模式:嵌入模式(Embedding)、副駕駛模式(Copilot)、智能體模式(Agent)。
嵌入模式下,AI 大模型在特定環節被調用。用戶通過語言與 AI 互動,用提示詞設定目标,AI 則協助完成。這種模式讓 AI 成為執行命令的工具,而人類則是決策者和指揮者。普通用戶可以用它來創作小說、音樂、3D 内容等。
副駕駛模式則更加智能化,人類與 AI 成為合作夥伴,每個環節都能與 AI 大模型互動。AI 介入工作的各個階段,從提供建議到協助完成。
例如在軟體開發中,AI 可以為程式員編寫代碼、檢測錯誤、優化性能。人類與 AI 在此過程中相互協作,AI 更像是知識淵博的夥伴,而非單純工具。
2021 年,微軟在 GitHub 首次引入了 Copilot 概念。2023 年 5 月,微軟在大模型加持下,Copilot 迎來全面更新,并提出 "Copilot 是一種全新的工作方式 " 的理念。
智能體模式的 AI 參與度更高,任務被交給 AI 大模型,模型自行計劃、分解并自動執行。人類設定目标并提供必要資源,如計算能力,然後 AI 獨立承擔大部分工作,最後人類監督進程并評估最終結果。
在這種模式下,AI 展現智能體的互動性、自主性和适應性特征,近乎獨立的行動者,而人類則更多扮演監督者和評估者的角色。
談到 AI Agent,很多人都認為它是大模型的產物,畢竟大部分人接觸 Agent 是從基于 GPT-4 的 AutoGPT、BabyGPT、GPT-Engineer 等開源 Agent 程式開始的。
但了解 AI Agent 的人應該知道,Agent 概念并不是當今的產物,而是人工智能不斷進化的結果。
2023 年 6 月,OpenAI 應用研究主管 Lilian Weng 發表了《LLM Powered Autonomous Agents》一文,其中她提出了一個公式:智能體 = 大語言模型 + 規劃 + 記憶 + 工具使用。
其中,大模型是 Agent 的大腦 , 屬于 " 中樞 " 模型,要求有以下 3 種能力:規劃——就如同一位棋手,能将復雜局面分解為一系列精妙的子步驟;工具使用——宛如工匠,懂得從工具箱中選取最合适的工具并熟練調用 ;記憶——既有短期記憶存儲即時信息,又有長期記憶沉澱持久知識 。
20 世紀 50 年代,阿蘭•圖靈(Alan Turing)把 " 高度智能有機體 " 概念擴展到了人工實體,并提出了著名的圖靈測試。這個測試是人工智能的基石,旨在探索機器是否可以顯示與人類相當的智能行為。
在早期階段,研究人員開始探讨如何讓計算機模拟人類的思維和學習過程。這個階段的 Agent 主要是基于規則的專家系統,它們可以在特定領網域内解決問題,但缺乏自主學習和适應能力。
随着機器學習的出現,Agent 開始嘗試通過數據驅動的方式來學習和改進。主要依賴于監督學習和無監督學習算法,如決策樹、神經網絡和聚類分析等。這些算法使得 Agent 能夠在大量數據中學習和提取有用的信息,從而提高性能。
深度學習技術為 Agent 的發展帶來了革命性的變革。深度學習算法,如卷積神經網絡(CNN)和循環神經網絡(RNN),使得 Agent 能夠在復雜的數據中自動學習特征和規律,從而實現更高層次的認知和決策能力。這個階段的 Agent 已經在影像識别、語音識别、自然語言處理等領網域取得了顯著的成果。
強化學習是一種讓 Agent 通過與環境的互動來學習最優策略的方法。近年來,強化學習在 Agent 領網域取得了重要突破,使得 Agent 能夠在復雜的環境中實現自主學習和決策,為未來的 Agent 發展提供了新的可能性。
從以上發展歷程看,AI Agent 經歷了從基于規則的專家系統,到數據驅動的機器學習方法,再到如今的深度學習和強化學習。
不少人認為,Agent 爆發需要兩個必要條件,一個是多模态能力,另一個是慢思考能力,在 2024 年都取得了突破性進展。因此,2025 年被行業認為是 AI 至關重要的發展節點,Agent 有望成為最重要的產品形态,引領 AI 從傳統的 " 工具 " 角色向更具互動性與協作性的 " 夥伴 " 角色轉變。
全面爆發還要邁過幾道檻?
雖然 AI Agent 爆發曙光已現,距離真正的爆發仍有不少要克服的障礙。
一個關鍵的挑戰是,缺少一個能夠支撐整個生态的作業系統。初創公司 /dev/agents 計劃為 AI Agent 開發一個類似于安卓作業系統的通用平台,試圖解決目前 Agent 碎片化的局面。
其它挑戰還包括如何實現低延遲、帶視覺理解的實時反饋;如何構建個性化的記憶系統;如何在虛拟與物理環境都具備執行能力等等。只有當 AI Agent 從 " 工具 " 變成 " 工具使用者 " 時,真正的殺手級應用才會出現。
在 Agent 的構建上,仍有許多懸而未決的技術難題,例如大模型幻覺、長時記憶的前後一致性問題、以及增強多模态的理解能力。
AI Agent 依賴大模型 " 黑盒 ",本身就存在不可預測性。至今在解決一些邏輯、推理等核心問題上,Agent 的能力還偏弱。因此,Agent 各模塊之間如何配合、多個 Agent 如何互動、人類與 Agent 如何互動等方面,Agent 技術尚處于早期階段。
接入 Agent 後,所有需要處理的業務場景,都會轉化成需要底層大模型理解的數據,從而產生高昂的推理成本。斯坦福的虛拟小鎮框架開源後,每個 Agent 一天就需要消耗 20 美金的 Token 數,比用人成本還要高。因此,如何控制高昂的調用成本,是擺在 AI Agent 面前的一大難題。
現階段一個最關鍵的制約因素,還是數據質量、數據規模、應用場景不足,AI 模型、AI 訓練數據集、AI 場景落地部署,都遠遠不夠。
以 AI Agent 機器人為例,由于缺乏高質量的真實數據,機器人就無從進行訓練。通過互聯網數據,機器人的感知已經出現了相當強的泛化,能夠更好地理解物理世界。
不少 AI 企業通過真實數據和仿真數據結合的方式,将任務過程中的數據 " 喂 " 給大模型。然而,仿真數據還是不夠真實,Agent 在模拟世界能成功,但導入到現實世界就會有一定的失敗率。
所以,要結合現實世界實時動态信息,使 AI 系統不僅能夠理解信息,還要形成對物理現象的理解與智能決策能力,從而使得 Agent 能夠靈活應對現實世界的復雜情況。
導入現實世界動态數據将是大模型、AI Agent 產生高階思維的必然路徑。一方面,基于互聯網上大量文本和影像數據訓練的生成式 AI 模型(GPT、Llama 等)在生成人類語言和抽象概念方面已經基本滿足需求,但是受其生成規則的限制,對于現實世界的理解有限,因此會出現不符合現實世界規律的 " 幻覺 "。
另一方面,機器無法感知和察覺它們周圍的世界,需要借助 AI 網絡構建和訓練各類 Agent,并與現實世界進行實時互動并适應各種環境,從而實現對現實世界的洞察和理解。
比如交通領網域,AI 網絡将交通流量、氣象條件、道路狀況、城市環境等實時數據納入模型訓練,通過整合車輛、道路、雲端等多方數據,可以進行實時分析并為精準決策提供支持,幫助駕駛員和自動駕駛車輛即時優化決策。同時,通過 MogoMind 等大模型對攝像頭視頻流進行實時處理,可以為交通管理部門提供精準的交通流量分析預測與動态優化、事故預警、交通信号優化等服務。
當前,AI Agent 還遠未達到數據飛輪的啟動時刻,達不到自動駕駛般的普及度,而真實數據的成本極高,需要花長時間積累。數據的匮乏,不僅會影響模型的準确性和穩定性,還制約了其在真實場景中的廣泛應用的可靠性。
Manus 出現之前,業内便已經紛紛預測,2025 年将成為 AI Agent 商業化應用元年。DeepSeek 爆火之後,其背後的 V3、R1 等多款 AI 大模型帶來的工程優化和能力提升,快速引爆了市場熱情。在此基礎上,誰能基于這些模型能力打造出下一個超級 App、超級 Agent,成為行業關注的焦點。
斯蒂芬 · 茨威格在《人類群星閃耀時》中寫道:" 充滿戲劇性和命運攸關的時刻在個人的一生中和歷史的進程中都是難得的;這種時刻往往只發生在某一天、某一小時甚至某一分鍾,但它們的決定性影響卻跨越時間。"
從 DeepSeek 到 Manus,就像 AI 初春裡第一朵盛開的小花,當我們看到這朵小花的時候,判斷其是不是昙花一現,是沒有意義的;判斷它是不是整個春天裡最漂亮的花,也沒有意義。過早斷言并無必要,執着預測也非關鍵。
真正的遠見是:懷揣信念,默默耕耘,靜待破土的力量。當春天來了,而耕耘者早已備好沃土,讓每項 AI 技術都能找到适合的土壤,這或許就是智能生長的真正序幕。