拨开Manus迷雾，谁是AI关键胜负手？

今天小编分享的科技经验：拨开Manus迷雾，谁是AI关键胜负手？，欢迎阅读。

文 | 极智 GeeTech

世事的起伏本来是波浪式的 , 人们要是能够趁着高潮一往直前，一定可以功成名就；要是不能把握时机，就要终身蹭蹬，一事无成。——莎士比亚

近期，德意志银行发布了一份引起全球关注的报告，标题很刺眼——《China Eats the World》，直译过来就是《中国正鲸吞世界》，听起来像是危言耸听，但内容确实分量感十足。

这份报告直指中国的迅猛崛起，称中国如今不仅是全球制造业的中心，还在重重包围中的高科技领網域杀出了血路，甚至威胁到了西方的技术霸权。报告中还用了一个历史比喻—— " 斯普特尼克时刻 "。

" 斯普特尼克时刻 " 是美国在冷战期间提出的概念。美苏冷战时期的 1957 年，苏联领先美国，将第一颗人造卫星 " 斯普特尼克 1 号 " 送入地球轨道。苏联这一科学技术领網域的优势，给美国带来巨大冲击。

德意志银行用了这个词，形容中国如今的技术突破，尤其是在人工智能、制造业、新能源等领網域的表现，其认为 2025 年正成为中国超越世界其他国家的一年。以 DeepSeek 为开端，越来越多的事实已表明，中国科技企业正在以精益的工程化思维，完成另一种东方叙事。

AI 精益思维与工程化能力

在《技术的本质》中，布莱恩 · 阿瑟（Brian Arthur）曾表示：新技术并不是无中生有地被 " 发明 " 出来的，我看到的技术的例子都是从先前已有的技术中被创造（被建构、被聚集、被集成）而来的。

2023 年，一款名为 Monica 的 AI 助手以浏览器插件的形式在欧洲和拉美地区迅速走红。这款集合了 GPT-4、Claude、Bard、Gemini 等主流模型于一体的智能应用，能够让用户在浏览网页的同时即时调用 AI 功能，从 AI 对话、翻译到绘图、写作无所不包，特别是其语言模型支持 22 种语言，用户可以通过语音输入进行实时翻译，验证了 " 工具全家桶 " 模式的用户需求。

3 月 6 日，Monica.im 发布全球首个通用 AI Agent 产品 Manus，效果超越 OpenAI 的 Deep Research。与现有 AI 助手不同，Manus 能够独立思考、规划并执行复杂任务，直接交付完整成果，展现出较好的通用性和执行能力。

Monica 创始人肖弘在 Manus 发布的前几个小时，在即刻平台上发文 " 高潮来临 "：很难现在就判定 Manus 的诞生就是 AGI 的里程碑，但它很有可能将让 Agent 时代真的进入 " 高潮时刻 "。

从技术角度看，Manus 本质上是基于基座大模型的系统性工程优化，通过构建多智能体协作框架，将任务划分为 " 规划 - 执行 - 验证 " 三个阶段，由不同 AI 代理接力协作，模拟人类处理复杂任务的流程。同时，针对不同应用场景设计了多层次环境适配机制，最终形成面向复杂任务的高度工程化整合方案。

在互動体验方面，Manus 的核心能力体现在对用户需求的洞察，它最后交付的不仅仅是文字，而是借助代码生成了各类契合任务需求的结果，涵盖了文档、网页、圖示甚至是视频。由此，用户能够更加直观地获取到自己想要的结果，还能在过程中对最终的交付结果进行验证。

事实上，Manus 并非在底层技术上有重大突破，而是通过工程化能力挤压出了模型可以完成的最复杂任务。

首先，通过深度的后训练（Post-Training）带来令人惊艳的 " 魔法感 "。后训练，就是在预训练模型的基础上，通过针对特定任务的数据集和监督信号，对模型进行微调，使其更好地适应下游任务。

后训练过程通常包括微调、对齐和评估三个阶段。

在微调阶段，模型通过针对特定任务的数据集进行监督学习，调整模型参数以适应任务需求。

在对齐阶段，模型通过人类偏好数据等手段进行训练，以使其输出更符合人类价值观和道德标准。

在评估阶段，则需要对模型进行全面评估，确保其在实际应用中表现出良好的性能。

通过后训练，模型能够学习到更多与任务相关的知识，更好地理解人类意图，生成更符合人类期望的回答，从而在实际应用中表现出更佳的性能。

其次，借助 Monica 在模型聚合领網域的积累，构建了一个远超单一模型调用的多模型协同网络。最后，它将现有技术进行整合，展现出了较强的系统集成能力。

Manus 通过预设工作流和标准化场景（如生成报告、翻译合同、简历筛选），将语音、影像、文本等多模态互動与行业工具链进行整合，并通过优化工具调用顺序和参数配置，全面提升工作效率和产出效果。

例如，在生成市场报告时，能自动调用数据分析工具和设计平台完成全流程，形成 " 端到端 " 解决方案。这种工程化封装能力使其在标准化任务中表现优于通用大模型。

无论是 DeepSeek 还是 Manus，都体现出了 "Less is More" 的技术理念。相比大模型，它们用更少的结构、更少的资源，调动更强的智能，强调通过优质数据、强大模型和灵活架构实现能力的自然涌现。

这轮中国 AI 技术崛起，本质上是一场大规模系统级工程创新的胜利。它证明在既有技术框架下，通过工程优化与路径创新，完全可能实现局部超越。

Manus 没有追求自研大模型，而是通过多模型动态调用（GPT-4、Claude3、Gemini）提升综合能力，也就是常说的 " 套壳 "，这成为其最受争议的焦点。

其实 " 套壳 " 本身并不可怕，可以视为一种整合和优化资源的方式，关键在于是否能够解决用户的实际问题。用户更在乎的是产品体验，有没有迅速且准确地获得所需的内容，而不是底层用了什么，如何调用工具。

不过，互联网时代的系统与应用 " 两层思维 " 在 AI 时代已经失效，模型和应用两者的能力已经相互融合不分彼此，模型即应用。

做 AI 应用最终还是在向用户交付一项大模型能力，无论使用的是提示工程、强化学习、工作流、Agent，还是别的 " 套壳 " 手段，底层都还是那台贯通一切的 " 大腦 "。

比如 OpenAI 的 Agent 走的就完全是模型训练的路径。Deep Research 突出特点便在于端到端训练带来的自主能力进化，基于微调的 OpenAI o3 版本，底层训练赋予了 Deep Research 很多分析能力。

长期来看，在模型之上进行强化学习调整，可能才是构建强大 Agent 的关键。

至于 Manus 是否是个好产品，仍需等待市场的验证。无论褒赞和争议如何，Manus 让虚掩着的 AI 应用大门正慢慢敞开。

Agent 离临门一脚还差多远？

人类与 AI 互動大致可分为三种模式：嵌入模式（Embedding）、副驾驶模式（Copilot）、智能体模式（Agent）。

嵌入模式下，AI 大模型在特定环节被调用。用户通过语言与 AI 互动，用提示词设定目标，AI 则协助完成。这种模式让 AI 成为执行命令的工具，而人类则是决策者和指挥者。普通用户可以用它来创作小说、音乐、3D 内容等。

副驾驶模式则更加智能化，人类与 AI 成为合作伙伴，每个环节都能与 AI 大模型互動。AI 介入工作的各个阶段，从提供建议到协助完成。

例如在軟體开发中，AI 可以为程式员编写代码、检测错误、优化性能。人类与 AI 在此过程中相互协作，AI 更像是知识渊博的伙伴，而非单纯工具。

2021 年，微软在 GitHub 首次引入了 Copilot 概念。2023 年 5 月，微软在大模型加持下，Copilot 迎来全面更新，并提出 "Copilot 是一种全新的工作方式 " 的理念。

智能体模式的 AI 参与度更高，任务被交给 AI 大模型，模型自行计划、分解并自动执行。人类设定目标并提供必要资源，如计算能力，然后 AI 独立承担大部分工作，最后人类监督进程并评估最终结果。

在这种模式下，AI 展现智能体的互动性、自主性和适应性特征，近乎独立的行动者，而人类则更多扮演监督者和评估者的角色。

谈到 AI Agent，很多人都认为它是大模型的产物，毕竟大部分人接触 Agent 是从基于 GPT-4 的 AutoGPT、BabyGPT、GPT-Engineer 等开源 Agent 程式开始的。

但了解 AI Agent 的人应该知道，Agent 概念并不是当今的产物，而是人工智能不断进化的结果。

2023 年 6 月，OpenAI 应用研究主管 Lilian Weng 发表了《LLM Powered Autonomous Agents》一文，其中她提出了一个公式：智能体 = 大语言模型 + 规划 + 记忆 + 工具使用。

其中，大模型是 Agent 的大腦 , 属于 " 中枢 " 模型，要求有以下 3 种能力：规划——就如同一位棋手，能将复杂局面分解为一系列精妙的子步骤；工具使用——宛如工匠，懂得从工具箱中选取最合适的工具并熟练调用；记忆——既有短期记忆存储即时信息，又有长期记忆沉淀持久知识。

20 世纪 50 年代，阿兰•图灵（Alan Turing）把 " 高度智能有机体 " 概念扩展到了人工实体，并提出了著名的图灵测试。这个测试是人工智能的基石，旨在探索机器是否可以显示与人类相当的智能行为。

在早期阶段，研究人员开始探讨如何让计算机模拟人类的思维和学习过程。这个阶段的 Agent 主要是基于规则的专家系统，它们可以在特定领網域内解决问题，但缺乏自主学习和适应能力。

随着机器学习的出现，Agent 开始尝试通过数据驱动的方式来学习和改进。主要依赖于监督学习和无监督学习算法，如决策树、神经网络和聚类分析等。这些算法使得 Agent 能够在大量数据中学习和提取有用的信息，从而提高性能。

深度学习技术为 Agent 的发展带来了革命性的变革。深度学习算法，如卷积神经网络（CNN）和循环神经网络（RNN），使得 Agent 能够在复杂的数据中自动学习特征和规律，从而实现更高层次的认知和决策能力。这个阶段的 Agent 已经在影像识别、语音识别、自然语言处理等领網域取得了显著的成果。

强化学习是一种让 Agent 通过与环境的互動来学习最优策略的方法。近年来，强化学习在 Agent 领網域取得了重要突破，使得 Agent 能够在复杂的环境中实现自主学习和决策，为未来的 Agent 发展提供了新的可能性。

从以上发展历程看，AI Agent 经历了从基于规则的专家系统，到数据驱动的机器学习方法，再到如今的深度学习和强化学习。

不少人认为，Agent 爆发需要两个必要条件，一个是多模态能力，另一个是慢思考能力，在 2024 年都取得了突破性进展。因此，2025 年被行业认为是 AI 至关重要的发展节点，Agent 有望成为最重要的产品形态，引领 AI 从传统的 " 工具 " 角色向更具互动性与协作性的 " 伙伴 " 角色转变。

全面爆发还要迈过几道槛？

虽然 AI Agent 爆发曙光已现，距离真正的爆发仍有不少要克服的障碍。

一个关键的挑战是，缺少一个能够支撑整个生态的作業系統。初创公司 /dev/agents 计划为 AI Agent 开发一个类似于安卓作業系統的通用平台，试图解决目前 Agent 碎片化的局面。

其它挑战还包括如何实现低延迟、带视觉理解的实时反馈；如何构建个性化的记忆系统；如何在虚拟与物理环境都具备执行能力等等。只有当 AI Agent 从 " 工具 " 变成 " 工具使用者 " 时，真正的杀手级应用才会出现。

在 Agent 的构建上，仍有许多悬而未决的技术难题，例如大模型幻觉、长时记忆的前后一致性问题、以及增强多模态的理解能力。

AI Agent 依赖大模型 " 黑盒 "，本身就存在不可预测性。至今在解决一些逻辑、推理等核心问题上，Agent 的能力还偏弱。因此，Agent 各模块之间如何配合、多个 Agent 如何互動、人类与 Agent 如何互动等方面，Agent 技术尚处于早期阶段。

接入 Agent 后，所有需要处理的业务场景，都会转化成需要底层大模型理解的数据，从而产生高昂的推理成本。斯坦福的虚拟小镇框架开源后，每个 Agent 一天就需要消耗 20 美金的 Token 数，比用人成本还要高。因此，如何控制高昂的调用成本，是摆在 AI Agent 面前的一大难题。

现阶段一个最关键的制约因素，还是数据质量、数据规模、应用场景不足，AI 模型、AI 训练数据集、AI 场景落地部署，都远远不够。

以 AI Agent 机器人为例，由于缺乏高质量的真实数据，机器人就无从进行训练。通过互联网数据，机器人的感知已经出现了相当强的泛化，能够更好地理解物理世界。

不少 AI 企业通过真实数据和仿真数据结合的方式，将任务过程中的数据 " 喂 " 给大模型。然而，仿真数据还是不够真实，Agent 在模拟世界能成功，但导入到现实世界就会有一定的失败率。

所以，要结合现实世界实时动态信息，使 AI 系统不仅能够理解信息，还要形成对物理现象的理解与智能决策能力，从而使得 Agent 能够灵活应对现实世界的复杂情况。

导入现实世界动态数据将是大模型、AI Agent 产生高阶思维的必然路径。一方面，基于互联网上大量文本和影像数据训练的生成式 AI 模型（GPT、Llama 等）在生成人类语言和抽象概念方面已经基本满足需求，但是受其生成规则的限制，对于现实世界的理解有限，因此会出现不符合现实世界规律的 " 幻觉 "。

另一方面，机器无法感知和察觉它们周围的世界，需要借助 AI 网络构建和训练各类 Agent，并与现实世界进行实时互動并适应各种环境，从而实现对现实世界的洞察和理解。

比如交通领網域，AI 网络将交通流量、气象条件、道路状况、城市环境等实时数据纳入模型训练，通过整合车辆、道路、云端等多方数据，可以进行实时分析并为精准决策提供支持，帮助驾驶员和自动驾驶车辆即时优化决策。同时，通过 MogoMind 等大模型对摄像头视频流进行实时处理，可以为交通管理部门提供精准的交通流量分析预测与动态优化、事故预警、交通信号优化等服务。

当前，AI Agent 还远未达到数据飞轮的启动时刻，达不到自动驾驶般的普及度，而真实数据的成本极高，需要花长时间积累。数据的匮乏，不仅会影响模型的准确性和稳定性，还制约了其在真实场景中的广泛应用的可靠性。

Manus 出现之前，业内便已经纷纷预测，2025 年将成为 AI Agent 商业化应用元年。DeepSeek 爆火之后，其背后的 V3、R1 等多款 AI 大模型带来的工程优化和能力提升，快速引爆了市场热情。在此基础上，谁能基于这些模型能力打造出下一个超级 App、超级 Agent，成为行业关注的焦点。

斯蒂芬 · 茨威格在《人类群星闪耀时》中写道：" 充满戏剧性和命运攸关的时刻在个人的一生中和历史的进程中都是难得的；这种时刻往往只发生在某一天、某一小时甚至某一分钟，但它们的决定性影响却跨越时间。"

从 DeepSeek 到 Manus，就像 AI 初春里第一朵盛开的小花，当我们看到这朵小花的时候，判断其是不是昙花一现，是没有意义的；判断它是不是整个春天里最漂亮的花，也没有意义。过早断言并无必要，执着预测也非关键。

真正的远见是：怀揣信念，默默耕耘，静待破土的力量。当春天来了，而耕耘者早已备好沃土，让每项 AI 技术都能找到适合的土壤，这或许就是智能生长的真正序幕。