让Manus给36氪当一天实习生后，我们想给Ta多发点奖金

今天小编分享的科技经验：让Manus给36氪当一天实习生后，我们想给Ta多发点奖金，欢迎阅读。

文｜邓咏仪

编辑｜苏建勋

（鉴于 Manus 引起的炒作争议，36 氪特别申明，本文绝非投放，实际上，我们连要到邀请码都颇费了一番周折 ……）

应该无需赘述 Manus 的引起的轰动了：大家已经在各种视频切片中，看到 Manus 勤勤恳恳地搜资料、做 PPT、开发网页小游戏。回放形式的分享设计，让人一眼就能感受到 Agent 带来的直观效率提升，这也让 Manus 经历一场迅速破圈。

在辗转拿到邀请码后，36 氪编辑部讨论了一下，为了更好地了解 Manus 的特性和功能，我们决定请 Manus 来当实习生，按照正常的工作流给 ta 分配任务，看看 Manus 能否胜任。

OK，输入邀请码，36 氪的新实习生 Manus 就位！

来源：Manus

先说第一观感，如果你要请这位 " 实习生 "，可能第一个需要接受的现实状况就是：这是位容易宕机的同学。

Manus 如今的服务非常不稳定。36 氪在周末实测时，第一感觉就是：让人崩溃 …… 任务频繁遇到停滞，因为 Manus 在云上的虚拟机跑，经常需要手动重置，才能继续跑。

本期实测，就是在 Manus 不断的崩溃间隙，测出来的。

测试的界面，总是停留在 " 连接已断开 "、" 遇到严重问题 "，需要不断重置 / 开启新会话 …

偶尔出现的幻觉（不确定是幻觉还是官方通知）也很真实。Manus 前一句还在说需要两小时更新维护，你再敲敲它，它就马上又开始干活了 ……

捉摸不透的 Manus

Manus 号称是 " 第一款通用型 Agents（智能体）"，这意味着它不走垂直专家路线，优势在于更通用能力的任务。Manus 的官网就列出了多个分类：

Manus 官网来源：Manus

Agents（智能体）不同于大模型，如果说大模型只有一个对话視窗，实现信息输入 - 输出。那么 Agents 就相当于让大模型有了行动能力，可以灵活调用各类工具完成任务。

36 氪决定先从我们编辑部的日常使用场景出发，以从易到难的程度排列，请 Manus 都跑一遍。

请注意，以下场景均为一次性输出的结果，除了任务中途崩溃重置计算机之外，36 氪没有做任何的重复测试。

校对及整理

我们先请 Manus 完成比较基础的校对、整理工作。

36 氪将此前的一份访谈录音原文（约 2.8 万字）交由 Manus 进行整理，核心要求是对录音速记 " 逐字逐句整理，不要压缩 "，去除相应的口癖、对语义不清的部分进行校对。

在以前的操作中，起码要来回和模型互動十多次：将录音速记中的错误进行人工校对——再分段扔到模型中——输出完毕后，还需要重新投喂给模型进行校对，看是否有事实错误。

但 Manus 很明显将以往的多个步骤压缩到一个步骤，这种下达任务之后等待验收的感觉，比和 ChatBot 互動体验，完全是十倍以上的体验提升。

来源：Manus

但 Manus 的缺陷也是明显的：上下文太短，幻觉依然有。很多复杂任务还没有完成，就因为 Token 消耗太多而中止了任务。

在校对润色这一任务中，最终输出的文档长度大大压缩，基本只输出了访谈的最后一部分，总共 3800 多字，前面的部分基本丢失。但从已输出整理的部分来看，语气、信息完整性还是算不错。

Manus 在执行长文任务

这大概率是因为推理和协作机制做得还不够好，模型只能提供一次性输出的结果，导致压缩；也有可能是 Memory 机制还未能做得很好—— Memory 可以看作是模型暂时存储信息的 " 仓库 "，比如聊天机器人会记住你之前说过的话。

早前一些研究工作指出，memory 会随着时间或任务步骤的增加而消退。而 Agent 所消耗的 Token，比起单 ChatBot 起码是两个数量级的提升——一位 Agent 从业者对 36 氪估计，Manus 的一个复杂任务的 Token 消耗估计会有百万 Token 级别。Memory 的分层管理、压缩等技术难点，还有很多提升空间。

新闻跟进及写作

对一般的 ChatBot 来说，输出长度都是一个老大难—— 36 氪之前的测试体验中，如果是一个 128K 的模型，一般而言单次输出长度都在 1000-2000 字左右，才能保证信息完整性，不被大量压缩。

36 氪先让 Manus 完成最基本的新闻跟进工作。这包含几项能力：日常的新闻监控——看是否会筛选靠谱的信息源，再进行重要性分析判断，以及找相应的资料，加以补充和跟进。

来源：Manus

Manus 开始进行学习范例 - 搜索相关新闻等等，但是在访问路透社时被验证码挡住了，请求人类接管。36 氪接管后，发现 Manus 已经被认证为机器，被屏蔽了。

来源：Manus

Manus 约花费 9 分钟完成这个任务，输出 5 条最值得关注的 AI 新闻，新闻源都是靠谱权威的。最后，Manus 最后选择了写有关自己的新闻 …… 哈哈。

Manus 写有关自己的新闻

Manus 的新闻文本输出已经算是 70 分水平，文字通顺，主要信息点都能覆盖，但和参考的范本不同，现在的文本偏软，AI 味较重。

但在我们提出修改意见后，第二版好了许多。

基本是可以细微调整调后，直接发表的水平

难度往上，我们也在 Manus 也输入了一段 prompt，让 Manus 帮忙直接以 36 氪的深度报道栏目 " 深氪 " 为例，生成一篇长文：

这周 " 稚晖君 " 创立的智元机器人预告要发新品。" 稚晖君 " 原名彭志辉，请你搜索彭志辉以及智元机器人的历史过程，用 36 氪的风格去写作一篇文章，主题为回溯智元机器人的历史，以及反映这家公司的成长，在科技行业中的意义，长度为 5000 字左右，可参考深度报道 " 深氪 " 栏目的风格。

请注意，语句需要深入浅出，普通人都能看懂，不要堆砌专业术语。

Manus 自动进行了资料收集，写作阶段直接进行分段写作，再合并，顺利地完成了长文写作，输出结果：

写作一篇有关智元机器人的深度长文

在输出的文章中，Manus 在深度写作上效果一般，更偏资料型整理。但遣词造句也算合格，但是风格还是偏软文。在高质量内容方面，Manus 的品味还有待加强。

数据分析及可视化

研究型任务也是 Manus 的强项。

从性质上来讲，Manus 采用了多智能体架构。简单来说，就是可将复杂任务拆解为子任务（如数据清洗、特征工程、模型训练），通过不同的智能体，分工并行处理，显著提升数据分析效率。

不过，如果一致性做不好，多智能体的局部决策可能导致全局结果偏差较严重。

36 氪让 Manus 和 OpenAI 旗下的 Deep Research，都试着做了一张 " 大模型 API 两年多以来的的 API 价格走势表 "。

OpenAI 旗下的 Deep Research 则是单智能体，端到端训练的模式——仅一个中心化智能体负责所有任务，决策与执行集中化。但好处在于模块集成度高，易于管理，输出质量比较有保证。

来源：Manus

Manus 花费的时间较长，约三个小时，生成了一个可以互動的网页。互动性和表格样式都相当不错。不过数据详实程度，和专门做研究的 Deep Research 仍有差距，但问题不大

来源：Deep Research

Deep Research 暂时还无法输出图表，但从输出的内容质量来看，是现在的 Manus 还没法赶上的。

创意型任务：可以做，但审美有点难评

我们也让 Manus 上了点难度。

第一个任务是模仿行业大 V" 影视飓风 "Tim 老师的风格，做一期有关 Manus 相关的视频，长度在 5 分钟左右。

Manus 用了约 45 分钟完成了这一任务，全程丝滑，依旧是兢兢业业拆任务，先上油管学习影视飓风的视频，再搜集资料写脚本。

来源：Manus

最后产出的内容，形式严谨，是一个结构完整的小科普视频——

来源：Manus

我们请教了视频组的老师，评价是：实习生水平，优点在于把工作流说明白了，分镜和镜头调度可以直接用作参考，但内容还不能直接用。

第二点是，视频脚本过于亢奋，全场充斥着 " 炸裂 "" 颠覆 " 之感，对人类的感情理解比较表面，有点难绷。

节选一段，供大家参考：

第二部分：Manus 的核心能力（1:10-2:20）

[ 场景：主持人夸张地在电腦前挣扎，被各种檔案和任务包围 ]

主持人：（夸张的疲惫表情，抓狂状）我们都经历过这样的时刻——需要整理大量数据、撰写报告、分析市场趋势 ... 这些工作可能要花费我们几小时，甚至几天！而且还很容易出错！

[ 特效：时钟快速旋转，日历页快速翻动 ]

主持人：（突然振作，眼睛发亮）但有了 Manus，这一切都将改变！它就像给你复制了一个数字版的自己，但更聪明、更高效！

[ 分屏效果：四个視窗同时展示 Manus 的不同能力，每个視窗都有动态效果 ]

主持人：（指向第一个視窗）Manus 的第一大核心能力：自主完成复杂任务！

[ 視窗放大，展示 Manus 自动撰写报告的加速过程，从收集资料到成品输出 ]

主持人：（解说，语速适中）你只需要告诉它你需要什么，然后 ...（打响指，配合音效）它会自己规划、搜索信息、整理数据、撰写内容，最终交付一份完整的成果！就像有了一个永不疲倦的助手！

[ 特效：第二个視窗放大，伴随着转场音效 ]

主持人：（热情洋溢）第二大核心能力：多领網域通用能力！无论是金融分析、教育内容创作、旅行规划，还是代码开发，Manus 都能胜任！

[ 快速剪辑展示 Manus 处理不同领網域任务的画面，每个场景都有对应的圖示和文字标签 ]

主持人：（夸张的惊讶表情，手势丰富）这就像同时拥有了一个金融分析师、一个内容创作者、一个旅行顾问和一个程式员！而且，它们都是 24 小时待命的！不需要休息，不会喊累！

[ 特效：第三个視窗放大，伴随着科技感音效 ]

主持人：（神秘语气，稍微降低音量）第三大核心能力：多模型协作机制！这个有点专业，但非常酷！

[ 动画展示多个 AI 模型协同工作的概念图，类似于团队协作的可视化 ]

主持人：（解说，配合手势）Manus 不是依靠单一大模型，而是采用 " 多重签名 " 机制，由多个独立 AI 模型共同驱动！就像一个高效的团队，每个成员负责不同的任务，相互配合，确保结果的可靠性和准确性！

36 氪还让 Manus 试着做了一个偏分析型的创意工作——对我们的微信公众号版式和设计分析后，进行改进。

为了更明确设计需求，我们也给 Manus 提供了一份设计案例，以及我们认为风格突出、审美优秀的数个公众号，作为参考。

来源：Manus

Manus 依旧很快就对任务进行拆解，虽然最后任务没有正式完成，但还是输出了一套完整的方案给我们。

除了我们建议的步骤（分析好版式的共性、联网搜索比较优秀的公众号设计实践，提出建议），Manus 还自己规划了更多步骤，也做了更细致的分类，包括分析 36 氪公众号，分为设计元素、板式布局、视觉资产、配色方案等等。

不过从结果可以看出，Manus 在审美这件事上 …… 并不擅长。就配色来说，Manus 给出了一个放之四海而皆准的方案，分为春夏秋冬四个季节，配色饱和度过高，审美可以说约等于没有。

来源：Manus

字体也是分为多个版本，并不统一。

来源：Manus

Manus 的输出依然非常依赖于公网数据的质量。

在 Manus 学习排版、设计相关知识时，打开了不少知乎网页。但 Manus 很难绕过登陆限制，然后就会转战到其他公开网页。更不必提如同独立王国一样的各大 App ——比如微信公众号内的数据，爬虫工具也很难完全触及。

被知乎登陆視窗卡住多次的 Manus

可能这需要期待以后模型间的接口进一步打通，包括端侧 Agent 跨平台等能力的进展，才能让 Agent 输出质量有质的提升。

最后，我们试着让 Manus 使用高推理模式，生成一个 Jellycat 主题的吃豆人游戏，Manus 花费约 45 分钟时间完成。

来源：Manus

吃豆人网页游戏

可以看到，代码和游戏开始界面都已经相当完整，但最后到了 " 开始游戏 " 这一环节，音效都能听到，但无法点击开始游戏。而后，对话因为上下文过长，停止响应了。

总结

在测试过程中，36 氪最大的感触在于，前端互動非常丝滑，有一种简洁的美感——从进入 Manus 官网到实际对话，Manus 都在营造一种 " 对面真的是个活人 " 的感觉。

尤其是在对话視窗旁边，可以打开一个名为 "Manus 的电腦 " 的小視窗，实时显示 Manus 正在操作什么，真的像远程看着一位实习生同学，帮你完成任务。

你可以随时拖动进度条，查看 Manus 正在进行的任务。对已经完成的步骤，Manus 都会提供类似网页快照的界面，让你对任务进展有明显感知。

Manus 正在通过百度百科学习智元机器人相关背景资料

另一个体验优秀的地方在于，Manus 对工具的调用成功率算是比较高的。在不遭遇崩溃、宕机的情况下，如果测试 10 个任务，大概能有 8 个自动完成任务，无需人类介入。

这能大大提升用户体验——在以前，很多 agent 调用外部工具的成功率都在 60% 以下，体验不佳，难以吸引到更多的用户。

市场普遍认为，Manus 团队对各类通用任务都先置入了不少 CoA（代理链）模版，覆盖众多通用任务（写作、数据分析、攻略等开放式问题）等等，这些工作显著提高了任务成功率。

这种机制，类似在 DeepSeek 对话中不断蹦出来的思维链，用户可以看到，Manus 是怎么样一个接一个调用外部工具的。

Manus 的纠错能力也很强。

36 氪多次发现，Manus 在任务进行过程中会遭遇错误。但 Manus 会尝试不同的解决方案，直至没法解决，才会向人类报错，让人类介入到问题解决中。

来源：Manus

用户还可以随时打断 Manus，自己来完成某些步骤。

在 "Manus 的电腦 " 視窗右下角，有一个 " 接管 " 按钮。一旦任务进行得不对，人类可以直接打断进程，自己进入到这部 " 云上电腦 " 进行操作。

不过可能是计算资源不够，36 氪在操作 Manus 的电腦时，卡顿严重，只能勉强进行操作。

Manus 的电腦

这样的形式天然更符合人类工作的互動形式——只要使用一次，模型尽可能地自行纠错，减少人类参与的次数。

总结一句话：分析总结、数据分析、开放性问题等需要强逻辑性的任务，是 Manus 最擅长的部分。最不擅长的是创意工作，审美基本等于没有。

不过，受限于现在的服务稳定性和上下文視窗，Manus 完成任务的逻辑和过程很好，但交付质量只能说在中等水平，包括数据、文本等，都需要人类进行二次校对。但从完成任务的时间和质量来说，已经算是很不错的同学。

无论是对文本、影像、视频等相关内容，Manus 调用大模型只能模仿到内容的框架，就像一层皮——但内容质量还是需要人类强把关。

从周末的争议中再次回看 Manus，36 氪频繁想起的，是 2009 年的电影《阿凡达》上映之时。当时的阿凡达，是特效电影的集大成者，一个最重要的意义在于，让全球观众都见识到：顶尖的电影工业水平是这样的。

如今的 Manus，尽管还处于比较粗糙的形态。但至少在产品层面，和年初爆火的 DeepSeek 有一个共通点：用技术平权的手段，将 AI 产品迅速拉到大众面前，而不是停留在小圈子中狂欢。

Manus 集成了现在编程开发能力最强的 Claude，并且受到许多最新技术成果如 CodeAct 的启发。比起 OpenAI Operator 或者 Devin 高达数百美金的定价，Manus 的成本价大约在 2 美元左右。

而且，Manus 通用任务的体验已经足够丝滑，这让普罗大众都能感受到："AI 居然还能这么玩 "，以及真正感受到 AI 对人类带来的巨大效用。

这也是现阶段，AI 产品在能为市场贡献的的最大价值。