今天小编分享的科技经验:让Manus给36氪当一天实习生后,我们想给Ta多发点奖金,欢迎阅读。
文|邓咏仪
编辑|苏建勋
(鉴于 Manus 引起的炒作争议,36 氪特别申明,本文绝非投放,实际上,我们连要到邀请码都颇费了一番周折 ……)
应该无需赘述 Manus 的引起的轰动了:大家已经在各种视频切片中,看到 Manus 勤勤恳恳地搜资料、做 PPT、开发网页小游戏。回放形式的分享设计,让人一眼就能感受到 Agent 带来的直观效率提升,这也让 Manus 经历一场迅速破圈。
在辗转拿到邀请码后,36 氪编辑部讨论了一下,为了更好地了解 Manus 的特性和功能,我们决定请 Manus 来当实习生,按照正常的工作流给 ta 分配任务,看看 Manus 能否胜任。
OK,输入邀请码,36 氪的新实习生 Manus 就位!
来源:Manus
先说第一观感,如果你要请这位 " 实习生 ",可能第一个需要接受的现实状况就是:这是位容易宕机的同学。
Manus 如今的服务非常不稳定。36 氪在周末实测时,第一感觉就是:让人崩溃 …… 任务频繁遇到停滞,因为 Manus 在云上的虚拟机跑,经常需要手动重置,才能继续跑。
本期实测,就是在 Manus 不断的崩溃间隙,测出来的。
测试的界面,总是停留在 " 连接已断开 "、" 遇到严重问题 ",需要不断重置 / 开启新会话 …
偶尔出现的幻觉(不确定是幻觉还是官方通知)也很真实。Manus 前一句还在说需要两小时更新维护,你再敲敲它,它就马上又开始干活了 ……
捉摸不透的 Manus
Manus 号称是 " 第一款通用型 Agents(智能体)",这意味着它不走垂直专家路线,优势在于更通用能力的任务。Manus 的官网就列出了多个分类:
Manus 官网 来源:Manus
Agents(智能体)不同于大模型,如果说大模型只有一个对话視窗,实现信息输入 - 输出。那么 Agents 就相当于让大模型有了行动能力,可以灵活调用各类工具完成任务。
36 氪决定先从我们编辑部的日常使用场景出发,以从易到难的程度排列,请 Manus 都跑一遍。
请注意,以下场景均为一次性输出的结果,除了任务中途崩溃重置计算机之外,36 氪没有做任何的重复测试。
校对及整理
我们先请 Manus 完成比较基础的校对、整理工作。
36 氪将此前的一份访谈录音原文(约 2.8 万字)交由 Manus 进行整理,核心要求是对录音速记 " 逐字逐句整理,不要压缩 ",去除相应的口癖、对语义不清的部分进行校对。
在以前的操作中,起码要来回和模型互動十多次:将录音速记中的错误进行人工校对——再分段扔到模型中——输出完毕后,还需要重新投喂给模型进行校对,看是否有事实错误。
但 Manus 很明显将以往的多个步骤压缩到一个步骤,这种下达任务之后等待验收的感觉,比和 ChatBot 互動体验,完全是十倍以上的体验提升。
来源:Manus
但 Manus 的缺陷也是明显的:上下文太短,幻觉依然有。很多复杂任务还没有完成,就因为 Token 消耗太多而中止了任务。
在校对润色这一任务中,最终输出的文档长度大大压缩,基本只输出了访谈的最后一部分,总共 3800 多字,前面的部分基本丢失。但从已输出整理的部分来看,语气、信息完整性还是算不错。
Manus 在执行长文任务
这大概率是因为推理和协作机制做得还不够好,模型只能提供一次性输出的结果,导致压缩;也有可能是 Memory 机制还未能做得很好—— Memory 可以看作是模型暂时存储信息的 " 仓库 ",比如聊天机器人会记住你之前说过的话。
早前一些研究工作指出,memory 会随着时间或任务步骤的增加而消退。而 Agent 所消耗的 Token,比起单 ChatBot 起码是两个数量级的提升——一位 Agent 从业者对 36 氪估计,Manus 的一个复杂任务的 Token 消耗估计会有百万 Token 级别。Memory 的分层管理、压缩等技术难点,还有很多提升空间。
新闻跟进及写作
对一般的 ChatBot 来说,输出长度都是一个老大难—— 36 氪之前的测试体验中,如果是一个 128K 的模型,一般而言单次输出长度都在 1000-2000 字左右,才能保证信息完整性,不被大量压缩。
36 氪先让 Manus 完成最基本的新闻跟进工作。这包含几项能力:日常的新闻监控——看是否会筛选靠谱的信息源,再进行重要性分析判断,以及找相应的资料,加以补充和跟进。
来源:Manus
Manus 开始进行学习范例 - 搜索相关新闻等等,但是在访问路透社时被验证码挡住了,请求人类接管。36 氪接管后,发现 Manus 已经被认证为机器,被屏蔽了。
来源:Manus
Manus 约花费 9 分钟完成这个任务,输出 5 条最值得关注的 AI 新闻,新闻源都是靠谱权威的。最后,Manus 最后选择了写有关自己的新闻 …… 哈哈。
Manus 写有关自己的新闻
Manus 的新闻文本输出已经算是 70 分水平,文字通顺,主要信息点都能覆盖,但和参考的范本不同,现在的文本偏软,AI 味较重。
但在我们提出修改意见后,第二版好了许多。
基本是可以细微调整调后,直接发表的水平
难度往上,我们也在 Manus 也输入了一段 prompt,让 Manus 帮忙直接以 36 氪的深度报道栏目 " 深氪 " 为例,生成一篇长文:
这周 " 稚晖君 " 创立的智元机器人预告要发新品。" 稚晖君 " 原名彭志辉,请你搜索彭志辉以及智元机器人的历史过程,用 36 氪的风格去写作一篇文章,主题为回溯智元机器人的历史,以及反映这家公司的成长,在科技行业中的意义,长度为 5000 字左右,可参考深度报道 " 深氪 " 栏目的风格。
请注意,语句需要深入浅出,普通人都能看懂,不要堆砌专业术语。
Manus 自动进行了资料收集,写作阶段直接进行分段写作,再合并,顺利地完成了长文写作,输出结果:
写作一篇有关智元机器人的深度长文
在输出的文章中,Manus 在深度写作上效果一般,更偏资料型整理。但遣词造句也算合格,但是风格还是偏软文。在高质量内容方面,Manus 的品味还有待加强。
数据分析及可视化
研究型任务也是 Manus 的强项。
从性质上来讲,Manus 采用了多智能体架构。简单来说,就是可将复杂任务拆解为子任务(如数据清洗、特征工程、模型训练),通过不同的智能体,分工并行处理,显著提升数据分析效率。
不过,如果一致性做不好,多智能体的局部决策可能导致全局结果偏差较严重。
36 氪让 Manus 和 OpenAI 旗下的 Deep Research,都试着做了一张 " 大模型 API 两年多以来的的 API 价格走势表 "。
OpenAI 旗下的 Deep Research 则是单智能体,端到端训练的模式——仅一个中心化智能体负责所有任务,决策与执行集中化。但好处在于模块集成度高,易于管理,输出质量比较有保证。
来源:Manus
Manus 花费的时间较长,约三个小时,生成了一个可以互動的网页。互动性和表格样式都相当不错。不过数据详实程度,和专门做研究的 Deep Research 仍有差距,但问题不大
来源:Deep Research
Deep Research 暂时还无法输出图表,但从输出的内容质量来看,是现在的 Manus 还没法赶上的。
创意型任务:可以做,但审美有点难评
我们也让 Manus 上了点难度。
第一个任务是模仿行业大 V" 影视飓风 "Tim 老师的风格,做一期有关 Manus 相关的视频,长度在 5 分钟左右。
Manus 用了约 45 分钟完成了这一任务,全程丝滑,依旧是兢兢业业拆任务,先上油管学习影视飓风的视频,再搜集资料写脚本。
来源:Manus
最后产出的内容,形式严谨,是一个结构完整的小科普视频——
来源:Manus
我们请教了视频组的老师,评价是:实习生水平,优点在于把工作流说明白了,分镜和镜头调度可以直接用作参考,但内容还不能直接用。
第二点是,视频脚本过于亢奋,全场充斥着 " 炸裂 "" 颠覆 " 之感,对人类的感情理解比较表面,有点难绷。
节选一段,供大家参考:
第二部分:Manus 的核心能力(1:10-2:20)
[ 场景:主持人夸张地在电腦前挣扎,被各种檔案和任务包围 ]
主持人:(夸张的疲惫表情,抓狂状)我们都经历过这样的时刻——需要整理大量数据、撰写报告、分析市场趋势 ... 这些工作可能要花费我们几小时,甚至几天!而且还很容易出错!
[ 特效:时钟快速旋转,日历页快速翻动 ]
主持人:(突然振作,眼睛发亮)但有了 Manus,这一切都将改变!它就像给你复制了一个数字版的自己,但更聪明、更高效!
[ 分屏效果:四个視窗同时展示 Manus 的不同能力,每个視窗都有动态效果 ]
主持人:(指向第一个視窗)Manus 的第一大核心能力:自主完成复杂任务!
[ 視窗放大,展示 Manus 自动撰写报告的加速过程,从收集资料到成品输出 ]
主持人:(解说,语速适中)你只需要告诉它你需要什么,然后 ...(打响指,配合音效)它会自己规划、搜索信息、整理数据、撰写内容,最终交付一份完整的成果!就像有了一个永不疲倦的助手!
[ 特效:第二个視窗放大,伴随着转场音效 ]
主持人:(热情洋溢)第二大核心能力:多领網域通用能力!无论是金融分析、教育内容创作、旅行规划,还是代码开发,Manus 都能胜任!
[ 快速剪辑展示 Manus 处理不同领網域任务的画面,每个场景都有对应的圖示和文字标签 ]
主持人:(夸张的惊讶表情,手势丰富)这就像同时拥有了一个金融分析师、一个内容创作者、一个旅行顾问和一个程式员!而且,它们都是 24 小时待命的!不需要休息,不会喊累!
[ 特效:第三个視窗放大,伴随着科技感音效 ]
主持人:(神秘语气,稍微降低音量)第三大核心能力:多模型协作机制!这个有点专业,但非常酷!
[ 动画展示多个 AI 模型协同工作的概念图,类似于团队协作的可视化 ]
主持人:(解说,配合手势)Manus 不是依靠单一大模型,而是采用 " 多重签名 " 机制,由多个独立 AI 模型共同驱动!就像一个高效的团队,每个成员负责不同的任务,相互配合,确保结果的可靠性和准确性!
36 氪还让 Manus 试着做了一个偏分析型的创意工作——对我们的微信公众号版式和设计分析后,进行改进。
为了更明确设计需求,我们也给 Manus 提供了一份设计案例,以及我们认为风格突出、审美优秀的数个公众号,作为参考。
来源:Manus
Manus 依旧很快就对任务进行拆解,虽然最后任务没有正式完成,但还是输出了一套完整的方案给我们。
除了我们建议的步骤(分析好版式的共性、联网搜索比较优秀的公众号设计实践,提出建议),Manus 还自己规划了更多步骤,也做了更细致的分类,包括分析 36 氪公众号,分为设计元素、板式布局、视觉资产、配色方案等等。
不过从结果可以看出,Manus 在审美这件事上 …… 并不擅长。就配色来说,Manus 给出了一个放之四海而皆准的方案,分为春夏秋冬四个季节,配色饱和度过高,审美可以说约等于没有。
来源:Manus
字体也是分为多个版本,并不统一。
来源:Manus
Manus 的输出依然非常依赖于公网数据的质量。
在 Manus 学习排版、设计相关知识时,打开了不少知乎网页。但 Manus 很难绕过登陆限制,然后就会转战到其他公开网页。更不必提如同独立王国一样的各大 App ——比如微信公众号内的数据,爬虫工具也很难完全触及。
被知乎登陆視窗卡住多次的 Manus
可能这需要期待以后模型间的接口进一步打通,包括端侧 Agent 跨平台等能力的进展,才能让 Agent 输出质量有质的提升。
最后,我们试着让 Manus 使用高推理模式,生成一个 Jellycat 主题的吃豆人游戏,Manus 花费约 45 分钟时间完成。
来源:Manus
吃豆人网页游戏
可以看到,代码和游戏开始界面都已经相当完整,但最后到了 " 开始游戏 " 这一环节,音效都能听到,但无法点击开始游戏。而后,对话因为上下文过长,停止响应了。
总结
在测试过程中,36 氪最大的感触在于,前端互動非常丝滑,有一种简洁的美感——从进入 Manus 官网到实际对话,Manus 都在营造一种 " 对面真的是个活人 " 的感觉。
尤其是在对话視窗旁边,可以打开一个名为 "Manus 的电腦 " 的小視窗,实时显示 Manus 正在操作什么,真的像远程看着一位实习生同学,帮你完成任务。
你可以随时拖动进度条,查看 Manus 正在进行的任务。对已经完成的步骤,Manus 都会提供类似网页快照的界面,让你对任务进展有明显感知。
Manus 正在通过百度百科学习智元机器人相关背景资料
另一个体验优秀的地方在于,Manus 对工具的调用成功率算是比较高的。在不遭遇崩溃、宕机的情况下,如果测试 10 个任务,大概能有 8 个自动完成任务,无需人类介入。
这能大大提升用户体验——在以前,很多 agent 调用外部工具的成功率都在 60% 以下,体验不佳,难以吸引到更多的用户。
市场普遍认为,Manus 团队对各类通用任务都先置入了不少 CoA(代理链)模版,覆盖众多通用任务(写作、数据分析、攻略等开放式问题)等等,这些工作显著提高了任务成功率。
这种机制,类似在 DeepSeek 对话中不断蹦出来的思维链,用户可以看到,Manus 是怎么样一个接一个调用外部工具的。
Manus 的纠错能力也很强。
36 氪多次发现,Manus 在任务进行过程中会遭遇错误。但 Manus 会尝试不同的解决方案,直至没法解决,才会向人类报错,让人类介入到问题解决中。
来源:Manus
来源:Manus
用户还可以随时打断 Manus,自己来完成某些步骤。
在 "Manus 的电腦 " 視窗右下角,有一个 " 接管 " 按钮。一旦任务进行得不对,人类可以直接打断进程,自己进入到这部 " 云上电腦 " 进行操作。
不过可能是计算资源不够,36 氪在操作 Manus 的电腦时,卡顿严重,只能勉强进行操作。
Manus 的电腦
这样的形式天然更符合人类工作的互動形式——只要使用一次,模型尽可能地自行纠错,减少人类参与的次数。
总结一句话:分析总结、数据分析、开放性问题等需要强逻辑性的任务,是 Manus 最擅长的部分。最不擅长的是创意工作,审美基本等于没有。
不过,受限于现在的服务稳定性和上下文視窗,Manus 完成任务的逻辑和过程很好,但交付质量只能说在中等水平,包括数据、文本等,都需要人类进行二次校对。但从完成任务的时间和质量来说,已经算是很不错的同学。
无论是对文本、影像、视频等相关内容,Manus 调用大模型只能模仿到内容的框架,就像一层皮——但内容质量还是需要人类强把关。
从周末的争议中再次回看 Manus,36 氪频繁想起的,是 2009 年的电影《阿凡达》上映之时。当时的阿凡达,是特效电影的集大成者,一个最重要的意义在于,让全球观众都见识到:顶尖的电影工业水平是这样的。
如今的 Manus,尽管还处于比较粗糙的形态。但至少在产品层面,和年初爆火的 DeepSeek 有一个共通点:用技术平权的手段,将 AI 产品迅速拉到大众面前,而不是停留在小圈子中狂欢。
Manus 集成了现在编程开发能力最强的 Claude,并且受到许多最新技术成果如 CodeAct 的启发。比起 OpenAI Operator 或者 Devin 高达数百美金的定价,Manus 的成本价大约在 2 美元左右。
而且,Manus 通用任务的体验已经足够丝滑,这让普罗大众都能感受到:"AI 居然还能这么玩 ",以及真正感受到 AI 对人类带来的巨大效用。
这也是现阶段,AI 产品在能为市场贡献的的最大价值。