今天小编分享的科技经验:全网刷屏的Manus合伙人,一年前在做什么?,欢迎阅读。
作者 |James
今天,AI 智能体应用 Manus 爆火刷屏,其联合创始人张涛对外发声描述产品状态,他也是亲自在群里发邀请码的那个人,以及在办公室里倒数计时,迎接产品发布上线的人,其个人经历引发关注。
张涛此前在字节跳动负责国际化产品的战略规划与落地,2023 年,他加入王慧文创办的人工智能公司光年之外,担任产品负责人,主导 AI 产品的研发与商业化探索。
2024 年 7 月,张涛与首席科学家季逸超(Peak)、连续创业者肖弘(Red)共同创立 Manus AI,并担任合伙人。他目前主要负责产品战略、市场沟通及用户体验优化。
张涛的即刻页面
娱乐资本论在一年前的 2024 年 3 月曾经采访过张涛。当时他在光年之外开发儿童陪伴类 AI 产品 Dodoboo。那时 AI 陪伴赛道非常火热,我们就他的产品,作为产品经理的方法论,以及 AI 陪伴的一些趋势做了讨论。
从现在回头看,里面大多数预见性的内容,如今已成功应验,而另一些内容仍有待将来的发展不断验证。作为一个十多年经验的产品经理老兵,他对产品的理解贯穿了前移动互联网时代,到如今的 AI 时代,体现出逻辑上的一致性。
完整的采访回放请参考下列视频号:
以下是张涛在采访中的部分主要内容摘录:
" 这一代孩子天生就是 AI 时代的孩子 "
我叫张涛,通常在各个社区里用 hidecloud 这个 ID。我过去主要做 toC 产品设计和运营,最近五年一直在做 SaaS 产品,前四年做神策数据,最近一年在做飞书的国际化。去年(2023)年中开始做 AI 方面的工作,已经做了 8 个月。在 AI 领網域是 "AI 一日人间一年 ",所以我有很多感悟。
现在(2024.4)正在做的产品 Dodoboo 1 月底上线,是面向小朋友的绘画增强 App,最初是 GPT 帮我们取的名字。产品比较简单,网站首页的视频就展示了它所有功能。你在右边绘画,左边会实时生成相应的画作。这个过程不需要输入提示词,很适合儿童使用。
娱乐资本论 " 视智未来 " 和张涛连线
我们目前使用的都是开源模型。在影像标注方面,有很多不同的模型可供选择。我们最初使用了社区中广泛使用的模型,但后来发现那个模型比较旧,不太适合复杂影像的理解,尤其是针对儿童影像。我们尝试了几种不同的影像标注模型,最终选择了现在这个,并用儿童涂鸦数据集进行了微调。
生成的影像的布局和走势都是不可更改的。如果只依赖提示词,我们无法达到现在这样的效果。我们确实做了图到图的生成。为了提高性能,目前没有实施更多的控制流程,因为这会影响生成效率。
我们现在没有把画风选择直接提供给用户。主要是在后端进行了一些分类,根据用户的不同输入,如纯线条勾勒或有色块的作品,进行不同的处理。所以,你会发现最终生成的风格并不完全一致。
去年(2023)下半年以来,新的技术如 LCM(潜在一致性模型)和(2024 年)2 月字节的 SDXL-Lightning 等技术出现后,影像生成的效率已经大大提高。例如,在我们的系统中,如果运行在级别较高的显卡上,单张影像生成可以控制在 0.8-1 秒之间,加上网络传输,总时间可能在 1.5-2 秒左右。
我们现在的早期用户,主要是自己身边的朋友,他们的反馈非常有趣。
我们在演示强调了一个卖点:提升孩子的自信。但这引发了中国式家长的担忧,他们认为这可能会让孩子偷懒。一个朋友担心他的孩子因为能快速生成精美影像,而失去创造力。这是一个非常有趣的反馈。
另一方面,有些孩子非常喜欢使用这个产品,特别是那些内向、乃至患有孤独症的孩子,他们能非常专注地使用这款产品,可能画一两百张图。同时我们也有国际用户。
我们发现成年人也在使用它。有些成年用户的原始画作已经非常出色,有个用户给我们做演示时,笔触和构图非常专业,不像小孩的涂鸦。最后我甚至有点惭愧,觉得我们生成的影像没有他的画好看。
进入美术教育会是一个有趣的方向,但我们最初设计这款产品时,并没有想那么多。
Dodoboo 的愿景
现在回过头来看,我有些不同的想法。我们自己小的时候,人们不鼓励使用计算器,希望我们能心算。但现在看来,这似乎有些滑稽。
我觉得这一代孩子天生就是 AI 时代的孩子。他们可能会从小就习惯使用各种 AI 工具来增强自己的生活、学习和工作能力。
" 产品必须一开始就盈利 "
现在启动一个 AI 项目,开发流程和初期的增长策略仍然和传统的 App 相同。当然,AI 领網域面临一些独特的问题。例如,AI 产品实现规模化的方式与我们以前的大多数互联网产品不同。
坦白说,直到日活用户达到 10 万之前,我们通常不会遇到太大的技术挑战。但 AI 产品与之前的互联网产品不同,它的边际成本并不会快速降低至接近零。
所以这就给大家留下了一个印象:如果没有大公司的支持,这种项目基本上是没有希望的。实际上,即使是依靠大公司也会有问题。
我认为大公司可能会在战略上选择补贴,但一个真正成功的产品,必须在商业上也是成功的,这意味着它必须盈利并有一个正向的商业模式,否则长期很难持续下去。
张涛在产品走红后负责对外发声。图 / 即刻 hidecloud
目前在 AI 产品领網域,我认为大家已经达成了共识。AI 产品不能像以前那样仅仅追求百万日活,从一开始就要考虑好商业模式和付费方式。
甚至需要从一开始就考虑好,应该使用什么规模的模型和什么样的模型能力,来服务目标客户群。有些市场可能需要你使用最顶尖的模型,而有些市场即便如此也可能无法满足需求。
这可能也包括一些工程上的挑战,比如首先需要对任务进行分类。先判断需求,然后将其路由到适合的模型,或者是训练过的特定小模型来处理特定的问题。
目前在行业早期的研发模式未必是未来的模式。但目前我们在做内部测试的 demo 时,可能会使用最顶尖的模型,这有助于我们验证想法,确保项目是可行的。如果我们能用最顶尖的模型解决问题,那接下来就会考虑如何进行裁剪和蒸馏,以及如何使用成本更低的方法来解决问题。
这就像是回到了古典互联网,那时候我们还处于必须严格控制带宽和数据量的阶段。现在我们在这个领網域中会用到一些技巧。我通过阅读论文发现了一些工程优化的方法,这也是一种比较传统的互联网工程思路。我认为工程学贯穿了我们人类几千年的历史。事实上,很多工程思维方法在计算机出现之前就已经存在了。
" 演示一出现,大家就立刻知道它的价值 "
我们产品目前的最大竞争力,可能是对市场和用户需求的把握。
前一阵子我参加一个分享会,我发现很多 AI 创业者,尤其是有研究背景的,他们对用户的理解还很浅,没有对用户需求的真实感知。他们谈论产品时,很少提及用户的需求和场景,不是说他们的工具去给用户解决什么问题。
去年大多数人想到 AI 都是降本增效,但我提出不做效率工具。我做工具出身,但在 AI 领網域,我不想只做工具。如果工具和内容结合,我会更感兴趣。
但纯工具,比如写年报或年终总结,一个人一年能写几次呢?我们说到 AI 助理,但一个公司可能有 12 万人,有几个人真的需要助理呢?我觉得这种需求很难被深入挖掘。
大多数人实际上并不需要那么高的工作效率。这背后的原因是,整个社会的生产方式和劳动形态还没有发生根本性的改变。所以,如果你只解决生产效率问题,那就可能是大面上有问题的。
我之前跟他们聊天时没有提到的一点是,这波浪潮不是 AI,而是 AIGC ——自动生成内容。现在的问题是很多人关注的是生成动作,因为以前没有这样的技术。看到一个智能体生成内容很震撼,但这种震撼可能一两年后就变得平常。
我认为更重要的是内容层面的问题。你生产了这么多内容,这些内容如何被消费,对人产生什么样的影响?——这才是产品的机会,而不仅仅是生成本身。
我们去年 10 月做了一个演示(demo),在小圈子里测试后,大家的第一反应是希望能在 iPad 上使用,给孩子们画画。
那时候很多 AI 产品都是为了展示模型能力而制作,有时候很难明确用途。但是我们的 demo 一出现,大家就立刻知道它的价值。作为一个产品,这是一个很好的起点。
好多年前,有个产品叫 " 你画我猜 "(Draw Something)。当时我更多的是出于兴趣在玩。除了对传播链条有一些想法外,我并没有深入思考过它。
不过,在开发现在的 Dodoboo 过程中,我们确实回想了 Draw Something,甚至考虑过是否要以社交或娱乐为主。但由于产品需要快速上线,没有深入考虑其他互動娱乐方面的想法。
Dodoboo 的用户作品
我们考虑的下一步是建立一个小型社区,核心是画廊,不是社交。社交产品很容易变得复杂,涉及审查等问题。现在的产品设计,就是把用户能做的事情限定在一定范围内。完成一幅画后,用户可以点一个按钮发布到广场,甚至不需要注册 / 登录。
实际上,我们发现产品最有趣的部分并不仅仅是成品图画。产品右上角有一个撤销按钮,其实你可以一直返回上一步,也可以前进看下一步。
每次画完图后,回到最开始,逐步查看整个生成过程,你会有一种感觉,就是那个精美的图是你自己创作出来的。看着一个东西从无到有、变得精美的过程,是非常享受的。
下一个版本我们会将绘图过程生成为视频。我觉得视频本身具备传播属性,这可能是一个小尝试。这一点确实让人想起 Draw Something 在社交网络上分享画图和猜图的过程。
我当然希望产品未来会火,但如何长期维持,这是一个新问题。AI 行业还在早期阶段,很难为未来的问题做准备。
" 人类的情感太容易被操纵了 "
在围绕陪伴的过程中,我们做了一些产品,有些对外小规模发布,也有完全对内的小 demo。在这个过程中,我看到了许多细节和瞬间,这让我非常有信心。
从中长期来看,我非常看好 AI 在陪伴方向的发展。人类的情感太容易被操纵,我们并不像我们自己想的那么理性。情感容易受外来因素影响,无论这个因素来自真人还是算法。即使知道这是虚构的,人们仍容易产生共情。
说一下我们做的一个实验。GPT-4 的视觉模型能读懂影像内容。我结合这个技术,编写了一些假想的 " 朋友 " 和 " 敌人 "。然后他们基于我的照片内容进行评论,赞美我,也有批评我。
这个实验对我影响很大。我虽然是整个规则的 " 上帝 ",编写了所有的角色,运行了程式,但当他们开始根据我的照片内容评论时,我的内心还是受到了触动。人类的情感太容易被操纵了。
我们自己的朋友圈还是相对较多,某种程度上拥有社交优势。发朋友圈或微博,总会有人点赞、评论或转发。对于大多数人来说,无论是在线还是离线社交,他们的社交圈相对较小,得到的反馈也比较少。我认为对大多数普通用户来说,无论内容是真人还是 AI 发布的,给予反馈都有其积极价值,并不全是欺骗。
Character.AI 的用户群体基本上都是非常年轻的,大概 12-16 岁。这些人基本上没有多少追随者,发的内容也很少有人理会。但他们非常频繁地发帖,其中大部分内容都与 C.AI 有关,这非常可怕。
AI 作图 by 娱乐资本论
我们观察到 AI 陪伴产品的一个典型特征是,大多数人开始是被知名动漫或游戏人物吸引。但从体验和用户访谈来看,如果你持续和一个已知的著名角色聊天,很容易聊崩,因为你对这个角色太了解了。一旦出戏,他就不再像那个角色了。所以我们会发现,通常情况下,用户长期持续交流的角色,是他们自己创造的,或平台上的一些原创角色。
在许多竞品的用户社区里,我常看到用户因为产品的 bug 而大发雷霆。大多数使用者还是年轻人,他们对产品的缺陷非常敏感。有时候他们在群里的辱骂言辞,让我这个中年人听起来都觉得难以忍受。他们不是在骂虚拟角色,而是在群里骂官方和平台,怪他们破坏了自己的角色。
这就出现另一个问题。当你用 AI 重温已故亲人的音容笑貌,你对 ta 很了解,那么你们会不会聊崩呢?虽然这感觉像是一个难以解决的问题,但实际上并非无解。
比如,我们可以采取一些措施,规定一些方向。例如明确指出某些东西是假的。我们可以引导他们进行鼓励性的对话,比如永远鼓励东亚的孩子们,这样他们在成长过程中,会感受到父母的爱和鼓励。
我相信这会深深触动东亚的孩子。我们在成长的过程中真的太缺少表扬和鼓励了。如果有个 AI 爸妈天天表扬你,说 " 孩子,我爱你!" 那该有多好。我现在就有这种感觉,活人在情绪供给方面,很难竞争过 AI。
还有一种 AI 陪伴可能是在育儿方面。我一开始觉得生成故事书是个非常好的用例,但它并没有真正流行起来。我在想可能的原因是,再好的故事书也需要家长来读给孩子听,这可能是最大的障碍。
AI 语音互動主要是等待时间太长。没有模型能像人一样,在规定时间内回答小朋友的问题。这个可能还需要半年到一年的时间才能在行业内解决。现在已经有了一些方向,但可能还需要一些时间。核心思想是绕过语音到文字——文字到语音的转换,直接将声音作为输入给语言模型,然后模型直接输出语音。
国内上一代语音助手大部分是基于规则做的。大厂可能都有成千上万条规则来解决各种边缘场景,突然让他们放弃这些规则能力,全面转向大模型,他们一时半会儿也不敢转。转了之后整个体验会大幅降级。你把哪些场景切给语言模型也是个问题。
长期来看,成年人、青少年、儿童和老年人的 AI 陪伴都有机会。但初期可能是儿童和老年阶段优先出现一些应用。因为他们对语言模型的缺点容忍度较高。
" 一些小细节,让人感到被连接 "
制作一个代理帮助预订机票,在最后一步,你无法完全依赖大模型。相比之下,制作陪伴类产品对准确性的要求不高。但陪伴类产品仍需要评估产品的有效性。
我们需要确定有效性的最高标准,例如我在制作 Dodoboo 时,最初的动机是同事或朋友看到它后,想给他们的孩子使用。这种直接的动机是有效性的一个重要标准。
图 /X Hidecloud
我认为有效性在于与产品建立情感上的联系。比如在进行小实验时,我们发现一些细微的情感连接。这些连接通常不是巨大的情感冲击,而是一些小细节,让人感到被连接。
其中一个重要因素是主动性。传统的 AI 聊天机器人通常是应激性反应,等待用户的提示才会回应。但我们发现,一旦 AI 具有主动性,比如自己判断何时发起对话,或者有时拒绝回答某些问题,这就能建立更真实的情感连接。
例如,如果 AI 总是顺从用户,永远满足每一个请求,即使它不想回答也必须说话,这会降低用户对它的认知。只有当 AI 真正能说 " 不 " 时,它作为一种意识,才真正存在于用户的精神世界中。
如何在拒绝、表现个性情感的同时,又不 1:1 模仿真人的缺点?我认为这个平衡可以通过数据反馈来控制,最终可能是一个匹配过程。不同的人喜欢不同的 AI 角色,比如傲娇或甜美类型。所以最终是关于找到适合的匹配。我们已经做了很多年的推荐系统了,这不是什么难题。
另一个非常有意思的话题是 AI 检测。我最近读了一些关于 AI 影像和音频检测的论文,有些非常有意思的内容。
一篇启发性的文章把影像抽成细节丰富,和细节不丰富的区網域。比如主体部分是细节丰富的,而背景则是细节不丰富的。他们先分离这两个区網域,然后计算这些区網域内像素点之间的关系和密度分布。
在真实世界中,无论是细节丰富还是不丰富的区網域,分布都比较均匀。但是 AI 生成的影像,在细节不丰富的地方,整体频率较低;而在细节丰富的地方,会投入更多精力。这就导致整体频率分布不均,从而可以区分出哪些是 AI 生成的。
大自然中万物平等,但 AI 会选择性地处理,导致信息元素的分布不同。既然已经意识到了一些问题的存在和解法,说实话,可能不到半年,AI 生成影像的质量就可以超出普通人的辨识范围。
" 开源能赶上 ChatGPT 吗?"
我认为 " 用开源技术能赶上 ChatGPT 吗?" 这些争论不太重要,因为我们做产品的考虑的是手头上的资源和能力有哪些限制,它能做什么,与哪些用户需求相匹配。这才是我们要做的事。
就语言模型而言,很难具体说开源技术大概相当于闭源领跑者的什么水平。对于多模态方面,某种程度上开源领網域可能更先进一些。
大语言模型就像登月工程,开源领網域如果没有足够数据集和训练能力,很难快速赶上。但多模态方面,除非是非常大的训练量,否则很容易跟上。有时候开源的一些工作,比闭源的商业模型效果更好。
Sora 也属于那种大力出奇迹的例子。我最近阅读了很多论文,它的结构已经被基本分析清楚,没有太多秘密。它的发展就是大算力出奇迹。
现在重新造轮子的现象严重,科研领網域就是这样。做范式创新的人很少,大多数人在基础上做性能优化。有些工作比较重复。范式创新之后,也有人在这基础上微调,认为是创新,但我看来可能不够突破。
但开源领網域好的一点是,真正的范式创新得到认可,并沿这个路线发展。这里面我没有看到严重的逻辑冲突。
话题互动:
你希望 AI 帮你做哪些工作?