今天小编分享的互联网经验:叫板Sora出圈后,Luma AI如何接住泼天的流量?,欢迎阅读。
文|周鑫雨
编辑|苏建勋
Luma AI 在视频领網域叫板 OpenAI 故事,好比中途改打网球的杜兰特,打赢了网球男单大满贯纳达尔。
最近,这家成立于 2021 年的硅谷 AI 公司,在和《智能涌现》的交流中,复盘了视频生成模型 Dream Machine AI 爆火的过程。
在硅谷率先发布一款效果能对标 OpenAI Sora 的视频模型,对一家初创公司而言并不容易——更何况,Luma AI 在视频生成领網域算得上是 " 半路出家 ":
2024 年前,这还是个主攻 3D 生成、规模在 10 人左右的小公司。Luma AI 数据产品负责人 Barkley Dai 告诉《智能涌现》,2023 年 12 月决定转型做视频生成后,团队才扩充了视频领網域的人才,规模增加到了 50 人。
他提到,Luma AI 能成为视频生成领網域的蚂蚁雄兵,技术实力、发布时机和运营策略缺一不可。
人才,是这家公司认为做出视频模型最重要的资产。2023 年 12 月,决定从 3D 转型做视频生成后,Luma AI 吸纳了 40 个 AI 领網域的人才。
而和 OpenAI、Google 打擂台,Luma AI 又对模型的算法和 Infra 做了诸多优化。Barkley 对《智能涌现》表示,团队在 Sora 同款 DiT 架构的基础上,采用了独家改进的架构,保证生成效果的同时,还节省了训练和推理成本。
视频模型 "Dream Machine AI" 的发布时间,2024 年 6 月 13 日,踩中了视频模型赛道的空白点——这也让 Dream Machine AI 具有了稀缺性,除了快手 " 可灵 " 之外,这是唯一真正对大众开放的视频模型;
而模型的 " 限免 " 策略,又立刻吸引了大量试用者:上线 4 天,Dream Machine AI 的用户量就破了百万。Barkley 对《智能涌现》透露,Dream Machine AI 的投流费用是 0,全靠 KOL 自发安利,和用户的口碑发酵。
爆火之后,提高用户留存,不让辉煌昙花一现,是 Luma AI 如今的命题。
2024 年 11 月 26 日,在视频模型发布后近 6 个月,Luma AI 在 iOS 和 web 端上线了 Dream Machine AI 创意平台。与之配套发布的,还有 Luma AI 自研的首款影像生成模型,Luma Photon。
△ Dream Machine iOS 界面。
Luma AI 产品设计师 Jiacheng Yang(杨家诚)告诉《智能涌现》,与 Midjourney、Adobe 等专业设计工具不同,Dream Machine 不需要用户学习如何写 Prompt(提示词),也不需要用户懂设计," 我们的目标就是做一款 AI 小白和设计小白都能轻易上手的 AI 视觉工具 "。
据他介绍,Dream Machine 共有 5 个核心功能:
(1)用自然语言进行对话,实现图片的创作生成和编辑;
(2)由 AI 提供创意点子,根据用户输入的 Prompt,自动提供创意、风格选项;
(3)视觉参照,根据用户输入的照片,生成带有相同主体或者风格的图片;
(4)将 AI 设计的图片转化为视频,供用户查看图片中主体在不同角度下呈现出的细节;
(5)将所有 AI 生成的素材发布在面板上,并生成可供分享的链接,有助于团队进行头腦风暴。
△ Dream Machine 视觉参照功能。
为什么选择用影像设计平台,去承接视频模型的用户?" 想要扩大 AI 视觉领網域用户的盘子,只有视频生成是不够的。影像生成的应用场景会更广泛,所以我们想做一个很好上手的设计平台,用户能够轻易上手的同时,也能展现我们的模型能力。"Barkley 提到。
行业竞争,是作为初创企业的 Luma AI 不得不面对的问题。他们认为,打出差异化优势,是让模型和产品在行业中具有辨识度和获客的关键。
比如面对 Midjourney 等影像产品的竞争,Dream Machine 把语言理解能力做到了 " 天花板 "。以及,这也是一个最会设计字体的模型——相较于 Midjourney 和 GPT 生成的带文字的图片,Dream Machine 图片中文字的设计感和清晰度是最高的。
△ Dream Machine 在图片中生成的配文。
和视频模型一样,Luma AI 给 Dream Machine 花费的投流预算,是 0。在 Barkley 看来,烧钱营销看的是回报率,这意味着最终还是要用产品说话。以及,"AI市场还很小,我觉得对 AI 公司来说,烧钱营销还为时尚早。还不如把营销的钱,投到产品研发上"。
以下《智能涌现》与 Luma AI 增长负责人 Barkley Dai、Luma AI 产品设计师 Jiacheng Yang 的交流,内容略经《智能涌现》编辑:
烧钱营销,AI 公司还为时尚早
《智能涌现》:2024 年 6 月发布视频模型 Dream Machine 的时候,团队有没有预料到会爆火?
Barkley:其实当时是远超我们预期的,我们一度出现伺服器和 GPU 资源没有办法承受的情况。
《智能涌现》:如果要总结爆火的经验,你觉得是什么?
Barkley:其实最早发布的版本,还不是效果最好的版本。但我们决定全量免费放给所有的用户去使用。
在当时,还没有一个视频模型能够做到这样。所以短时间内吸引了很多用户的关注。
《智能涌现》:对于创业公司来说,做免费的决定是不是还挺不容易的?
Barkley:其实我们当时也给免费設定了一个额度,我觉得这是一个行业的 standard practice(基本操作)。
只是当时的峰值对我们来说过高,大量的用户在短时间内涌入,伺服器后台收到了太多的 request。
《智能涌现》:公司能负担流量带来的推理成本吗?
Barkley:其实我们还是在技术层面做了很多成本的优化,比如不断去提升视频生成的速度,最开始我们的模型生成 5 秒的视频需要 120 秒,现在只需要 20 秒。
以及在保持原有生成质量的情况下,视频模型的推理还有很多优化的空间。所以在半年时间里,视频模型的成本是在下降的。
所以我觉得推理成本对我们来说不是特别大的负担,当然也是一笔开支,但未来会变低。
《智能涌现》:你提到 Dream Machine 是有免费额度的,那么使用完免费额度后的用户付费率怎样?
Barkley:说实话我们对付费率完全没有任何预期。因为当时我们对 Dream Machine 的定位是教育用户的产品,让用户知道 Luma AI 视频生成的潜力有多大。当时市面上还没有一个视频模型是按照对标 Sora 的水平发布的,所以我们对付费率完全没有对标的对象。
但现在发布的 AI 设计平台,我们的定位是最终去获客的产品。所以现在我们对它的收入和付费率有更高的期待。
《智能涌现》:Dream Machine 在营销上投入了多少?
Barkley:0,我们在发布的时候没有做任何的营销付费。
当然我们提前去联系了很多创作者,他们试用后都觉得很兴奋,甚至大多数人之前用过 Runway,还有人用过可灵。但他们用了我们的产品后,都觉得说 "This is the next big thing",在推特上自发帮我们推广。
但我们没有做任何的投放,因为我们还是坚信成功的因素就是产品本身。
《智能涌现》:烧钱营销,这一套打法在硅谷 AI 公司常见吗?
Barkley:我感觉硅谷大部分还是比较产品驱动的,运营这一套主要是中国公司。
视觉领網域的市场还很小,我觉得对 AI 公司来说,烧钱营销还为时尚早。即便 ChatGPT 的用户很多,但是像一些视觉模型,用户还是很少数。
这个时候如果你做投流,去做跑马圈地,留存肯定不高,还不如把这些钱投入到模型和产品的研发上,用更好的模型和产品吸引用户的增长。
《智能涌现》:在发布视频模型之前,Luma AI 的技术和产品还是围绕 3D 生成的。团队是什么时候决定做视频生成模型的?
Barkley:大约在 2023 年 12 月。
《智能涌现》:为什么从 3D 转向做视频和影像模型?
Barkley:我们原来其实也不会说自己是一个 3D 公司,公司的定位还是视觉领網域的 AI 公司,我们想去理解这个世界在视觉上的构造,是如何帮助 AI 对世界进行理解的。
从创始团队的研究背景来看,一开始 3D 是 Luma AI 比绝大多数公司和团队更擅长的事。后续我们也确实做了很多 3D 生成上的技术突破。
但是 3D 可以被用于训练的数据量级,相较于图片和视频来说都会少很多。同时在使用场景上,目前手机和电腦还是主要的产品载体,但 3D 也会比视频更受到限制。
但是当我们有更多的算力、更多的人才,也有更多的能力去推进我们的愿景,也就是更好地了解世界,我们也自然地会从 3D 转向做视频。
《智能涌现》:这会不会让公司看起来战略有些摇摆?
Barkley:从我作为一个内部成员的视角来看,我觉得不管是 3D 还是视频生成,一直都是合理的。
因为不管是 3D,还是视频和图片,都只是一种模态。如果我们最终想做到的是对这个世界的理解,那么不管是一种模态、一种生成,还是一种创意的发挥,我觉得只要目标不变,这些媒介就只是帮我们达成目标的手段。
《智能涌现》:从 3D 转型做视频生成,期间有遇到什么困难吗?
Barkley:我觉得整个过程还是比较顺利的,因为我们在做 3D 生成的时候,团队也就在十几人的规模,但当我们做视频生成以后,引入了很多视频领網域的人才,现在团队规模已经超过了 50 人。
这个过程其实是吸纳了更多新成员去推进目标的实现,而不是说原来大家就在频繁地换方向。只是原来做 3D 的人,现在也在逐渐开始做视频方面,比如数据等各方面的工作。
《智能涌现》:做 3D 的经历对视频生成有帮助吗?很多反馈说 Dream Machine 的运动轨迹做得很好,这和 3D 积累下的空间理解能力有关吗?
Barkley:我觉得可能不一定有那么直接的关系。
但从我们发布最早版本的视频模型开始,我们对相机的轨迹运动,包括视频里有多少机位的变化,是十分侧重的。
所以当时用户也会普遍反馈说,Luma AI 的模型虽然有时候生成结果不是那么稳定,但是它能给到很多的机位的移动,以及复杂的人物运动轨迹。
我觉得过去在 3D 上的一些经验,能够让我们在做视觉模型的时候,意识到提升机位的丰富度和运动轨迹的复杂度,能够提高用户对视频生成内容的消费意愿。
不过我觉得过去的经验,包括模型本身之间,其实没有那么大的关联性和借鉴意义。
《智能涌现》:所以技术转型最重要还是补充新的技术人才是吗?
Barkley:是的。
承接住模型的爆火,需要有产品
《智能涌现》:6 月份 Dream Machine 走红后,你们怎么考虑用户留存的问题?
Barkley:我们发布 Dream Machine 的时候,就知道后面一定要有产品去承接用户持续稳定的需求。
比如你作为一个 ChatGPT 的长期用户,即便后续会出来很多能力做得和 GPT 差不多的模型,你还是大概率会选择使用 ChatGPT。因为 ChatGPT 通过长期的深度学习,已经把握了用户习惯,能够更好地理解你的意图。
行业里永远会有更好的模型出现,但产品最终是能够让用户留存的点。
《智能涌现》:团队是从什么时候计划做这样 AI 设计平台的?
Barkley:这个想法其实在我们最开始做视频模型的时候就有了。所以产品的想法是去年(2023 年)12 月和视频模型同步推进的。
只是在产品的设计过程中,我们后来意识到,要想把整个设计流程涵盖,也必须要做到能够生成图片。所以在视频模型发布 5 个月以后,我们觉得图片模型也足够好的时候,把两部分同时整合成一个产品。
《智能涌现》:平台的目标用户是哪些人?专业设计师还是大众?
Barkley:其实我们觉得原来的 Dream Machine,更多的用户还是偏专业的,至少是有做 AI 电影的经验,或者知道怎么用 Prompt 去生成更好的效果。
但其实我们更希望现在的产品,让之前没有用过 AI 甚至没有设计经验的人用起来。比如,如果他们在工作中需要用这样的流程,可以非常容易地通过一轮一轮地和 AI 进行对话去实现。
我们在 6 月份发布的视频模型 Dream Machine,其实还是需要一些使用门槛的。我们在那时候就在想,希望普通人也能 access 这些视觉工具,就好比视觉里的 GPT。
但视觉是一个很小众的垂类领網域。我们做设计平台的想法就是,如何去扩大这个群体。只有扩大群体,才能让视觉领網域的 AI 获得更好的发展。
《智能涌现》:非专业设计师很难把一整套设计的工作流用得很深入。我的大部分生图需求,可能输入一个简单的 Prompt,用 GPT,或者 Midjourney 就能满足。
Jiacheng:我们的想法是,把用户能轻易感受到差别的功能做到最好,比如我们影像能力比 GPT 好,但是语言理解能力比 Midjourney 要好。
我用同一个最基础、完全不复杂的 Prompt,让 Dream Machine 和 Midjourney 对比一下:i want to make a poster for my brother band "crazy avocado".(我想为我兄弟的乐队 " 疯狂牛油果 " 做一张海报。)
△ Dream Machine 根据 "i want to make a poster for my brother band ‘ crazy avocado ’ " 生成的乐队海报。
△ Midjourney 根据 "i want to make a poster for my brother band ‘ crazy avocado ’ " 生成的乐队海报。
你看 Midjourney 生成的海报,既不 Crazy,也没有 Avocado 的元素,也看不出来是个乐队的海报。
语义理解的能力其实比你想象的重要,会影响很多场景的落地。因为生成随机的、好看的图片,在实用场景中意义不是很大。
如果要让 Midjourney 真正还原你的意图,你需要写很多 Prompt,包括海报的设计、上面写的文字、解释 Crazy 的风格等等。学会写 Prompt,我大概花了两三个月时间。
但我相信 ChatGPT 的大部分用户是不会去学的,他们就是进来问一个问题,得到一个结论。
我们做设计产品的思路,也是一样的。按照之前市面上的产品,如果我想要得生成还原我意图的图片,首先,我要花 20 美金买 Claude 或者 GPT,帮我生成 Prompt;其次,我要再花 20 美金到 40 美金买 Midjourney,生成图片;最后我还要花 20 美金的订阅,把这些图片变成视频。
算下来,文生视频起码要花 60-80 美元。现在用 Dream Machine,可能 10 美元就能搞定了。
《智能涌现》:Dream Machine 语言理解能力的来源,也是自研模型吗?
Barkley:语言模型用了第三方的 API,我们再去构建了一个 Agent。这个 Agent 能够理解用户意图,然后通过不同的 Prompting 的方式,把用户意图转化为影像和视觉模型能够理解的指令。
《智能涌现》:Luma AI 现在既有模型,又有产品,怎么去做商业化?
Barkley:产品还是会采用订阅的方式。模型就是提供 API。
《智能涌现》:不做定制化?
Barkley:定制化不太适合初创公司,会分散精力。
目前没有专业视觉工具,在定义互動范式
《智能涌现》:一个俗套的问题,你们怎么看待巨头下场?按照国内的情况,字节和快手的下场,已经给很多初创公司带来了融资和获客上的压力。
Barkley:我们发现,这个问题其实是公司和股东之间的问题。只有股东才会关心:如果哪天一个巨头把你这个事情做了,会怎么样?
但实际上,我们公司很多 Research 都有这样的感觉:当公司达到一定规模,需要你去协调各种各样的东西的时候,你推进的速度会变得特别慢,创新的速度也会掉下来。
虽然 Luma AI 的团队在过去一年多的时间里也扩张了很多,但还是保持着快速创新、快速迭代的节奏。
我觉得有一个类比特别好:其实你在大公司里,真正去做视频模型和相应产品的团队,可能也只有几十个人。比如 OpenAI 看起来很大,但 Sora 的团队也就这么多。
当然说到更大的公司,比如 Google,他们可能有比我们更好的 distribution channel(扩散渠道),但他们同样会受制于各种流程上,一个新产品会有商业化等很多方面的 concern,推进的速度不会那么快。
《智能涌现》:Luma AI 的迭代节奏有多快?
Barkley:整体迭代速度一直是以几个月,甚至是 1-2 个月来计算的。期间会加入新的功能,底层模型的效果也在提升。
就像 Dream Machine 1.0 在 2024 年 6 月发布,1.5 版本是在 8 月发布。1.6 版本加了 camera control(镜头控制)功能,在 9 月底发布。
《智能涌现》:一个新的设计工具型产品,怎么去获客?
Jiacheng:我觉得首先可以去分析 ChatGPT 是怎么获客的。你会发现,ChatGPT 不光最好的程式员在用,你隔壁的大叔大妈也在用。
我觉得 AI 工具带来的最大的变化是,由于它本身的可塑性和灵活性,它可以服务几乎所有有视觉需求的人。
我并不觉得目前特定的视觉专业的軟體,有非常好的互動,换句话说,目前没有专业视觉工具定义了整个行业的互動范式。
《智能涌现》:你怎么定义 " 好的互動范式 "?
Jiacheng:比如 ChatGPT 就定义了整个行业 ChatBot 的互動范式,像现在美国的小孩都不是说 ChatGPT,他都是说你有么有问你家的 "Chat"。
这里的 "Chat",已经成了一个像 "Google 一下 " 的行为。
我们做 Dream Machine 也是一样的。谁能先把普通大众的想象,通过一个流畅、简单的方法,呈现出一个好看有趣,然后能分享给别人的或者有用的图片,谁就能在这个领網域有优势。
《智能涌现》:从立项到上线,期间你们对互動形式进行了哪些探索?
Jiacheng:我们目前来说,包括行业对我们的认知,都是一个视频模型科研公司。
但是如今的 AI 技术是一个非常以用户体验为核心的产品,技术型产品的目标和迭代过程很明显,就是最好的用户体验。
我们能想到的最好的用户体验,就是用最自然的交流方式,把 Dream Machine 当成一个创意助手或者 Creative Partner。你怎么和设计师互动,就怎么和系统互动。
有了这样一个目标,我们就会去了解我们的图片和视频模型,能够提供怎样的能力。同时也去了解整个行业处于怎样的发展阶段,第三方的语言模型能够给我们怎样的帮助。
期间,各种各样的 Agent 軟體工具也在迭代,大家对于 AI 应用层的思考也有变化。所以一年以来,我们的产品就是一个持续迭代的过程,具体就是一个月根据行业变化打磨,再花一个月去修改。
这些东西总体统筹、融合起来,才有了现在这样的效果。
Barkley:期间我们也发现,在 AI 视频生成领網域,目前图生视频比文生视频更加受欢迎,因为用户在乎可控性。
所以所有能够提升可控性的,都是用户非常需要的功能点。
《智能涌现》:期间行业哪些产品或者认知的动向,会对公司的产品研发节奏产生影响?
Barkley:其实我觉得过去一年时间里,我们的产品策略没有变太多,还是一直想做能让所有人轻松使用模型的产品,不会随着其他 AI 产品的发布去做任何的策略调整。
我觉得产品团队更关心的事一些 Research 上的动态和进展,比如我们想做风格转换、风格迁移的功能,就会去查有哪些最新的学术研究和论文,甚至产品团队会加入 Research 团队的讨论,去看研发功能的可行性。
《智能涌现》:产品团队在日常工作中是怎么和算法团队交流的?
Barkley:立项的时候,我们会从用户的角度,觉得风格借鉴这样的功能很重要。
但是从 Research 的角度,其实他们不确定这个功能能不能做出来,以及能达到怎样的效果。所以 Research 会先去做很多的实验,直到他们把算法做出来以后,我们看到这个功能的极限,再去思考怎么把功能融入到整体产品和体验上。
所以其实 Research 是一个更加不确定的过程,往往需要比较长的时间,也不知道要花多长时间训练。
《智能涌现》:期间也会舍弃很多暂时不够好的功能。
Barkley:对。所以其实很多功能我们会从用户的角度去想,有的功能 Research 团队能够在短时间内做出来,有的功能我们又继续投入,去做更长的研判,体现在未来的产品里。
欢迎交流!
欢迎关注!