今天小编分享的财经经验:失意职场人,迷上了烧钱做短视频,欢迎阅读。
出品 | 虎嗅科技组
作者 | 王沁
编辑 | 苗正卿
头图 | AI 生成
在白天,Danny 是一位白领,朝八晚五。他大学毕业后,就进了老家南昌的一家公司,一待就是七八年,如今 30 岁出头,住在公司大楼内的出租屋,是一位勤勤恳恳的 UI 设计师。
当夜晚降临,Danny 回到独居的小屋,成为自己的造梦师——用 AI 把自己各种神奇的梦境变成短片。他是艺术生,高中时一直梦想去 4A 广告公司做创意片,但工作后从事的是没有那么热爱的 UI 设计师,在业余时间做电商产品创意带货短视频,来靠近职业梦想。
今年 7 月,看到一场 AI 短片的创作大赛通知后,Danny 决定 all in AIGC," 你不需要高昂的拍摄设备,不需要场地,不需要演员,甚至不需要配音,都可以用 AI 实现很多天马行空的创意。"
Danny 本来打算年底离开南昌,去上海北京求职,但是 AI 让他看到机会:" 不用离开自己的城市,也可以创作。"
自此,Danny 每天晚上回到独居的小房间,熬夜到凌晨两三点,用可灵 AI 做短片。几秒钟的镜头,从 Midjourney 生图片再到可灵 AI 生视频,常常要抽卡十几、二十多次,直到满意。
他以西游记的白骨精为题材,做了两集 AI 短剧,为了调试不同镜头中白骨精的发型、头冠、衣服的统一性,每张图片都要重绘几十次,甚至上百次," 非常大的工作量,快做崩溃了。"
AI 生成一组图片 / 视频的过程中,每个图片 / 视频的效果都不同,有些会变形扭曲,或者动作、表情和预期的不一致。创作者们只有不断调整提示词,生成多次,在一组图片 / 视频中挑选效果合适的,这个过程被称为 " 抽卡 "。
为了制作白骨精的短片,Danny 抽卡一共花了五六千元。Danny 对画面细节要求高,花费也比其他创作者高,别人可能抽卡几遍,但他要几十遍,找到最满意的版本。他用自己的工资来支撑制作费用," 赌的成分很大,如果流量不好,就相当于打水漂了。"
《白骨精前传》截图。图片来源:受访者提供
后来 Danny 用名为 " 怪物集 " 的账号,发布了《白骨精前传》短片,最后在快手和抖音的播放量一共近 2000 万,他在快手可灵的 AI 短剧大赛中获得一等奖,拿到了 5 万元奖金,"我终于被大家看到了。"Danny 说。
AI 视频作为内容形态的 " 新物种 ",来势汹汹。各家大模型厂商和互联网大厂纷纷发力 AI 视频生成。
今年 8 月,昆仑万维昆仑万维推出 AI 短剧平台 SkyReels。9 月,字节跳动发布了豆包视频生成 -PixelDance、豆包视频生成 -Seaweed 两款大模型。到了 11 月,腾讯混元也开始内测视频生成模型,又在 12 月把视频模型开源。
快手在 9 月上线了可灵大模型的 1.5 版本,根据快手 2024 Q3 财报,可灵 AI 的月活跃用户在 9 月超过了 150 万。
如何烧钱,又如何省钱
谈起 AI 视频的制作,创作者们纷纷感叹烧钱,但烧钱也要冲,因为长远收益大,AI 视频是他们的人生 " 第二增长曲线 " 和 " 第二春 "。AI 视频创作者们,大多是副业做 AI,主业分布在各行各业,如设计师、游戏工程师、广告、电影导演、VR 从业者等等。
对 UI 设计师 Danny 来说,AI 圆了他的广告创意的梦。
对主业从事 VR 的葛老板来说,AI 是事业的转机。今年 40 岁的葛老板在十年前从一家视频网站辞职,后来与人搭伙做 VR 公司,做了十年,经历了 VR 行业的潮涨潮落," 还在苦苦支撑 ",又在当下发力 AI 视频。
"AI 的生意比 VR 好落地很多。" 相比于 VR 内容需要 Apple Vision Pro、XR 眼镜等硬體终端作为载体,AI 视频在手机上就可以大范围传播。
葛老板的 AI 动画短剧《胡相公》获得快手可灵 AI 短剧大赛的最佳创意奖,奖金两万。他的 AI 视频作品也给他带来了一些影视剧制作和 AI 文旅宣传片的商单。
AI 视频的烧钱,都围绕一个核心:在 AI 生成的不确定内容中,为了保持人物角色的一致性和故事连贯,要不断抽卡。
可灵在 10 月底开始内测人脸模型,用户上传一些关于同一人物的动作 / 表情视频,每段视频 10-15s 左右,就能训练出这个人物的数字人,之后就可以生成这个数字人在不同角度、不同景别的视频,而不会发生人物的形变。
生成这样一个人物模型,需要 2000 点数左右(给超级创作者打完折后需要 1000 点数,约合人民币 100 元),每次从人物模型生成一段视频,需要消耗 35 点数左右(约合人民币 3 元多)。
AI 视频创作者葛老板在使用可灵的人脸模型后发现:" 如果是简单的表情,比如微笑,用眼神看你一眼,是可以的。大笑、哭泣以及过于细腻的表情演绎,就会比较吃力,表情容易不自然,可能要多次抽卡才能效果满意。"
Danny 表示,目前业内常用的 Lora 训练模型,可以大致解决人脸长相上的一致性,但对于更多细节例如发型、发饰、妆容、服装造型等,还无法完美还原。例如,Danny 的《白骨精前传》中,白骨精头顶上银色金属的发冠,用 AI 生成图片后常常形态、大小不一致," 几乎每张图片都需要进行几十次甚至上百次的局部重绘。"
《白骨精前传》AI 短剧截图,创作者 Danny 几乎每张图片都要几十次上百次重绘。图片来源:受访者提供
" 一段 5 秒钟的片段,常常要抽十几二十次,花一两百块钱。要做两分钟的视频,就很费钱。我会执着一些细节,花费比别人高一些。"Danny 表示当时做白骨精短片花了五六千块,都用自己工资支撑。
虽然抽卡很烧钱,但是国产视频模型相比于国外模型,已经把价格打下来很多。
对于非会员,国产视频模型如可灵、即梦给用户每天赠送登录积分,有一定的免费生成视频的额度。
在基础包月会员价条件下,用提示词文生视频,生成一个 5 秒片段,Runway 需要约 1 美元,Pika 需要约 0.25 美元,即梦需要约 0.4 美元(约 3 元人民币),而可灵只要约 0.1 美元(约 0.9 元人民币)。在卷价格方面,可灵 AI 已经走在前面。
虽然 AI 视频要抽卡烧钱,但相比于传统影视制作,AI 视频的性价比到底如何?
对于传统电影行业出身的青年导演朱智立来说,AI 影像相比于电影实拍,已经大大降本。
朱智立的 AI 短片《新桃花源记》入选了 " 工业强国 · 工业与科幻影像展 ",讲述了一位宇航员为地球寻找新家园的故事,影片海报的画面是一位宇航员走向桃花缤纷的山洞,原图是用文生图模型 Midjourney 制作的,片中镜头是再用 AI 工具图转视频。"(如果是电影实拍),要呈现这样质感的洞,还要有桃花,肯定要制景。还需要特别大功率的灯,以及一个非常好的灯光指导,才能打出这种有层次的光效。如果实景找不到这样的洞,就需要绿幕加特效或虚拟拍摄,成本比 AI 生成要高得多。"
朱智立的 AI 短片《新桃花源记》 海报,用 AI 工具做出堪比电影实拍的效果。图片来源:受访者提供
影片结尾使用的音乐是用音乐生成模型 Suno 制作,朱智立最开始以为 AI 音乐会非常机械,没想到 AI 生成的配乐展现出非常复杂的情感," 有一段是十分纠结的旋律,完全能够体现出这个人物最后离开桃花星时,居民告诉他‘不足为外人道也’,但他又想把这个地方公之于众的复杂心理状态。"
令朱智立惊讶的是,AI 不仅能很精微地表达出他的创意,还会自己产生新的创意,"AI 还会自己加戏。" 比如,他用图生视频生成一个镜头,表现有一群外星居民围住宇航员,宇航员跟外星居民讲自己是从地球来的。结果 AI 不仅生成了这个画面,还充当了半个导演,加了戏——有个外星居民竟然自己拿出手机拍宇航员,然后宇航员讲完后还跟外星居民里的一个小朋友击掌,这些都是意料之外的。"AI 很聪明,会帮你加一些创意,至于适不适合,你可以自己选择。"
AI 短片《新桃花源记》中的镜头,AI 视频模型自己 " 加戏 "。图片来源:受访者提供
狂奔的技术,如何影响叙事
AI 视频生成模型们,在技术迭代的路上,一路狂奔。
针对人物一致性的痛点,各家纷纷出招:
10 月底,可灵 1.5 版本开始内测人脸模型。
11 月,生数科技 Vidu 1.5 推出了多主体一致性功能,依靠通用模型能力的提升,而非业界常用的 LoRA 微调方案,宣称用三张图就能实现主体在不同场景下的一致性。
Runway 也在 10 月底上线了 Act-One 功能,在从真人表情迁移到 AI 人物表情时,原始影像的外观特征得以保留,表情变化不会让人脸形变。
不断迭代的技术,也在影响创作者们的叙事方式。
每个创作者都有自己保持人物一致性的方法。一个讨巧的方法是,从一开始的角色形象设计上,就避开细节复杂的形象,而选择形状简洁的角色形象。例如 Sora 在一个 demo 片段中展现的气球人,头顶一个气球,即使发生些许形变,观众也不大看得出来。因此,朱智立在短片《桃花源记》中选择了身穿宇航服、头戴面罩的人物形象。
葛老板的 AI 短剧《胡相公》采用动画形象。图片来源:受访者提供
动画也是保持人物一致性的捷径。人类天然地对人脸更敏锐、更容易挑刺,而动画形象即使发生些许形变,观众的容忍度也更高。2024 北京国际电影节 AIGC 短片单元中,最佳影片《致亲爱的自己》、最佳美术设计《達文西计划:新文艺复兴》以及近半的优秀奖短片如《AI 升职记》《老鼠嫁女》等等都采用动画角色。
在故事题材选择上,一种方法是选择大众熟悉的故事原型加以改编,这样即使 AI 短片本身的叙事不足,观众能够自行腦补剧情。葛老板的 AI 短剧《胡相公》获得了可灵 AI 短剧创作大赛的最佳创意奖,讲述了狐狸与书生的爱情故事,全程没有解说词," 观众一看到狐狸和书生,腦海里面自然会有一个画面,很多东西(剧情)就不用介绍 …… 尽量写 100 字以内就能讲明白的故事,如果讲一个 300 字以上的故事,用 AI 表现就难了。"
葛老板的 AI 短剧《胡相公》选择了狐狸与书生的故事原型。图片来源:受访者提供
这种方法是不用解说词,另一种相反的方式是——完全依赖解说词来叙事,这在 AI 短片中也非常常见,例如朱智立的短片《新桃花源记》中采用古文《桃花源记》的改写版作为全片的旁白,Runway 获奖影片《My Mom》全片以口述信件作为旁白。
" 故事依赖解说词 " 的现象,背后原因是节约成本,因为 AI 视频还 hold 不住长镜头复杂叙事。要推动剧情和人物,就需要大量有效的分镜头,而不是一些 MV 式空镜过场画面。
如果不依赖旁白与解说词,而靠人物对话,首先要解决的是配音。AI 视频创作者葛老板表示," 找一个好的配音演员其实很花时间,在短时间内做到是很难的 "。其次,即使找到好的配音演员,如何把配音与 AI 角色的嘴型同步,也是个难题。
针对这种问题,视频模型的技术也在飞快进化。今年 10 月,可灵新增 " 对口型 " 功能,生成人物的口型与上传配音同步。
AI 角色对嘴型的问题,对于 Danny 也是一个难点。在制作《白骨精前传》时,Danny 找了全球十几个专门给角色对嘴型的网站,效果都不太好。此外,为了给 AI 角色配音,Danny 也尝试了全球十几个 AI 语音合成的网站,发现 AI 配音仍然比不上真人说话的质感,就去找真人配音。为了在短时间内低成本完成比赛作品,他在抖音上找 1 万 -10 万粉丝量的配音博主,花几百块钱完成了 2 分钟 AI 短片的配音。
但 AI 技术不断狂奔,谁也说不上 AI 语音何时会超过真人配音的质感。Danny 近期在用 AI 语音合成軟體 "Dubbing X",该軟體在发布的全 AI 生成台词演绎的《十二公民》中,角色台词的音色、情绪都展现出复杂层次。
最近视频模型厂商们开始卷的 " 多主体一致性 " 功能,也给 AI 短片的叙事带来突破。
生数科技在 11 月推出 Vidu 1.5 版本,主打多主体一致性功能,可以让人物在环境中大幅度移动,而不出现人物和环境的形变。
目前,多主体一致性的功能效果还有局限。葛老板在尝试使用时," 比如我把一个人放到卧室背景的床上,再让他抱着一只公仔小熊,他的脸会有点变化,抱熊的姿势会很怪,但是整体上画面可用。"
但这相比于之前,已经给叙事带来很大自由度。在此之前,葛老板很难制作有两个主体同时在运动的画面,如果想让两个角色同时出现在画面中且有运动,就需要把两个角色各自抠像,先各自生成视频,再放到背景上。
可以预见,飞奔猛进的视频模型,会让 AI 视频的叙事自由度继续提升。