抖音快手新战场，视频生成大模型的同与异

今天小编分享的科技经验：抖音快手新战场，视频生成大模型的同与异，欢迎阅读。

文 | 新立场 Pro

动态视频生成 AI 应用正在迎来新的变数。

2023 年，Runway 发布了文生视频 / 图生视频大模型 Gen-2 ；2024 年初， OpenAI 的 Sora 展示视频又掀起了一波讨论，不过目前 Runway 缺乏汉化版本， Sora 还处于未公开阶段，被外界戏称为期货，而瞅准了这段空窗时间，国内也见缝插的发布相关模型 / 应用，发布者是国内最大的两个短视频平台——抖音和快手

今年 6 月份，快手开放了可灵 AI 大模型使用申请，号称 " 全球首个普通用户可用的真实影像级视频生成大模型 "，此后不断更新并在 7 月 25 日全面开放内测，同时正式上线了会员体系；紧接着在 7 月底和 8 月初，字节的即梦 AI 的 1.0.0 版本正式上架到安卓 / 苹果应用商店，而在此前 5 月份，剪映 Dreamina 官方就已宣布其品牌的中文名为 " 即梦 "，并上线相关 AI 视频生成功能。

与国外不同的是，国内的 AI 视频生成大模型不出所料地由最大的两个短视频平台先发制人入局。但具体而言，即梦 AI 和可灵 AI 的初期的应用布局不尽相同，之于其母公司的意义也大相径庭，毕竟字节内还有豆包，可灵 AI 之于快手，更接近于 " 全村的希望 " 这一角色。

另一方面，二者生成的 AI 视频风格显然有着差别，即梦似乎更擅长动画风，可灵却卷向影像风。二者的这种差异与前期的布局不无关系，虽然目前还无法说明彼此模式的优劣几何，但从当下的舆论来看，影像风的 AI 视频似乎要更有新鲜感。

即梦 VS 可灵，特性和地位大不相同

从目前舆论偏向来看，字节即梦 AI 的视频生成表现不如快手可灵 AI。《新立场》认为，这来源于其各自的视频剪辑平台剪映和快影本身的特性不同，以及整个字节系和快手系对 AI 的布局也有所差别。

剪映的即梦 AI 作为一个单独的移动应用需要更长的上线周期，而快手选择了直接将移动端的应用搭载于其视频剪辑平台快影上，极大缩短功能全面上线的周期和难度。

不过关于剪映为何要重新开辟出一个应用，在《新立场》看来，不管是从月活提升需求，App 体量，以及收费模式来看，剪映都必须将即梦 AI 单独开辟出一个应用。

首先剪映本身的月活用户在整个移动端视频剪辑这个赛道来看早已一骑绝尘，据 Qusetmobile 此前的数据显示约有一亿，这甚至不包括剪映的海外版 CapCut ，因此剪映更需要考虑的是就将其直接集成到剪映本身的 App 上的性价比。

由于剪映上本来已有相关 AI 图生图的功能模块，以及特定模式的图生视频模块，加之剪映自身又十分吃手机内存，若将即梦 AI 的视频生成所有功能作为一个模块植入剪映，会使得剪映本身变得更加臃肿。

并且收费模式的平衡也是个问题，如果将即梦 AI 直接植入剪映，那么只可能有两种收费模式：1、直接一刀切提高剪映整体会员收费，2、或者在会员收费基础上，即梦 AI 相关功能另外收费。然而目前剪映的会员费用已经不算低了，这两个模式对于原本的剪映用户来说都会难以接受。

但对于快手的快影来说，这三方面情况又恰好跟剪映相反：与剪映相比月活提升空间更大，可以靠更多的更强大的 AI 功能模块来引流；App 本身体量也不算大，原本的会员费也用远远低于剪映，目前剪映包年会员费用是 499 元，而快影连续包年 88 元，费用可提升空间还很大，因此可灵 AI作为功能模块植入是目前更优的解法。

另一方面，可灵 AI 跟即梦 AI 在内部的地位大不相同。

在字节系内应用层面，除了即梦 AI，还有聊天机器人豆包，豆包跟即梦一样拥有单独的移动端 App，同时也植入在了诸如飞书的字节系应用平台上。根据 Similarweb 的榜单，在 7 月，豆包的访问量已经排到了国内第四（前三分别是 Kimi，文心一言以及通义）。除此之外字节在应用层还有其他诸如猫箱、星绘等 AI 应用，但由于这些应用的存在感并算不高，在此就不多赘述。

而反观快手，早前发布的快意大模型在应用层面水花并不算大，可灵 AI 应用一上线即引起了广泛关注。

8 月 27 日，在快手的光合创作者大会上，快手盖坤透露，已有超过 160 万人使用过快手的视频生成大模型可灵 AI，并累计生成超 1600 万条视频。甚至在 7 月的 Similarweb 榜单上，可灵 AI 排到了国内第 18 位，是目前国内排名最高的视频生成类 AI 应用。

只不过由于即梦 AI 的 app 正式上线和可灵 AI 的内测开放都是在 7 月，我们还需要等待 8 月榜单的发布以得出进一步的结论。

据悉，早在 Sora 展示视频发布后不久，就有相关人士猜测其模型为 "Diffusion 模型和 Transformer 模型的结合 "，简单来说就是 Transformer 理解文字，Diffusion 扩展图片。而在可灵 AI 官网的介绍中也提到：" 基于对文本 - 视频语义的深刻理解和 Diffusion Transformer 架构。"

据业内人士称，这样的架构在今年年初时业内就已普遍开始研究。也就是说，快手开始研究可灵 AI 也许还要更早一点。虽然 Diffusion 和 Transformer 结合并不能算一个 Creative idea，但那时国内的大多大模型厂商还在各种通用百模大战之中，能选定视频生成这样一个更具体甚至是投入更大的赛道，并非一个容易事。

对于字节来说，豆包和即梦尽管是不同的团队在负责，但就以上的榜单来看，比起即梦 AI，豆包 AI 在如今各方 AI 应用大战白热化的阶段，似乎更加能够帮字节搏出位。因此，可灵和即梦之于其母公司的意义是完全不同的。

可灵 AI 之于快手，也自然接近于 " 全村的希望 " 这一角色。

即梦擅长动画风，可灵卷向影像风

OpenAI 目前在全球 AI 界独领风骚除了自身技术的领先，也与其优先发布奠定的用户心智以及获取了更多真实数据训练机会有关。只是问题在于，视频生成式 AI 的先手优势，是否会有聊天机器人 AI 影响那么大，在 OpenAI 看来，也许并不大，不然 Sora 也不会如此不慌不忙。

事实上除去 OpenAI 这一极端案例，就国内的 AI 聊天机器人而言，单纯的时机先手优势也不重要，甚至原本平台的规模优势也不重要。 OpenAI 之后，国内大厂最先刷存在感的大模型是百度的文心一言，2023 年 3 月份就已上线，而目前流量排名第一的 AI 应用却是独角兽 Kimi ，上线于 2023 下半年。

原因在于，在聊天机器人这个赛道，Kimi 占据的是某个特定内容模式的先手优势。

以 Kimi 和文心一言、通义等 AI 的模式作为对比来看，大厂的这些 AI 聊天机器人一开始就学着 OpenAI 的 GPT ，冲着更全面更通用的方向去的，这必然会导致不管是获客层面还是模型训练层面都会广而不精。而 Kimi 尽管也是通用大模型，但却有一个非常精准且高效的切入点——主要应用场景为专业学术论文的翻译和理解、辅助分析法律问题、快速理解 AAPI 开发文档等。显而易见，这方面的内容更具有逻辑性，对于 AI 来说相对更容易理解和输出。

也就是说，Kimi 背后的月之暗面比大厂都更早锚定了初期的核心付费用户以及商业化模式，加之足够坚定的营销投入以及精准的营销获客渠道，有助于 Kim 实现生成内容质量上的滚雪球。

据《智能涌现》报导，月之暗面在 B 站的转化人均成本报价高达 30 元左右。这个价格不仅在 AI 界，在大多数领網域也算十分高昂。从竞价广告的逻辑来看，其出价更高也意味着将分到更多的流量。不过也许对于 Kimi 来说是值得的，毕竟其核心閱聽人群体跟 B 站用户重合度也比较高。

而在视频生成 AI 这个赛道，可灵 AI 掌握的也是内容模式的先手优势。

实际上，目前市面上早已不缺某个特定模式下的 AI 视频生成应用，例如此前很火的各种 AI 动画风格，瞬息全宇宙风格，各种日漫游戏风格，以及静态人物照片生成某个特定动态表情的应用等……这些应用往往体量小，更加容易达成商业化。比如现在抖音用户正在尝试的 "AI 拥抱 " ——输入两个人单独的照片，即可生成二者拥抱的动态视频。

据悉，这个功能来自一个叫做魅脸的小程式。而该小程式商业化方式十分粗暴，安卓端生成三次拥抱视频收费 9.9 元。并且不管是抖音还是快手上都有这个小程式。

但显然，以上这些 AI 视频内容模式都无法彻底给业内带来震撼，仅可作为 C 端用户的日常娱乐消遣。而抖音用户相比起快手用户也更爱探讨生成这类生成 AI 相关的内容（以两个平台月活用户和 AI 话题浏览量的比值差距得出）。

不知是否有受到自身平台这些视频内容模式的影响，不管是如今社交媒体上的一些测评结果，还是《新立场》自主测评结果来看，即梦 AI 生成的内容确实在某些特定的底图和描述词之下表现更佳；而更多时候，快手的可灵 AI 生成的视频，物体动态和光影更自然，画面质感更佳。不过在移动端，可灵 AI 生成内容的速度要慢于即梦 AI。