今天小编分享的互联网经验:8款AI视频生成产品实测,谁将成为中国Sora?,欢迎阅读。
文|自象限,作者丨罗辑、苏奕,编辑丨程心
2024 年开年,科技圈没有什么比 Sora 的出现更让人兴奋。
如同 ChatGPT 在 2023 年初带来的 LLM 创业潮,Sora 的发布也同样将视频生成模型推到了风口浪尖。
科技巨头猛推产品,创业公司则乘风而上。
3 月 13 日,AI 视频大模型公司爱诗科技完成亿元级人民币 A1 轮融资;3 月 12 日,生数科技完成数亿元 A 轮融资;3 月 1 日,AI 视频生成 SaaS 服务商「布尔向量」完成近千万元融资 ...
Sora 首次践行了 DiT 架构,将过去各自独立的扩散模型和大模型融合在了一起,也将视频生成模型的历史翻开了新的篇章。
毫无疑问,一场新的技术风暴正在到来。一夜之间,国内大大小小的视频生成大模型争抢 " 中国版 Sora" 的标签。
为了探究这个问题的答案,「自象限」通过国内已有的视频生成产品进行实际体验,并结合公开信息、第三方检测机构数据等多个维度,对当下主流的视频生成模型进行了全面评估。
我们将从产品设计、实测效果和行业分析三个角度,全面探究,究竟谁能成为 " 中国版 Sora"?
DIT 的创新,谁能复刻?
Sora 的风虽然才刚刚从大洋彼岸吹到了中国,但视频生成却不是什么新鲜的话题。
在此之前,这个赛道已经经历了 Runway 的 Gen-2、Pika1.0 和谷歌 VideoPoet 的几波革命浪潮,终于来到了生成效果更好、时间更长、逻辑性更强、更稳定性的 "Sora" 时刻。
「自象限」梳理绘制出了国内视频大模型公司及产品的基本情况。
▲图:国内外视频生成大模型企业一览,访问量以 2024 年 2 月计
在国外,谷歌、微软这类 " 硅谷老钱 " 很早就投入到了多模态视频生成的研究中。去年,谷歌发布了多模态大模型 Gemini 和 VideoPoet 视频大模型,让人从直观的效果层面看到了多模态生成视频的可能性。
在国内,多模态技术路径方向上我们看到了更多的可能性,既有技术积累深厚的大厂百度,也有大模型独角兽公司智谱,还有像生数科技、智象未来一类以多模态大模型为目标的创业公司。
扩散模型路线是文生视频的主流路线,在保证效果生成上发挥着重要的作用,所以即使是惊为天人的 Sora 在底层架构上也只是改造,而非全盘颠覆。
无论国内外,在这条道路都最为拥挤,首先是一手打造和开源扩散模型的 Stability AI 公司,紧跟其后的是猛猛向前冲的 Runway、Pika,然后才是 OpenAI、Meta、英伟达这些巨头。
回到国内,腾讯、阿里、字节三个大厂在前期几乎包揽了视频生成领網域的研究,时不时地抛出一个 demo 小小地惊艳一下。但真的谈到落地产品,还是创业公司明显更快一步,比如爱诗科技、Morph studio、右腦科技等公司已经开始面向用户开放。
被称之为 "Sora 路线 " 的 DiT,全称为 Diffusion Transformer,本质是把训练大模型方法机制融入到了扩散模型之中,从 Sora 技术报告呈现的结果来看,大力出奇迹之下可能会产生世界物理模拟器的效果。
如今,Sora 的底层架构被扒了个遍,训练的组件和技术也在开源的路上,但这也并不意味着人手一个 Sora 指日可待,技术、数据、算力、训练规模都是一道道关卡。
近期,Sora 核心团队负责人在采访中透露:"Sora 目前还处于反馈获取阶段,还不是一个产品,短期内不会向公众开放。"
从技术路线上看,国内的爱诗科技是少数从一开始就坚持了 DiT 路线的企业,其创始人王长虎在公开采访中谈到,Sora 的出现验证了爱诗视频生成大模型的方向正确性。正因如此,爱诗科技定下了 "3 — 6 个月赶超 Sora" 的目标,抓住机会,奋起直追。
产品实测,用户 " 跑分 "
在视频生成模型赛道,目前国内的创业公司大致可以分为两类。
一类是以爱诗科技(PixVerse)、生数科技(PixWeaver)、 Morph Studio 和智象未来(Pixeling)为代表的自研基础大模型,聚焦通用场景的视频生成工具。
另一类则包括右腦科技(Vega AI)、李白 AI 实验室(神采 promeai)、毛线球科技(6PenArt)、布尔向量(boolv.video)和 MewXAI(艺映 AI)。这一类数量更多,也更加产品化,专注于解决某一类场景下的问题,更像是一个 AIGC 的在线编辑平台。
我们的测试和评比通过三个部分组成,分别是使用门槛,基础产品功能和内容生成能力。
首先是使用门槛。我们测试的 8 款产品,都已经支持通过网站使用产品(许多创业公司产品只能通过 Discord 使用),也都可以免费试用。
但其中,仅有爱诗科技的 PixVerse 不限制免费试用次数,其他产品都有三到五次的试用限制,超过试用次数之后就需要开通会员或充值能量使用,价格从几元到几百元不等。
除了 PixVerse 之外,其他产品在付费之前基本都有功能限制,比如艺映 AI 和 Pixeling 只能生成 2s、4s 的视频,更长的视频则需要付费。
所以从使用门槛上综合考虑,PixVerse 对用户要更加友好,在这一板块相对更有优势。其他产品在使用门槛上则相对平均。
具体情况如下图:
其次是产品基础功能。
我们测试的 8 款产品,除了神采 Promeal 和 6PenArt 之外,都同时具备文生视频和图生视频的能力。而神采 Promeal 和 6PenArt 只具备图生视频的能力,不具备直接文生视频的能力。
除了这两家之外,其他厂家就比较成熟,但产品功能差异却比较大。
其中,爱诗科技的 PixVerse 在基础功能之上还增加了丰富的辅助功能,比如除了正向提示词,用户还可以输入负向提示词,要求生成画面中不要出现某些元素。
图片生成视频时,用户也可以撰写提示词控制输出效果。可以选择视频风格,可以调节画面比例等等。
同类产品中,只有 Pixeling 拥有负向提示词、图生视频提示词和视频比例调节,只有艺映 AI 可以调节视频风格、画面比例。
大模型的技术水平决定视频生成的质量,而产品能力则决定了大模型是否能够被很好地利用,与应用场景相结合。
对于视频生成产品而言,功能的丰富程度决定了用户上手的容易程度,对视频生成的掌控能力,并最终影响输出结果和用户体验。
所以从产品的完善程度和功能完整度上,PixVerse 整体领先,智象未来的 Pixeling 排名第二,艺映 AI 第三,Vega AI 第四。其中布尔向量相对例外,作为专注跨境电商的视频生成工具,其在特定场景下功能更加齐全易用,但在视频生成方面相对缺乏竞争力。
当然,基本功能之外,更核心还是视频生成效果。所以第三部分是视频内容生成能力测试。
首先是视频生成时长。Sora 目前能够生成 60s 的视频,但国内创业公司的视频生成大模型,时长大多集中在 2s~4s 左右,差距并没有特别大。
其次是依据提示词的内容表现能力。
Sora 发布时,输出过这样一段视频,其提示词是:美丽,白雪皑皑的东京街道很繁华。几个人在附近的小摊上享受着美丽的雪天并购物。美丽的樱花花瓣和雪花在风中飞舞。
▲ Sora 依据这段提示词生成的视频
依据这段提示词,我们也分别使用爱诗科技的 PixVerse、右腦科技的 Vega AI、MewXAI 和智象未来的 Pixeling 生成了同样一段视频。(由于生数科技的 PixWeaver 网页端暂停试用,故未纳入测评)
首先是爱诗科技的 PixVerse。
4s 的内容基本还原了提示词中提到的所有关键词,同时体现了 " 繁华 " 和 " 小摊 " 的氛围。镜头跟着画面缓缓推进,视频整体风格保持一致,建筑、灯光、路旁的树木、行人都比较真实,画面没有明显卡顿,除了人物行走稍有些不自然之外,没有出现元素扭曲。
▲ PixVerse 依据这段提示词生成的视频
其次是右腦科技的 VegaAI。
同样 4s 的内容,同样只有一个镜头,顺着人流密集的街道缓缓推进。但与 PixVerse 将场景放到华灯初上的傍晚不同,VegaAI 选择的是白天。
与爱诗科技的 PixVerse 相比,VegaAI 的人物脚步混乱情况更加严重,部分人物在行走过程中从两只脚变成三只脚,然后又消失不见。此外,部分人物的生成也非常模糊,只有一个人影且在不断变幻。
▲ Vega AI 依据这段提示词生成的视频
然后是艺映 AI。
与 PixVerse 和 VegaAI 有一定的镜头运动不同 ,艺映 AI 生成的视频镜头是固定的,也是这几个视频中唯一一个选择了正面视角的视频。
但选择正面视角也同样给艺映 AI 带来一个问题,即在人物的面部表情没有办法很好地处理。视频中迎面走来的两个人面部一直没有稳定下来。此外,艺映 AI 也同样存在人物移动的问题,但由于生成的视频只有 2s,表现得并不明显。
▲艺映 AI 依据这段提示词生成的视频
第四是智象科技的 Pixeling,4s 的视频,采用固定镜头,人物往前运动。类似的画面,除了同样存在人物生成、移动等方面的问题之外,Pixeling 对语义的理解明显更浅。
比如提示词中的 " 繁华 ",前面的视频都通过灯光、街道店铺、人流来进行表现,但 Pixeling 选择的却是一个雨天小巷,人流也比较少。整个画面显得比较冷清。此外,提示词中的 " 购物 " 该视频中也并没有体现。
▲ Pixeling 依据这段提示词生成的视频
最后是 Morph Studio。其官网尚未开放公测,「自象限」通过 Discord 进行测试。
Morph Studio 有趣的地方有两个,其一是英文提示词的生成效果要大大好于中文提示词。「自象限」先是通过中文提示词生成视频,得到的结果与提示词毫不相关,随后「自象限」将提示词改为英文,输出的效果直线提升。
▲图片:Discord 截图
从视频内容上看,Morph Studio 的视频生成只有 3s,要比其他产品的时长都要短,清晰度要比其他产品更低一些,但整体画面内容更加写实。从细节上看,Morph Studio 生成的视频仍然存在细节模糊扭曲,人物 " 漂移 "、出现又消失等问题。
在文生视频之外,剩下两位只支持 " 图生视频 " 的玩家——神采 Promeal 和 6PenArt。但这两位,在图生视频上的表现也并不好。
其中,神采 Promeal 仅支持单张图片生成 " 动态图 ",也没有提示词功能。因此生成的视频人物形象扭曲,没有实际使用价值。
对比来看,6PenArt 更像一个 AIGC 的内容社区,图片生成和视频生成只是其中一个能力。但 6PenArt 并不支持直接通过提示词生成视频,而是需要先在平台通过提示词生成图片,然后将图片转化成视频。
「自象限」通过提示句" 一只正在散步柯基,嘴里叼着一朵花。"生成了四张图片。
▲图片:6PenArt 截图
然后以这四张图片为基础,用提示词 " 一只在春天里奔跑的小狗。" 生成视频。
可以看到,这个视频仍然停留在 " 动态图片 " 的状态,与视频相差甚远。
除此之外,布尔向量也没有被纳入到这次评比中。
因为从产品使用体验上,布尔向量的 boolv.video 更像是一个 AI 编辑器的概念,当我们输入一段提示词之后,系统会自动将提示词拆解成多个脚本、分镜,然后撰写文案,分别输出多段视频。生成视频之后,用户可以对每一个分镜进行编辑,替换视频、更换旁白和声音等等。
但 boolv.video 的视频生成能力其实很有限,既无法理解深度语义,也不能生成与提示词准确对应的视频内容。
在我们以上测试的产品中,严格意义上只有 PixVerse、Morph Studio 是专注于视频生成的大模型,其他产品都是由早期文生图、图生图的 AIGC 应用演变而来。
▲图片:测试产品是否专注于视频生成
回过头来,我们依据多次测试,针对以上提到的产品进行了整理。
从对提示词的理解能力、画面的逻辑表达能力、画面细节的表现,到视频生成的质量、画面的一致性、稳定性和流畅性等角度。
在测试的 8 个产品后,综合对比下来,爱诗科技旗下的 PixVerse 和 Morph Studio 综合能力相对较好,右腦科技的 VegaAI 排名第二,艺映 AI 第三,Pixeling 第四。
最后,从整个测评从使用门槛,到产品功能,再到内容生成能力,中国创业公司的各类产品各有千秋。但整体来看,在中国创业公司中,爱诗科技的 PixVerse 整体能力略高一筹,是中国最具备 Sora 气质的产品。其次是 Morph Studio,这两者构成中国视频生成模型的第一梯队。
其次包括 VegaAI、艺映 AI、Pixeling 则共同处在第二梯队(生数科技因产品暂停使用,未纳入测评),最后神采 Promeai、6PenArt 和 boolv.video 则在第三梯队。
以下是「自象限」测评总表:
用生产工具,形成数据飞轮
事实上,对比了国内科技巨头和创业公司到目前为止的落地产品后的情况我们会发现,大公司更慢,反而是创业公司的产品和用户规模跑地更快。
李彦宏也曾经提到:大公司做小创新,小公司才能做大改变。
而想要真正在激烈的角逐中突围,目前来看,除了技术路线选择和产品本身的能力外,产品的使用场景、用户体验、行业应用等等综合维度,仍然是视频生成模型比拼的关键。
产品使用场景方面,如前文所言,一类公司在埋头做新工具而另一类公司则将技术嵌入在某些成熟的产品中,这是两条完全不同的路线。
对于工具类的产品,产品力的一个核心体现在于:能否成为生产力工具。
让我们简单回顾一下 Midjourney 的发展历程就会发现,Midjourney V5 版本是文生图历史上的一个关键临界点,无论是从效果、准确性和速度等多方面的因素来看,V5 正式从 " 玩具 " 蜕变成了生产力工具,而这一次产品能力的突破,带来的是用户大规模涌入,数据飞轮开始转动,效果日新月异。
▲图:网友制作的 V1-V6 的生成效果对比图,来源 X
对比 "V5 时刻 " 我们发现,视频生成模型也即将迎来奇点。
通过真实的测评我们发现,PixVerse 生成的视频在主体一致性、运动平滑度、运动幅度、清晰度等方面都更具备使用价值。
在生产力工具的前提下,也分为两条产品路线,一类是如 Adobe 公司践行的走专业工具的路线,让专业的人更专业,另一类则是如 Word 一般,让普通人也能成为生产力。
在这个问题上,Pika 创始人郭文景在采访时表示 Pika 并不是电影制作工具,而是为日常消费打造的产品。
PixVerse 的思路则更加明确,相比于 Pika 分层订阅的商业模式,PixVerse 在用户量和视频效果都处于全球第一梯队的前提下,仍在持续向世界各地免费开放,这是目前其它视频生成产品都难以企及的。
也正是由于用户友好的态度和领先的视频生成效果,让 PixVerse 的飞轮先转了起来。根据第三方数据监测平台显示,目前 PixVerse 的用户规模与 Pika 处于同等量级,其访问量也远超国内其他主流视频生成产品。(数据来源:similarweb.com)
▲ PixVerse,与 Pika,Runway 产品页面 2024 年 2 月数据对比
▲国内主要文生视频产品 2 月数据对比
▲国内主要文生视频产品数据走势
通过调研我们发现,爱诗科技还积极在国内外赞助 / 举办各类 AI 大赛,推动技术加快落地的同时,也在加速实现技术普惠。这个过程中,也有越来越多的用户感受到其产品 PixVerse 的优势。
除此之外,爱诗科技的用户生态做得非常突出,X 上每天都会涌现大量使用 PixVerse 创作的视频内容,覆盖英语、汉语、日语、西班牙语等多地区。这是其它国内品牌完全不具备的优势,也一定程度上反映了市场的选择。
"PixVerse 第一个优点是免费、免费、免费;第二个优点是操作简便且有效,我只需要把图片放进去,不写任何 prompt,让 PixVerse 自己决定画面运动 , 往往都能得到满意的结果。期待 PixVerse 可以实现更大幅度的运动以及更长更稳定的视频。" 2024 MIT AI 电影黑客松最佳影片提名奖得主反馈到。
自象限认为,免费并不意味着放弃商业化,而是在产品打磨的初期,通过这样的方式获得真实的用户使用体验和用户生成后的高质量视频数据,再反哺给视频生成模型,将迭代的速度加快,形成数据—训练的飞轮。
结语
综合来看,目前国内整个视频生成模型的技术仍然在效仿国外,但以爱诗科技为首的创业公司已经找到了自己的发展节奏和模式,正通过产品设计、用户规模、运营策略等综合能力进行全面赶超。
相比之下,Sora 目前并未开放,能否承受住大规模用户同时在线尚未可知,能否能每次都做到准确、一致的 1 分钟视频生成仍有待检验。
所以,并不一定非要找到中国版 Sora,以爱诗科技为代表的中国视频大模型公司,已经走出了新的、独立的上升曲线。