2024 年末决战，AI 视频「卷麻了」

今天小编分享的科技经验：2024 年末决战，AI 视频「卷麻了」，欢迎阅读。

AI 视频又卷起来了。

12 月中旬 Sora 正式发布，几天后谷歌推出了号称最强的 Veo 2 模型，紧接着国内 AI 视频的 " 卷王 " 可灵 AI 也宣布再次更新，更新到了 1.6 版本。

今年 6 月推出以来，可灵 AI 在过去半年里已经完成了好几轮基础模型能力和产品功能的迭代，而今年 9 月推出的可灵 1.5，已经是国内乃至全球性能最出色的视频生成模型之一。

在智源研究院的横向测评中，可灵 1.5 版本以其出色的表现排名第一；而在谷歌的横向测评里，在拿谷歌自己的 Veo 2 与包括可灵在内的四个市面上主流视频模型的生成效果对比中，可灵 1.5 模型也是除 Veo 2 外表现最好的一个。

谷歌基于外部数据集，测试 Veo2 与其他四个视频模型的表现对比

而相较于此前的 1.5 版本，新发布的可灵 1.6 在文本响应度、动态质量以及画面质量等多个核心指标上都做出了显著提升。

可以说作为「赛道卷王」，可灵再次拉高了视频模型竞赛的天花板。

从武侠招式到漫威皮卡丘，可灵 1.6 让想象力无缝衔接现实

综合测试结果，可灵 1.6 能够更加精准地理解复杂的文字描述，特别是在运动、时序动作和镜头运作方面的反应更为灵敏，生成的视频不仅在运动表现上更加合理，人物表情也更具自然感，视觉效果则在色彩、光影、细节处理上做到了进一步优化。

此外，可灵 1.6 还在图生视频的能力上进一步优化。据极客公园了解，可灵团队内部评测 1.6 的图生视频效果比 1.5 模型整体效果提升 195%，带来了更加出色的创作体验和视觉效果。

更新一出，不少 AIGC 创作者马上用可灵 1.6 尝试创作，其中有不少惊艳的作品。

AIGC 创作者 @Jadewu 的作品｜视频来源：可灵 AI

首先是这个表现武侠小说的经典招式——「万剑归宗」的短片。这个最早出自经典武侠漫画《风云》的招式，由于招式设定复杂，即使在火遍国内的电视剧版《风云》中，由专业的演员配合后期特效制作，也并不容易在电视剧中完美还原漫画中对这一绝招的描述。

可以看到，在可灵 1.6 创作的短片里，不仅很好地理解了「万剑归宗」这个复杂的招式，呈现效果、人物动作和兵器的特效也非常惊艳，整个场景充满真实感与震撼力。即使是在快速移动的镜头下，画面依旧保持清晰，每一个动作都生动流畅，毫无卡顿或割裂感。

创作者北邦发表在爱智岛上的作品｜视频来源：可灵 AI

创作者北邦则从「尚舞国风」这一风格化测试的角度对可灵 1.6 进行了测评。风格化测试通常涉及到模型对风格化指令的理解和执行能力，以及生成视频的视觉质量。

该创作者使用了 SD Flux @ Liblib Webui 进行文生图，再用可灵 1.6 图生视频以及 Flux LoRA 混合生成，「目前可灵 1.6 已经对复杂的画面风格有了更多的理解和动态塑造能力，这个主要得益于 1.6 更新了对提示词语义理解和动态表现力。」

丝滑的舞蹈动作、浮世绘的色彩，以及精细的背景渲染，都是可灵 1.6 在风格化测试中展现出的亮眼表现。相比于以往的版本，1.6 在对复杂画面风格的理解上有了显著的进步，能够精准捕捉并再现用户设定的艺术风格。不仅如此，模型在动态表现上的提升，也使得画面中的动作更加流畅自然，仿佛真正的舞者在其中翩翩起舞，令人惊艳不已。

AIGC 创作者温维斯的作品 | 视频来源：可灵 AI

AIGC 创作者温维斯则用可灵 1.6 生成了 9 个「漫威皮卡丘」，从生成效果来看，酷炫的漫威「外壳」跟可爱的皮卡丘融合得毫无违和感。

整体来看，动态场景流畅，动作生动自然，画面质量也很高，无论是皮卡丘的动作，还是漫威角色皮肤的细节，1.6 都流畅、逼真地呈现了出来，不知道的还以为漫威真和皮卡丘梦幻联动了。

细节与动态的较量：可灵 1.6 对比 Sora

AIGC 创作者归藏的作品｜视频来源：可灵 AI

在可灵推出 1.6 版本前些天，OpenAI 也终于将铺垫了长达 10 个月的 Sora 正式推出，也因此，AIGC 创作者归藏在对比可灵 1.6、1.5 版本的同时，对 Sora 也进行了对比。

首先来看看模型在理解文本描述并生成相应视频内容的不同能力。特别是在涉及复杂动态场景和时序动作时，模型是否能够准确地将文字转化为画面。

从文本响应度上来看，Sora 对文本的理解似乎不太到位，比如在第一组里，Sora 的「猛兽」并没有站起来，更没有抬头咆哮，更没有雨水落下，而可灵 1.5 里，「猛兽」做到了咆哮，随后天空也开始落下雨滴，但还是缺失了「抬头」这一下，1.6 里则将「抬头咆哮」这一点完整地实现了。

在视频生成过程中，动态场景的流畅性和运动的自然度至关重要。这一点在第二组的小兔子吃月饼体现的比较明显。这一组里的 Sora，兔子只是捧着月饼塞在嘴边，并没有「吃」这个动作，月亮的移动也是「倏」地一下，而可灵 1.5 则生动体现了「吃」这个动作，不过月亮的移动还是算不上「缓慢」，但 1.6 版本则在「吃」的基础上，将月亮的移动也变得「缓慢」了。

画面的质量直接影响观看体验。这组关于柿子树的测试，可以比较明显地看出模型在色彩还原、光影效果和细节处理方面的不同表现。

在这组对照里，Sora 呈现出的柿子树首先就看着有点「假」，柿子的颜色亮的实在有点突兀了，在镜头的推移上基本没有变化，而可灵 1.5 里「柿子」的形态首先就看着跟真的差不多，镜头由近拉远的同时，冬雾也在空中腾起，可灵 1.6 则更进一步，不仅柿子在树上的分布有所变化，还有阳光从远处的群山处折射过来，并且雪花在空中飞舞，画面的丰富度与质感都明显优于前两者。

从 " 中国的 Sora" 到 " 世界的可灵 "

在过去的一年里，视频生成模型迎来了持续的更新迭代。从 Sora 的首发引发业界轰动，再到各大国内外厂商相继推出新版本，AI 视频生成领網域无疑进入了一个加速发展的阶段。

可灵 AI 刚问世时曾被外界称为中国版 Sora，备受业界内外期待，推出后一度位列全球访问量最高的 AI 视频产品，时至今日，从前述可灵 1.6 的更新以及对照中超越 Sora 的表现可以看出，可灵 AI 已成为国产 AI 的代表，在国际上证明了自己的实力，成为全球视频生成领網域的标杆之一。

在这场竞速中，可灵 AI 无疑扮演着 " 赛道卷王 " 的角色，正在以一系列创新和技术突破不断刷新行业天花板。

6 月，可灵 AI 初次亮相，就以全球首个真实影像级视频生成大模型的姿态惊艳全场，随后，其技术能力迅速进化，快速推出了图生视频、视频续写、运动笔刷等创新功能，不仅显著提升了画面质量、动态表现和指令响应能力，还将文生视频的生成时长扩展至 10 秒，为创作者提供了更加自由的发挥空间。

到了 9 月，更新版可灵 1.5 发布，进一步增强了画质、动态质量、运动合理性、语义理解等方面的表现，展现了可灵 AI 在细节和创意上的强大潜力，全球用户在社交平台上创作了大量创意视频，充分展示了这一技术在艺术创作和内容生产中的无限可能。

自推出 6 个月来，大大小小迭代 10 余次的可灵 AI ，不仅此前每一次的更新都超越了以往的局限，不断推动生成效果达到新高度，赋予了模型更强的适应性和创造力，此次从 1.5 到 1.6 的更新，则更是体现了对细节的极致打磨。

（可灵 1.6 模型概念宣传片）

无论是文本响应、动态效果，还是画面质量的提升，可灵 AI 在技术上实现精细化调整的同时，也在无形中推动了整个行业天花板的提升。这一版本的发布不仅展现了国产技术的强大实力，更加速了全球 AI 视频生成领網域的技术进步，可以说是「卷王之王」。

如今的 AI 视频生成不仅仅是技术层面的比拼，更是各大厂商在算法优化、细节呈现、生成质量上的全面较量。在这场竞争中，可灵 AI 凭借其不断更新的技术和强大的创造力，已位列行业前沿。数据显示，可灵 AI 发布半年来，已拥有超过 600 万用户，累计生成超 6500 万个视频和超 1.75 亿张图片。

在这一轮竞争中，可灵 1.6 的亮相，不仅进一步拉高了行业天花板，也意味着，随着技术的不断突破和创作空间的扩展，AI 视频生成的未来将不仅仅停留在技术层面的革新，而将开启全新的视觉创作时代。

头图来源：可灵 AI