今天小编分享的科技经验:2024 年末决战,AI 视频「卷麻了」,欢迎阅读。
AI 视频又卷起来了。
12 月中旬 Sora 正式发布,几天后谷歌推出了号称最强的 Veo 2 模型,紧接着国内 AI 视频的 " 卷王 " 可灵 AI 也宣布再次更新,更新到了 1.6 版本。
今年 6 月推出以来,可灵 AI 在过去半年里已经完成了好几轮基础模型能力和产品功能的迭代,而今年 9 月推出的可灵 1.5,已经是国内乃至全球性能最出色的视频生成模型之一。
在智源研究院的横向测评中,可灵 1.5 版本以其出色的表现排名第一;而在谷歌的横向测评里,在拿谷歌自己的 Veo 2 与包括可灵在内的四个市面上主流视频模型的生成效果对比中,可灵 1.5 模型也是除 Veo 2 外表现最好的一个。
谷歌基于外部数据集,测试 Veo2 与其他四个视频模型的表现对比
而相较于此前的 1.5 版本,新发布的可灵 1.6 在文本响应度、动态质量以及画面质量等多个核心指标上都做出了显著提升。
可以说作为「赛道卷王」,可灵再次拉高了视频模型竞赛的天花板。
从武侠招式到漫威皮卡丘,可灵 1.6 让想象力无缝衔接现实
综合测试结果,可灵 1.6 能够更加精准地理解复杂的文字描述,特别是在运动、时序动作和镜头运作方面的反应更为灵敏,生成的视频不仅在运动表现上更加合理,人物表情也更具自然感,视觉效果则在色彩、光影、细节处理上做到了进一步优化。
此外,可灵 1.6 还在图生视频的能力上进一步优化。据极客公园了解,可灵团队内部评测 1.6 的图生视频效果比 1.5 模型整体效果提升 195%,带来了更加出色的创作体验和视觉效果。
更新一出,不少 AIGC 创作者马上用可灵 1.6 尝试创作,其中有不少惊艳的作品。
AIGC 创作者 @Jadewu 的作品|视频来源:可灵 AI
首先是这个表现武侠小说的经典招式——「万剑归宗」的短片。这个最早出自经典武侠漫画《风云》的招式,由于招式设定复杂,即使在火遍国内的电视剧版《风云》中,由专业的演员配合后期特效制作,也并不容易在电视剧中完美还原漫画中对这一绝招的描述。
可以看到,在可灵 1.6 创作的短片里,不仅很好地理解了「万剑归宗」这个复杂的招式,呈现效果、人物动作和兵器的特效也非常惊艳,整个场景充满真实感与震撼力。即使是在快速移动的镜头下,画面依旧保持清晰,每一个动作都生动流畅,毫无卡顿或割裂感。
创作者北邦发表在爱智岛上的作品|视频来源:可灵 AI
创作者北邦则从「尚舞国风」这一风格化测试的角度对可灵 1.6 进行了测评。风格化测试通常涉及到模型对风格化指令的理解和执行能力,以及生成视频的视觉质量。
该创作者使用了 SD Flux @ Liblib Webui 进行文生图,再用可灵 1.6 图生视频以及 Flux LoRA 混合生成,「目前可灵 1.6 已经对复杂的画面风格有了更多的理解和动态塑造能力,这个主要得益于 1.6 更新了对提示词语义理解和动态表现力。」
丝滑的舞蹈动作、浮世绘的色彩,以及精细的背景渲染,都是可灵 1.6 在风格化测试中展现出的亮眼表现。相比于以往的版本,1.6 在对复杂画面风格的理解上有了显著的进步,能够精准捕捉并再现用户设定的艺术风格。不仅如此,模型在动态表现上的提升,也使得画面中的动作更加流畅自然,仿佛真正的舞者在其中翩翩起舞,令人惊艳不已。
AIGC 创作者温维斯的作品 | 视频来源:可灵 AI
AIGC 创作者温维斯则用可灵 1.6 生成了 9 个「漫威皮卡丘」,从生成效果来看,酷炫的漫威「外壳」跟可爱的皮卡丘融合得毫无违和感。
整体来看,动态场景流畅,动作生动自然,画面质量也很高,无论是皮卡丘的动作,还是漫威角色皮肤的细节,1.6 都流畅、逼真地呈现了出来,不知道的还以为漫威真和皮卡丘梦幻联动了。
细节与动态的较量:可灵 1.6 对比 Sora
AIGC 创作者归藏的作品|视频来源:可灵 AI
在可灵推出 1.6 版本前些天,OpenAI 也终于将铺垫了长达 10 个月的 Sora 正式推出,也因此,AIGC 创作者归藏在对比可灵 1.6、1.5 版本的同时,对 Sora 也进行了对比。
首先来看看模型在理解文本描述并生成相应视频内容的不同能力。特别是在涉及复杂动态场景和时序动作时,模型是否能够准确地将文字转化为画面。
从文本响应度上来看,Sora 对文本的理解似乎不太到位,比如在第一组里,Sora 的「猛兽」并没有站起来,更没有抬头咆哮,更没有雨水落下,而可灵 1.5 里,「猛兽」做到了咆哮,随后天空也开始落下雨滴,但还是缺失了「抬头」这一下,1.6 里则将「抬头咆哮」这一点完整地实现了。
在视频生成过程中,动态场景的流畅性和运动的自然度至关重要。这一点在第二组的小兔子吃月饼体现的比较明显。这一组里的 Sora,兔子只是捧着月饼塞在嘴边,并没有「吃」这个动作,月亮的移动也是「倏」地一下,而可灵 1.5 则生动体现了「吃」这个动作,不过月亮的移动还是算不上「缓慢」,但 1.6 版本则在「吃」的基础上,将月亮的移动也变得「缓慢」了。
画面的质量直接影响观看体验。这组关于柿子树的测试,可以比较明显地看出模型在色彩还原、光影效果和细节处理方面的不同表现。
在这组对照里,Sora 呈现出的柿子树首先就看着有点「假」,柿子的颜色亮的实在有点突兀了,在镜头的推移上基本没有变化,而可灵 1.5 里「柿子」的形态首先就看着跟真的差不多,镜头由近拉远的同时,冬雾也在空中腾起,可灵 1.6 则更进一步,不仅柿子在树上的分布有所变化,还有阳光从远处的群山处折射过来,并且雪花在空中飞舞,画面的丰富度与质感都明显优于前两者。
从 " 中国的 Sora" 到 " 世界的可灵 "
在过去的一年里,视频生成模型迎来了持续的更新迭代。从 Sora 的首发引发业界轰动,再到各大国内外厂商相继推出新版本,AI 视频生成领網域无疑进入了一个加速发展的阶段。
可灵 AI 刚问世时曾被外界称为中国版 Sora,备受业界内外期待,推出后一度位列全球访问量最高的 AI 视频产品,时至今日,从前述可灵 1.6 的更新以及对照中超越 Sora 的表现可以看出,可灵 AI 已成为国产 AI 的代表,在国际上证明了自己的实力,成为全球视频生成领網域的标杆之一。
在这场竞速中,可灵 AI 无疑扮演着 " 赛道卷王 " 的角色,正在以一系列创新和技术突破不断刷新行业天花板。
6 月,可灵 AI 初次亮相,就以全球首个真实影像级视频生成大模型的姿态惊艳全场,随后,其技术能力迅速进化,快速推出了图生视频、视频续写、运动笔刷等创新功能,不仅显著提升了画面质量、动态表现和指令响应能力,还将文生视频的生成时长扩展至 10 秒,为创作者提供了更加自由的发挥空间。
到了 9 月,更新版可灵 1.5 发布,进一步增强了画质、动态质量、运动合理性、语义理解等方面的表现,展现了可灵 AI 在细节和创意上的强大潜力,全球用户在社交平台上创作了大量创意视频,充分展示了这一技术在艺术创作和内容生产中的无限可能。
自推出 6 个月来,大大小小迭代 10 余次的可灵 AI ,不仅此前每一次的更新都超越了以往的局限,不断推动生成效果达到新高度,赋予了模型更强的适应性和创造力,此次从 1.5 到 1.6 的更新,则更是体现了对细节的极致打磨。
(可灵 1.6 模型概念宣传片)
无论是文本响应、动态效果,还是画面质量的提升,可灵 AI 在技术上实现精细化调整的同时,也在无形中推动了整个行业天花板的提升。这一版本的发布不仅展现了国产技术的强大实力,更加速了全球 AI 视频生成领網域的技术进步,可以说是「卷王之王」。
如今的 AI 视频生成不仅仅是技术层面的比拼,更是各大厂商在算法优化、细节呈现、生成质量上的全面较量。在这场竞争中,可灵 AI 凭借其不断更新的技术和强大的创造力,已位列行业前沿。数据显示,可灵 AI 发布半年来,已拥有超过 600 万用户,累计生成超 6500 万个视频和超 1.75 亿张图片。
在这一轮竞争中,可灵 1.6 的亮相,不仅进一步拉高了行业天花板,也意味着,随着技术的不断突破和创作空间的扩展,AI 视频生成的未来将不仅仅停留在技术层面的革新,而将开启全新的视觉创作时代。
头图来源:可灵 AI