今天小编分享的科学经验:国产AI导演贼6,短视频镜头和物体各动各的,欢迎阅读。
快手发力 AI 视频,参与开发了一个智能 " 导演 "。
Direct-a-Video,成功解耦 AI 生成视频中物体运动和攝影機运动,让灵活性和可控性大大增强!
不信,来欣赏一波作品。
短视频中的镜头移动方向全凭导演指令,水平(X 轴)、垂直(Y 轴)、变焦必须精准:
AI 导演还上演了一出炫技,镜头移动方向混合水平、垂直:
混合水平、变焦运动效果也可以
此外,导演还要求视频中的每个 " 演员 " 都能按照绘制的框框运动:
达到镜头移动和演员运动合一的效果。
比如,大熊原地太空漫步,镜头水平和垂直移动实现整体视频运动效果:
当然大熊的位置也可以通过绘制带箭头的框框,从一个地方移动到另一个地方:
甚至还能同时分别控制多个 " 演员 " 的移动路径:
这就是香港城市大学、快手科技、天津大学研究团队共同提出的Direct-a-Video文本 - 视频生成框架的效果展示。
怎么做到的?
具体来说,Direct-a-Video 分为两个板块——
在训练阶段,学习相机移动控制;在推理阶段,实现物体运动控制。
在实现相机移动控制时,研究人员采用了预训练的 ZeroScope 文本到视频模型作为基础模型,并引入新的可训练时间自注意力层(相机模块),将由 Fourier 编码和 MLP 映射的平移和变焦参数嵌入注入其中。
训练策略是在有限数据上,使用数据增广的自监督训练方式学习相机模块,无需人工运动标注。
其中数据增广通俗来讲,就是添加已有数据的略微修改版,或从现有数据中创建新的合成数据来增加数据量:
经过自监督训练后,该模块可以解析相机运动参数实现定量控制。
实现物体运动控制时,不需要额外的数据集和训练,只需用户简单绘制首末帧框和中间轨迹即可定义物体运动。
简单来说,直接在推理时采用基于像素的自注意力增强和抑制,分时阶段调控每帧内各对象的自注意力分布,从而使对象生成到用户通过一系列框指定的位置,实现物体运动轨迹控制。
值得一提的是,相机移动控制和物体运动控制互相独立,允许单独或联合控制。
Direct-a-Video 效果如何?
研究人员将 Direct-a-Video 与多基准对比验证了该方法的有效性。
相机移动控制评估
Direct-a-Video 与 AnimateDiff 和 VideoComposer 对比结果如下:
Direct-a-Video 在生成质量、相机移动控制精度上均优于基线:
物体运动控制评估
Direct-a-Video 与 VideoComposer 和 Peekaboo 对比,验证了本方法在多物体及运动场景下的控制能力。
在生成质量和物体运动控制精度上优于 VideoComposer:
网友看到效果直呼因锤斯汀:
除 Runway 外,又多了一种新选择。
PS:
,涂哪儿动哪儿,同样可调整参数控制运动方向:
参考链接:
[ 1 ] https://x.com/dreamingtulpa/status/1756246867711561897?s=20
[ 2 ] https://arxiv.org/abs/2402.03162
— 完 —
点这里关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
>