今天小编分享的科学经验:腾讯开源视频生成新工具,论文还没发先上代码的那种,欢迎阅读。
先上代码再发论文,腾讯新开源文生视频工具火了。
名为MuseV,主打基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成。
老规矩,先看效果。
静态的金克丝秒秒钟就能动起来朝你抛媚眼:
画中诗圣也 " 活 " 了过来:
各种风格都能驾驭,风景图也不在话下:
更有搞笑风《微笑的骑士》:
再上难度,复杂些的弹唱也处理得比较自然:
此外,加入 " 骨架 " 控制动作、姿势也可以:
腾讯这次论文还没发直接放出训练好的模型和部署运行的代码的操作让网友眼前一亮。主页显示训练代码也即将推出。
不少人已趁热码住,GitHub 获星 500+。
还有网友已经玩上了:
围观网友直呼距离成为视频达人只差一个 AI。
嘴唇也能同步
除了直接放出模型代码,目前 MuseV 还有 demo 可体验。
demo 界面有两种玩法。
一种可以上传一张图然后加上 Prompt 在这张图的基础上进行视频生成;另一种是上传一个参考视频和一张图,使图片中的内容按照视频中的动作运动起来。
紧接着下方还有一些参数可以调整。可以自定义视频的时长以及视频的尺寸。
此外值得一提的是,文本、影像到视频的生成结果的所有帧直接由 MuseV 生成,没有时序超分辨、空间超分辨等任何后处理。
而输入视频控制姿态的生成模式下,开发团队表示需要参考视频的首帧条件和参考影像的首帧条件对齐,不然会破坏首帧的信息,效果会更差。所以一般生成流程是:
确定参考视频;
用参考视频的首帧走图生图、controlnet 流程,可以使用 MJ 等各种平台;
拿第二步中的生成图、参考视频用 MuseV 生成视频。
除 MuseV,开发团队还表示即将发布一个实时高质量的唇同步模型——MuseTalk,可与 MuseV 一起搭配使用。
用上它,蒙娜丽莎也能对嘴型唱歌。
MuseV 里面长啥样?
技术方面,据了解 MuseV 是在去年 7 月左右基于扩散模型实现的技术进展,受到 Sora 启发,开发团队决定开源 MuseV,之后将转向扩散 +Transformer 方案。
也就是说,MuseV 是基于扩散模型的虚拟人视频生成框架。
模型架构如下图所示:
总的来说,MuseV 具有以下特点:
首先是支持使用新颖的视觉条件并行去噪方案进行无限长度生成,不会再有误差累计的问题,尤其适用于固定相机位的场景。
并行去噪算法示意图如下:
其次,MuseV 提供了基于人物类型数据集训练的虚拟人视频生成预训练模型。
而且支持影像到视频、文本到影像到视频、视频到视频的生成;兼容 Stable Diffusion 文图生成生态系统,包括 base_model、lora、controlnet 等。
还支持多参考影像技术,包括 IPAdapter、ReferenceOnly、ReferenceNet、IPAdapterFaceID。
参考链接:
[ 1 ] https://github.com/TMElyralab/MuseV
[ 2 ] https://twitter.com/Gorden_Sun/status/1774825159939256678