今天小编分享的科学经验:腾讯版Sora开源后,被提速8倍!官方点赞并预告:下月上新图生视频,欢迎阅读。
提速 8 倍!
速度更快、效果更好的混元视频模型——FastHunyuan来了!
新模型仅用1 分钟就能生成5 秒长的视频,比之前提速8 倍,步骤也从 50 步减少到了6 步,甚至画面细节也更逼真了。
和普通速度的混元对比一下,原来 50 步才能生成 1 条视频,而现在新模型在相同的时间里可以生成8 条:
再来看看和 Sora 的画面对比,可以看到 Fast-Hunyuan 和 Sora 两者的效果都更逼真一些,衣服、水果和山峰的细节也非常清晰。
甚至在一些物理细节的理解上,Fast-Hunyuan 比 Sora 还强,比如下面拿取柠檬的视频:
更重要的是,Fast-Hunyuan 的代码也开源了,这下不用为 Sora 的订阅费和限额发愁了。
研究团队来自加州大学圣地亚哥分校(UCSD)的Hao AI实验室,他们主要专注机器学习算法和分布式系统的研究。
混元官方账号还特意发博感谢了他们:
有网友看完后直呼,混元才是最好的开源视频模型。
开创性的视频 DiT 蒸馏配方
团队是如何做到 8 倍提速的情况下还能提升视频清晰度呢?
下面就一起来看一下 Fast-Hunyuan 的技术原理——
首先,他们开发了全新的视频 DiT 蒸馏配方。
具体来说,他们的蒸馏配方基于阶段一致性(Phased Consistency Model, PCM)模型。
在尝试使用多阶段蒸馏后发现效果没有显著改进,最终他们选择保持单阶段設定,与原始 PCM 模型的配置相似。
其次,团队使用了 OpenSoraPlan 中的MixKit 数据集进行了蒸馏。
为了避免在训练过程中运行文本编码器和 VAE,团队还预处理了所有数据,用来生成文本嵌入和 VAE 潜在变量。
在推理阶段,用户可以通过 FSDP、序列并行和选择性激活检查点进行可扩展训练,模型可以近乎线性扩展到 64 个 GPU。测试代码在 Python 3.10.0、CUDA 12.1 和 H100 上运行。
最低硬體要求如下:
40 GB GPU 内存,每个 GPU 配备 lora
30 GB GPU 内存,每 2 个 GPU 配备 CPU 解除安裝和 LoRa。
此外,他们还结合了预计算潜变量和预计算文本嵌入,用户可以根据自己的硬體条件选择不同的微调方式来执行命令,也支持影像和视频的混合微调。
模型已于 2024 年 12 月 17 日发布了 v0.1 版本。
未来的开发计划还包括添加更多蒸馏方法(如分布匹配蒸馏)、支持更多模型(如 CogvideoX 模型)以及代码更新(如 fp8 支持、更快的加载和保存模型支持)等等。
One More Thing
除了加速模型,混元还预告了大家都非常期待的影像到视频生成功能。
最快1 月份,也就是下个月就可以看到!期待住了。
GitHub:https://github.com/hao-ai-lab/FastVideo
HuggingFace:https://huggingface.co/FastVideo/FastHunyuan
参考链接:
[ 1 ] https://x.com/TXhunyuan/status/1869282002786292097
— 完 —
点这里关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
>