今天小编分享的互联网经验:腾讯混元又又又开源了,这次想复刻一个文生视频领網域的Flux?,欢迎阅读。
腾讯混元大模型又开源了,这次是文生视频模型。
自 OpenAI 发布 Sora 演示视频以来,要做中国版 Sora 的声音从未停止过。在国内,大厂和创业公司都纷纷推出了自己的视频生成模型:快手的可灵、MiniMax 的海螺、生数的 Vidu 以及智谱的 CogVideoX 等,都获得了许多开发者和用户的关注和使用。在这个竞争激烈的赛道上,现在他们又多了一个选择:腾讯混元文生视频大模型(Hunyuan-Video),腾讯混元大模型在 12 月 3 日正式上线视频生成能力。
同样重要的是开源。Hunyuan-Video 已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费使用和开发生态插件。此前,腾讯混元已开源了旗下文生文、文生图和 3D 生成大模型。据腾讯混元相关负责人介绍,后续还有图生视频模型、视频配音与配乐、驱动 2D 照片数字人技术的开源计划。
Hunyuan-video 的参数量为 130 亿,官方放出的試映片长这样:
HunYuan-Video 的技术架构与创新特性
统一影像与视频生成架构
HunyuanVideo 使用了基于 Transformer 的全注意力机制,用于视频生成。并能实现主体一致的多视角镜头切换。与 " 分离的时空注意力机制 " 分别关注视频中的空间特征和时间特征,相比之下,全注意力机制则更像一个纯视频模型。
它采用 " 双流到单流 " 的混合模型架构,能够在融合之前分别处理视频和文本的特征信息,从而实现更高效的多模态信息融合。
双流到单流模型是指机器学习中的一个框架,特别是在多模态数据处理的背景下,其中两股独立的数据流(如文本和影像)最初分别处理,然后合并成一股单一流进行进一步分析或生成。
MLLM Text Encoder MLLM
HunYuan-Video 使用具有解码器结构的预训练多模态大型语言模型 ( MLLM ) 作为文本编码器。这一设计增强了图文对齐能力,并提升了模型处理复杂指令的能力。同时,它引入了一个双向特征优化器(bidirectional token refiner)来增强文本特征。
3D VAE 压缩
HunYuan-Video 引入了 3D 形状变分自编码器(VAE),将视频压缩到潜在空间,大幅减少后续处理所需的 token 数量。这使得模型能够在原始分辨率和帧率下进行训练,同时优化了性能和效率。使得视频生成模型在细节表现上,特别是小人脸、高速镜头等场景有明显提升。
提示重写模型
Hunyuan-Video 还配备了一个提示优化模型(Prompt Rewrite Model),用于调整用户输入的提示词,使其更符合模型的偏好。该模型提供两种模式:普通模式侧重于理解用户意图,而大师模式则强化视觉质量,包括画面构图和光影效果等方面的表现。
指标与性能
在千题盲测的定量分析中,Hunyuan-Video 与包括 Gne3 和 Luma 在内的前五名闭源模型进行了比较,在 60 多名专业评估人员评估后,HunyuanVideo 在综合指标上表现最好,特别是在运动质量方面表现较为突出。
运行 Hunyuan-Video 模型使用文本生成视频的推荐配置需要 45GB 的 GPU 内存。
要扛起开源文生视频的大旗?
腾讯混元多模态生成技术负责人凯撒在发布现场表示,文生视频领網域目前存在 " 抽卡概率 " 的问题,普通用户大多处于尝鲜状态,且目前开源闭源 " 存在较大的 GAP"," 这也是我们为什么开源 "。
他多次提到 Black Forest Labs 旗下 Flux 的开源模式。Flux 通过开源基础模型构建开发者生态,同时保留商业版本维持竞争力,已获得包括 Andreessen Horowitz 的知名投资机构的投资。
Flux 通过开源策略与 MidJourney 竞争,依托其灵活的社区参与机制、强大的定制化能力以及对用户指令的高精度响应。相比 MidJourney 的闭源运营,Flux.1 的开源特性吸引开发者共同优化模型。开源也让 Flux.1 更容易被个人和小型团队采用,从而扩大用户基数。这一模式结合强社区支持,为开源生态带来了长尾效应,挑战了 MidJourney 的市场主导地位。
" 文生图的发展,社区给了很大的力量,很多优秀的底模出来之后学术界、很多人都可以玩起来,做插件、做优化,而不是几家闭门造车。"
例如,Hunyuan-video 推荐配置至少需要 45GB 的 GPU 内存,这对于普通开发者而言门槛仍然偏高,但社区的力量不容小觑。另一个开源视频模型 Mochi 1 需要 4 个 H100 才能保证效率和输出效果,而发布之后,社区就开始尝试解决在显存更低的设备运行 Mochi 1,并开发 ComfyUI 插件。大量开发者提供了经过优化的插件,如动漫风格视频转换工具和低显存支持模块,进一步降低了使用门槛。
Mochi 已支持在 ComfyUI 中使用消费级 GPU 运行
当然,要让文生视频技术成熟,还需攻克一些客观难题。" 高质量数据还是挺缺的。"
此外,训练视频生成模型绕不开的仍然是算力成本,例如,Meta 的 Movie Gen 使用了多达 6144 个 H100 GPU 进行训练,成本高昂。
商业模式方面,Flux 通过提供付费 API 和用于商业应用的闭源模型来构建的商业模式。参考 Flux 的做法,Hunyuan-Video 未来也可以通过 API 等形式提供更高质量的服务。目前,Hunyuan-Video 暂时没有商业化的动作,用户可以在腾讯元宝 APP 免费使用 Hunyuan-Video 的文生视频功能。
" 我们先站出来,搞一个跟闭源水平差不多的模型,给大家用起来 ",凯撒表示," 希望跟社区一起把我们的技术早日推向影像生成领網域一样的状态 "。
他同时表示从混元整体技术栈的逻辑出发,做视频模型是其必经之路," 最终就是只有一个 Model"。
无论如何,在 Meta 发布 Movie Gen 后并未提及任何开源事宜的情况下,考虑到视频生成模型的训练成本和难度,Hunyuan-Video 的出现无疑是开源社区希望看到的事情。
类比 SD,文生视频现在处于类似 SD1.5 的状态,接下来就看 Hunyuan-Video 能否进化到下一个阶段了。