今天小编分享的科技经验:阿里万相视频生成大模型重磅开源!消费级显卡也能运行,欢迎阅读。
快科技 2 月 26 日消息,25 日深夜,阿里云视频生成大模型万相 2.1(Wan)重磅开源。
此次开源采用 Apache2.0 協定,14B 和 1.3B 两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务,全球开发者可在 Github、HuggingFace、魔搭社区下载体验。
据介绍,14B 版本万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出,在权威评测集 Vbench 中,万相 2.1 以总分 86.22% 大幅超越 Sora、Luma、Pika 等国内外模型,稳居榜首位置。
1.3B 版本万相模型不仅超过了更大尺寸的开源模型,甚至还和一些闭源的模型结果接近,同时能在消费级显卡运行,仅需 8.2GB 显存就可以生成 480P 视频,适用于二次模型开发和学术研究。
官方表示,从 2023 年开始,阿里云就坚定大模型开源路线,千问(Qwen)衍生模型数量已超过 10 万个,是全球最大的 AI 模型家族。
在视频生成方面,万相 2.1 通过自研高效 VAE 和 DiT 架构增强了时空上下文建模能力,支持无限长 1080P 视频的高效编解码,首次实现了中文文字视频生成功能。
随着万相的开源,阿里云两大基模全部开源,实现了全模态、全尺寸大模型的开源。
自 2025 年 1 月 DeepSeek 爆火以来,开源已经逐渐成为国内外大模型领網域的 " 标配 "。
进入 2 月,字节豆包、昆仑万维、百度文心、阿里通义千问等纷纷推出自家的开源模型,加入这场开源热潮。