今天小編分享的科技經驗:阿裡萬相視頻大模型宣布開源:8.2GB 顯存就能跑,測試超越 Sora,歡迎閱讀。
IT 之家 2 月 25 日消息,阿裡雲今日宣布旗下視覺生成基座模型萬相 2.1(Wan)開源。
此次開源采用最寬松的 Apache2.0 協定,14B 和 1.3B 兩個參數規格的全部推理代碼和權重全部開源,同時支持文生視頻和圖生視頻任務,全球開發者可在 Github、HuggingFace 和魔搭社區下載體驗。
據介紹,14B 萬相模型在指令遵循、復雜運動生成、物理建模、文字視頻生成等方面表現突出,在評測集 VBench 中,萬相 2.1 以總分 86.22% 的成績超越 Sora、Luma、Pika 等國内外模型,位列榜首。1.3B 版本測試結果不僅超過了更大尺寸的開源模型,甚至還接近部分閉源模型,同時能在消費級顯卡運行,号稱 "僅需 8.2GB 顯存就可以生成 480P 視頻",适用于二次模型開發和學術研究。
萬相視頻模型架構圖
在算法設計上,萬相基于主流 DiT 架構和線性噪聲軌迹 Flow Matching 範式,研發了高效的因果 3D VAE、可擴展的預訓練策略等。以 3D VAE 為例,為了高效支持任意長度視頻的編碼和解碼,萬相在 3D VAE 的因果卷積模塊中實現了特征緩存機制,從而代替直接對長視頻端到端的編解碼過程,實現了無限長 1080P 視頻的高效編解碼。此外,通過将空間降采樣壓縮提前,在不損失性能的情況下進一步減少了 29% 的推理時内存占用。
萬相團隊的實驗結果顯示,在運動質量、視覺質量、風格和多目标等 14 個主要維度和 26 個子維度測試中,萬相均達到了業界領先表現,并且斬獲 5 項第一。
IT 之家附開源地址:
Github:https://github.com/Wan-Video
HuggingFace:https://huggingface.co/Wan-AI
魔搭社區:https://modelscope.cn/organization/Wan-AI