今天小編分享的科技經驗:阿裡巴巴推出 AtomoVideo 圖生視頻框架,兼容多種文生圖模型,歡迎閱讀。
IT 之家 3 月 7 日消息,阿裡巴巴研究團隊近日推出了 AtomoVideo 高保真圖生視頻(I2V,Image to Video)框架,旨在從靜态影像生成高質量的視頻内容,并與各種文生圖(T2I)模型兼容。
▲ 圖源 AtomoVIdeo 團隊論文
IT 之家總結 AtomoVideo 特性如下:
高保真度:生成的視頻與輸入影像在細節與風格上保持高度一致性
運動一致性:視頻動作流暢,确保時間上的一致性,不會出現突兀的跳轉
視頻幀預測:通過迭代預測後續幀的方式,支持長視頻序列的生成
兼容性:與現有的多種文生圖(T2I)模型兼容
高語義可控性:能夠根據用戶的特定需求生成定制化的視頻内容
▲ 圖源 AtomoVIdeo 團隊論文
AtomoVideo 使用預先訓練好的 T2I 模型為基礎,在每個空間卷積層和注意力層之後新添加一維時空卷積和注意力模塊,T2I 模型參數固定,只訓練添加的時空層。由于輸入的串聯影像信息僅由 VAE 編碼,代表的是低層次信息,有助于增強視頻相對于輸入影像的保真度。同時,團隊還以 Cross-Attention 的形式注入高級影像語義,以實現更高的影像語義可控性。
目前,該團隊只發布了 AtomoVideo 的論文及演示視頻,并未提供在線體驗地址。同時官方開設了 GitHub 賬戶,但僅用作官方網站托管,并未上傳任何相關代碼。