今天小編分享的科學經驗:2步生成25幀高質量動畫,計算為SVD的8%,歡迎閲讀。
耗費的計算資源僅為傳統 Stable Video Diffusion(SVD)模型的2/25!
AnimateLCM-SVD-xt發布,一改視頻擴散模型進行重復去噪,既耗時又需大量計算的問題。
先來看一波生成的動畫效果。
賽博朋克風輕松駕馭,男孩頭戴耳機,站在霓虹閃爍的都市街道:
寫實風也可以,一對新婚夫婦依偎在一起,手捧精致花束,在古老石牆下見證愛情:
科幻風,也有了外星人入侵地球的即視感:
AnimateLCM-SVD-xt 由來自香港中文大學 MMLab、Avolution AI、上海人工智能實驗室、商湯研究院的研究人員共同提出。
2~8 步就能生成25 幀分辨率 576x1024的高質量動畫,并且無需分類器引導,4 步生成的視頻就能實現高保真,比傳統 SVD 更快、效率更高:
目前,AnimateLCM 代碼即将開源,有在線 demo 可試玩。
上手試玩 demo
在 demo 界面可以看到,AnimateLCM 目前有三個版本,AnimateLCM-SVD-xt 是通用影像到視頻生成;AnimateLCM-t2v 傾向個性化文本到視頻生成;AnimateLCM-i2v 為個性化影像到視頻生成。
下面是一個配置區網域,可以選擇基礎的 Dreambooth 模型,也可以選擇 LoRA 模型,并通過滑動條調整 LoRA alpha 值等。
接下來可以輸入 Prompt、負面 prompt,指導生成的動畫内容和質量:
還有一些參數可以調整:
我們上手體驗了一把,提示詞為 "clouds in the sky",參數設定如上圖,采樣步驟僅為 4 步時,生成的效果是這樣嬸兒的:
采樣步驟為 25 步時,提示詞 "a boy holding a rabbit",效果如下:
再看看一波官方放出的展示效果。2 步、4 步、8 步效果對比如下:
步數越多,動畫質量越好,僅 4 步 AnimateLCM 就能做到高保真:
各種風格都能實現:
怎麼做到的?
要知道,雖然視頻擴散模型因能生成連貫且高保真度的視頻而受到越來越多的關注,但難題之一是迭代去噪過程不僅耗時而且計算密集,這也就限制了它的應用範圍。
而在 AnimateLCM 這項工作中,研究人員受到一致性模型(CM)啓發,該模型簡化了預訓練的影像擴散模型以減少采樣所需的步驟,并在條件影像生成上成功擴展了潛在一致性模型(LCM)。
具體來説,研究人員提出了一種解耦的一致性學習(Decoupled Consistency Learning)策略。
首先在高質量的影像 - 文本數據集上蒸餾穩定擴散模型為影像一致性模型,然後在視頻數據上進行一致性蒸餾以獲得視頻一致性模型。這種策略通過在空間和時間層面上分别訓練,提高了訓練效率。
此外,為了能夠在 Stable Diffusion 社區中實現即插即用适配器的各種功能(例如,用 ControlNet 實現可控生成),研究人員又提出了Teacher-Free 自适應(Teacher-Free Adaptation)策略,使現有的控制适配器更符合一致性模型,實現更好的可控視頻生成。
定量和定性實驗都證明了方法的有效性。
在 UCF-101 數據集上的零樣本文本到視頻生成任務中,AnimateLCM 在 FVD 和 CLIPSIM 指标上均取得了最佳性能。
消融研究驗證了解耦一致性學習和特定初始化策略的有效:
項目鏈接:
[ 1 ] https://animatelcm.github.io/
[ 2 ] https://huggingface.co/wangfuyun/AnimateLCM-SVD-xt