湯曉鷗弟子帶隊：免調優長視頻生成，可支持512幀！任何擴散模型都能用 - 大酷樂

今天小編分享的科學經驗：湯曉鷗弟子帶隊：免調優長視頻生成，可支持512幀！任何擴散模型都能用，歡迎閲讀。

豐色發自凹非寺

量子位 | 公眾号 QbitAI

想要 AI 生成更長的視頻？

現在，有人提出了一個效果很不錯的免調優方法，直接就能作用于預訓練好的視頻擴散模型。

它最長可支持512 幀（假設幀率按 30fps 算，理論上那就是能生成約 17 秒長的作品了）。

可應用于任何視頻生成模型，比如 AnimateDiff、LaVie 等等。

以及還能支持多文本生成，比如可以讓駱駝一會跑一會停：

（提示詞："A camel running on the snow field." -> " …… standing …… "）

這項成果來自騰訊 AI Lab、南洋理工大學以及港科大，入選了 ICLR 2024。

值得一提的是，與此前業内性能最佳的同類方法帶來 255% 的額外時間成本相比，它僅產生約 17% 的時間成本，因此直接可以忽略不計。

可以説是成本和性能兩全了～

具體來看看。

通過重新調度噪聲實現

該方法主要解決的是兩個問題：

一是現有視頻生成通常在有限數量的幀上完成訓練，導致推理過程中無法生成高保真長視頻。

二是這些模型還僅支持單文本生成（即使你給了 " 一個人睡在桌子上，然後看書 " 這種提示詞，模型也只會響應其中一個條件），而應用到現實中其實是需要多文本條件，畢竟視頻内容是會随時間不斷變化的。

在此，作者首先分析視頻擴散模型的時間建模機制，并研究了初始噪聲的影響，提出免調優、實現更長視頻推理的FreeNoise。

具體而言，以 VideoLDM 模型為例，它生成的幀不僅取決于當前幀的初始噪聲，還取決于所有幀的初始噪音。

這意味着，由于臨時注意力層負責促成整個互動，所以對任何幀的噪聲重新采樣都會顯著影響其它幀。

產生的問題就是我們要想保持原視頻主要内容的同時引入新東西就很難。

在此，作者檢查 VideoLDM 的時間建模機制發現，其中的時間注意力模塊是順序無關的，而時間卷積模塊是順序相關的。

實驗觀察表明，每幀噪聲是決定視頻整體外觀的基礎，而它們的時間順序會影響建立在該基礎上的内容。

受此啓發，作者提出了 FreeNoise，其關鍵思想是構建一個具有長程相關性的噪聲幀序列，并通過基于視窗的融合對其進行時間關注。

它主要包括兩個關鍵設計：局部噪聲去除和基于視窗的注意力融合。

通過将局部噪聲混洗應用于固定随機噪聲幀序列以進行長度擴展，作者實現了具有内部随機性和長程相關性的噪聲幀序列。

同時，基于視窗的注意力融合使預先訓練的時間注意力模塊能夠處理任何較長的幀。

并且最重要的是，重疊視窗切片和合并操作只發生在時間注意力上，而不會給 VideoLDM 的其他模塊帶來計算開銷，這也大大提高了計算效率。

接下來，為了解決多文本條件問題，作者則提出了動作注入（Motion Injection）方法。

其核心利用的是擴散模型不同步驟在去噪過程中恢復不同級别信息（影像布局、物體形狀和精細視覺細節）的特性。

在模型完成上一個動作之後，該方法就在與物體形狀相關的時間步長内逐漸注入新的運動。

這樣的操作，既保證多提示長視頻生成，又具備很好的視覺連貫性。

超越此前最先進的無調優方法

首先來看長視頻生成的結果。

可以看到，FreeNoise 诠釋 " 宇航服吉娃娃 " 和 " 熊貓吃披薩 " 這兩個場景最為連貫自然。

相比之下，直接推理的（最左列）的狗有嚴重偽影且沒有生成背景，Gen-L-Video（此前最先進的無調優方法）則由于無法保持長距離的視覺一致性，存在明顯内容突變。

定性結果也用數據證明了 FreeNoise 的效果：

其中 CLIP-SIM 的得分代表該方法做到了良好的内容一致性。

其次是多文本條件生成效果。

可以看到該方法（中間列和最右列）可以實現連貫的視覺顯示和運動：

駱駝從奔跑逐漸變為站立，遠處的山脈一直保持同樣的外觀。

定性結果如下：

可以看到該方法在内容一致性、視頻質量和視頻文本對齊都實現 SOTA，且與第二名拉開的差距幾乎達到兩倍之多。

最後，再給大家展示一下 FreeNoise 用在潛視頻擴散模型 AnimateDiff、LaVie 上的效果。

AnimateDiff：

第一列為原效果，第二列為應用後的效果。

LaVie：

效果提升都是肉眼可見的～

哦對，還有生成的滿打滿算 512 幀的視頻，大家覺得效果如何呢：

通訊作者之一是湯曉鷗弟子

本文一共 7 位作者。

一作為南洋理工大學計算機科學與工程學院博士生邱浩楠。

他的研究方向為 AIGC、對抗性機器學習和深偽檢測，本科畢業于港中文。

通訊作者有兩位：

一位是騰訊 AI Lab 視覺計算中心研究員Menghan Xia。

他的研究方向為計算機視覺和深度學習，尤其是影像 / 視頻的生成和翻譯。

Menghan Xia 博士畢業于港中文，本碩先後畢業于武漢大學的攝影測量與遙感學、模式識别與智能系統專業。

另一位是南洋理工大學計算機科學與工程學院助理教授劉子緯。

他 2017 年博士畢業于港中文，師從湯曉鷗教授和王曉剛教授。

畢業後曾在 UC 伯克利做博士後、港中文擔任四年研究員。

論文：

https://arxiv.org/abs/2310.15169

Huggingface 體驗 demo：

https://huggingface.co/spaces/MoonQiu/LongerCrafter

— 完 —

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~

>