今天小編分享的科技經驗:李飛飛谷歌破局之作!用Transformer生成逼真視頻,下一個Pika來了?,歡迎閱讀。
新智元報道
編輯:Aeneas 潤
【新智元導讀】今天,李飛飛攜斯坦福聯袂谷歌,用 Transformer 生成了逼真視頻,效果媲美 Gen-2 比肩 Pika。2023 年俨然已成 AI 視頻元年!
視頻大數據時代,真的來了!
剛剛,李飛飛的斯坦福團隊同谷歌合作,推出了用于生成逼真視頻的擴散模型 W.A.L.T。
這是一個在共享潛在空間中訓練影像和視頻生成的,基于 Transformer 的擴散模型。
論文:https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf
英偉達高級科學家 Jim Fan 轉發評論道:2022 年是影像之年,2023 是聲波之年,而 2024,是視頻之年!
首先,研究人員使用因果編碼器在共享潛在空間中壓縮影像和視頻。
其次,為了提高記憶和訓練效率,研究人員使用基于視窗注意的變壓器架構來進行潛在空間中的聯合空間和時間生成建模。
研究人員的模型可以根據自然語言提示生成逼真的、時間一致的運動:
A Teddy bear skating carefully in Times Square,Slow Motion/ 一只泰迪熊在時代廣場上優雅的滑冰,慢動作
Pouring chocolate sauce over vanilla ice cream in a cone, studio lighting/ 将巧克力醬倒在香草冰淇淋甜筒上,工作室燈光
An stronaust riding a horse/ 一名宇航員騎着馬
A squirrel eating a burger/ 一只松鼠在吃漢堡
A panda taking a selfie/ 一只正在自拍的熊貓
An elephant wearing a birthday hat walking on the beach/ 一頭戴着生日帽的大象在海灘上行走
Sea lion admiring nature, river, waterfull, sun, forest/ 海獅欣賞自然,河流,瀑布,陽光,森林
Pouring latte art into a silver cup with a golden spoon next to it/ 在銀杯中進行拿鐵拉花,旁邊放着金勺子
Two knights dueling with lightsabers,cinematic action shot,extremely slow motion/ 兩個騎士用光劍決鬥,電影動作鏡頭,極其慢動作
A swarm of bees flying around their hive/ 一群蜜蜂在他們的蜂巢周圍飛翔
這個結構還可以用圖片生成視頻:
A giant dragon sitting in a snow covered landscape, breathing fire/ 一條巨大的龍盤踞在冰雪覆蓋的大地上,噴吐着火焰
A cute panda skateboarding in the sky, over snow covered mountains, with a dreamy and whimsical atmosphere/ 一只可愛的熊貓在天空中滑滑板,越過雪山,充滿夢幻和異想天開的氣氛
An asteroid collides with Earth, massive explosive, slow motion/ 小行星撞上地球,大規模爆炸,慢動作
以及,生成一致性很高的 3D 相機運動的視頻。
Cameraturns around a cute bunny, studio lighting, 360 rotation/ 相機圍繞一只可愛的兔子旋轉,工作室燈光,360 度旋轉
Camera turns around utah teapot,studio lighting,360 rotation/ 相機圍繞茶壺旋轉,工作室燈光,360 度旋轉
Camera turns around a burger on a plate,studio lighting,360 rotation/ 相機圍繞盤子中的漢堡旋轉,工作室燈光,360 度旋轉
網友們驚嘆道,這些天好像已經人手一個 LLM 或者影像生成器。
今年簡直是 AI 發展的煽動性的一年。
兩個關鍵決策,組成三模型級聯
W.A.L.T 的方法有兩個關鍵決策。
首先,研究者使用因果編碼器在統一的潛在空間内聯合壓縮影像和視頻,從而實現跨模态的訓練和生成。
其次,為了提高記憶和訓練效率,研究者使用了為空間和時空聯合生成建模量身定制的視窗注意力架構。
通過這兩個關鍵決策,團隊在已建立的視頻(UCF-101 和 Kinetics-600)和影像(ImageNet)生成基準測試上實現了 SOTA,而無需使用無分類器指導。
最後,團隊還訓練了三個模型的級聯,用于文本到視頻的生成任務,包括一個基本的潛在視頻擴散模型和兩個視頻超分辨率擴散模型,以每秒 8 幀的速度,生成 512 x 896 分辨率的視頻。
W.A.L.T 的關鍵,是将影像和視頻編碼到一個共享的潛在空間中。
Transformer 主幹通過具有兩層視窗限制注意力的塊來處理這些潛在空間——空間層捕捉影像和視頻中的空間關系,而時空層模拟視頻中的時間動态,并通過身份注意力掩碼傳遞影像。
而文本調節,是通過空間交叉注意完成的。
W.A.L.T 解決視頻生成建模難題
Transformer 是高度可擴展和可并行的神經網絡架構,是目前最當紅的構架。
這種理想的特性也讓研究界越來越青睐 Transformer,而不是語言 、音頻、語音、視覺、機器人技術等不同領網域的特定領網域架構。
這種統一的趨勢,使研究人員能夠共享不同傳統領網域的進步,這樣就造就了有利于 Transformer 的模型設計創新和改進的良性循環。
然而,有一個例外,就是視頻的生成建模。
擴散模型已成為影像和視頻生成建模的領先範例。然而,由一系列卷積層和自注意力層組成的 U-Net 架構一直是所有視頻擴散方法的主流。
這種偏好源于這樣一個事實:Transformer 中完全注意力機制的記憶需求,與輸入序列的長度呈二次方縮放。
在處理視頻等高維信号時,這種縮放會導致成本過高。
潛在擴散模型可以通過在從自動編碼器派生的低維潛在空間中運行,來降低計算要求。
在這種情況下,一個關鍵的設計選擇,就是所使用的潛在空間的類型 : 空間壓縮 ( 每幀潛在 ) 與時空壓縮。
空間壓縮通常是首選,因為它可以利用預訓練的影像自動編碼器和 LDM,它們在大型成對影像文本數據集上進行訓練。
然而,這種選擇增加了網絡復雜性,并限制了 Transformer 作為骨幹網的使用,尤其是由于内存限制而生成高分辨率視頻時。
另一方面,雖然時空壓縮可以緩解這些問題,但它排除了配對影像文本數據集的使用,後者比視頻數據集更大、更多樣化。
因此,研究者提出了視窗注意力潛在 Transformer ( W.A.L.T ) : 一種基于 Transformer 的潛在視頻擴散模型 ( LVDM ) 方法。
該方法由兩個階段組成。
首先,自動編碼器将視頻和影像映射到統一的低維潛在空間中。這種設計能夠在影像和視頻數據集上聯合訓練單個生成模型,并顯著減少生成高分辨率視頻的計算負擔。
随後,研究者提出了一種用于潛在視頻擴散建模的 Transformer 塊的新設計,由在非重疊、視窗限制的空間和時空注意力之間交替的自注意力層組成。
這種設計有兩個主要好處——
首先,使用局部視窗注意力,可以顯著降低計算需求。
其次,它有利于聯合訓練,其中空間層獨立處理影像和視頻幀,而時空層致力于對視頻中的時間關系進行建模。
雖然概念上很簡單,但團隊的方法讓 Transformer 在公共基準上潛在視頻傳播中表現出了卓越的質量和參數效率,這是第一個經驗證據。
具體來說,在類條件視頻生成 ( UCF-101 ) 、幀預測 ( Kinetics-600 ) 和類條件影像生成 ( ImageNet ) 上, 不使用無分類指導,就取得了 SOTA。
最後,為了證明這種方法的可擴展性和效率,研究者還生成了逼真的文本到視頻生成效果。
他們訓練了由一個基本潛在視頻擴散模型和兩個視頻超分辨率擴散模型組成的級聯模型,以每秒 8 幀的速度生成 512X896 分辨率的視頻,并且在 UCF-101 基準測試中,取得了 SOTA 的 zero-shot FVC 分數。
學習視覺符号
視頻生成建模中的一個關鍵設計決策,就是潛在空間表征的選擇。
理想情況下,需要一個共享且統一的壓縮視覺表征,可用于影像和視頻的生成建模。
統一的表征很重要,這是因為由于标記視頻數據 ( 例如文本視頻對 ) 的稀缺,聯合的影像 - 視頻學習更可取。
為了實現視頻和靜态影像的統一表征,第一幀始終獨立于視頻的其餘部分進行編碼。
為了将這個設計實例化,研究者使用了 MAGVIT-v2 分詞器的因果 3DCNN 編碼器 - 解碼器。
通常,編碼器 - 解碼器由常規 D 卷積層組成,它們無法獨立處理第一幀。
而因果 3D 卷積層解決了這個問題,因為卷積核僅對過去的 幀進行操作。
這就确保了每個幀的輸出僅受前面幀的影響,從而使模型能夠獨立标記第一幀。
實驗
視頻生成
研究人員考慮了兩個标準視頻基準,即類别條件生成的 UCF-101 和帶有 5 個條件幀的視頻預測 Kinetics-600。
研究人員使用 FVD 作為主要評估指标。在這兩個數據集上,W.A.L.T 顯著優于之前的所有工作(下表 1)。
與之前的視頻擴散模型相比,研究人員在模型參數更少的情況下實現了最先進的性能,并且需要 50 個 DDIM 推理步驟。
影像生成
為了驗證 W.A.L.T 在影像領網域的建模能力,研究人員訓練了一個 W.A.L.T 版本,用于标準的 ImageNet 類别條件設定。
在評估中,研究人員遵循 ADM 并報告在 50K 樣本上用 50 個 DDIM 步驟生成的 FID 和 Inception 分數。
研究人員将 W.A.L.T 與 256 × 256 分辨率的最先進影像生成方法進行比較(下表 2)。研究人員的模型在不需要專門的調度、卷積歸納偏見、改進的擴散損失和無分類器指導的情況下優于之前的工作。盡管 VDM++ 的 FID 分數略有提高,但該模型的參數明顯更多(2B)。
消融實驗
在使用 ViT -based 模型的各種計算機視覺任務中,已經證明較小的補丁大小 p 可以始終提高性能。同樣,研究人員的研究結果也表明,減小補丁大小可以提高性能(下表 3a)。
視窗注意力
研究人員比較了三種不同的 STW 視窗配置與全自注意(表 3b)。研究人員發現,局部自注意力可以在速度上顯著更快(高達 2 倍)并且減少加速器内存的需求,同時達到有競争力(或更好)的性能。
文生視頻
研究者在文本 - 影像和文本 - 視頻對上,聯合訓練了文本到視頻的 W.A.L.T。
使用的是來自公共互聯網和内部來源的約 970M 文本 - 影像對,和約 89M 文本 - 視頻對的數據集。
定性評估
W.A.L.T 根據自然語言提示生成的示例視頻,分辨率為 512*896,持續時間為 3.6 秒,每秒 8 幀。
W.A.L.T 模型能夠生成與文本提示一致、時間一致的逼真視頻。
研究人員在以 1 或 2 個潛在幀為條件的幀預測任務上,聯合訓練了模型。
因此,模型可用于影像動畫(影像到視頻)和生成具有連貫鏡頭運動的較長視頻。
定量評價
科學地評估文本條件視頻生成系統仍然是一個重大挑戰,部分原因是缺乏标準化的訓練數據集和基準。
到目前為止,研究人員的實驗和分析主要集中在标準學術基準上,這些基準使用相同的訓練數據來确保受控和公平的比較。
盡管如此,為了與之前的文本到視頻工作進行比較,研究人員還在表 5 中的零樣本評估協定中報告了 UCF-101 數據集的結果。
研究人員框架的主要優勢是它能夠同時在影像和視頻數據集上進行訓練。
在上表 5 中,研究人員消除了這種聯合訓練方法的影響。
具體來說,研究人員使用第 5.2 節中指定的默認設定訓練了兩個版本的 W.A.L.T-L ( 每個版本有 419M 參數 ) 模型。
研究人員發現聯合培訓可以使這兩個指标都有顯著改善。