今天小編分享的科技經驗:拳打Pika腳踢Gen-2!斯坦福李飛飛聯合谷歌,AI文生視頻大模型炸圈,歡迎閱讀。
智東西(公眾号:zhidxcom)
作者 | 李水青
編輯 | 漠影
AI 文生視頻賽道正呈現出爆發之勢!
繼本月 AI 文生視頻工具 Pika 1.0 爆火出圈、Gen-2 效果大更新之後,斯坦福大學 AI 科學家李飛飛的團隊也有了新動作!
智東西 12 月 12 日報道,今日,李飛飛及其學生團隊與谷歌合作,推出了 AI 視頻生成模型 W.A.L.T(視窗注意力潛在 Transformer ,Window Attention Latent Transformer)。
▲李飛飛在社交平台 X 發聲轉發
演示中,W.A.L.T 可以通過自然語言提示,生成 3 秒長的每秒 8 幀、分辨率達 512 × 896 的逼真視頻。
▲ W.A.L.T 的文生視頻示例
W.A.L.T 可以讓一張靜态圖片變為一個的動态感十足的動圖。
▲ W.A.L.T 的圖生視頻示例
W.A.L.T 還可以用于生成 3D 攝影機運動的視覺效果。
▲ W.A.L.T 的 3D 視頻生成示例
與爆火的 Pika 1.0、Gen-2 等同類工具類似,W.A.L.T 采用擴散模型(Diffusion Model)技術。
同時,W.A.L.T 的創新之處在于,其将 Transformer 架構與潛在擴散模型(Latent Diffusion Models,LDM)相結合,在一個共享潛在空間中壓縮影像和視頻,從而降低計算要求,提高訓練效率。
根據論文,W.A.L.T 在視頻生成基準 UCF-101 和 Kinetics-600、影像生成基準 ImageNet 測試上實現了 SOTA(當前最優效果)。
項目地址:
https://walt-video-diffusion.github.io/
論文地址:
https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf
▲ W.A.L.T 相關論文截圖
一、一句話生成 3s 視頻,高逼真、強動态、3D 視覺
W.A.L.T 模型目前支持文生視頻、圖片轉視頻和 3D 相機拍攝視頻三項能力,團隊展示了一系列 W.A.L.T 生成示例。
1、文生視頻:一句話生成高清逼真視頻
輸入一句簡短的提示詞,W.A.L.T 模型就可以給出一個 3 秒長的逼真視頻。以下是一些示例:
陽光明媚的下午,宇航員在喂鴨子。(An astronaut feeding ducks on a sunny afternoon.)
一頭戴着生日帽的大象在海灘上行走。(An elephant wearing a birthday hat walking on the beach.)
皮卡丘在拳擊場内戴着拳擊手套。(Pikachu wearing boxing gloves, inside a boxing ring.)
一只可愛的熊貓在天空中滑板,越過雪山,充滿夢幻和異想天開的氣氛。(A cute panda skateboarding in the sky, over snow covered mountains, with a dreamy and whimsical atmosphere.)
一對情侶撐着雨傘走回家,傾盆大雨,油畫風格。(A couple walking home with umbrellas, heavy downpour, oil painting style.)
2、圖片轉視頻:用戶提供圖片,生成動态視頻
這裡的圖片不是由 W.A.L.T 模型生成的,但動态效果是的,如下面的示例所示:
一個穿着全套太空服的宇航員騎着馬,慢動作。(An astronaut in full space suit riding a horse, slow motion.)
一個巨大的機器人在雪裡行走。(A giant robot walking through a snowy landscape.)
一只大泰迪熊慢鏡頭走在第五大道上。(A large teddy bear walking down 5th avenue, slow motion.)
3、3D 相機拍攝視頻:物體全景多細節展示
團隊還展示了 3D 視頻内容的生成,效果看起來就像一個 3D 攝影機拍攝而來。示例如下:
鏡頭轉向盤子裡的漢堡,工作室。(Camera turns around a burger on a plate, studio lighting, 360 rotation.)
攝影機繞着戴着一副耳機的南瓜,工作室燈光,360 度旋轉。(Camera turns around a pair of headphones around a pumpkin, studio lighting, 360 rotation.)
二、Transformer+ 潛在擴散模型,降低計算成本
Transformer 在處理視頻等高維數據時成本過高,潛在擴散模型(Latent diffusion models,LDM)可以降低計算要求。
因此,李飛飛學生團隊與谷歌研發者共同提出了視窗注意力潛在 Transformer(Window Attention Latent Transformer,W.A.L.T),這是一種基于 Transformer 的潛在視頻擴散模型(latent video diffusion models,LVDM)方法。
當下,市面上的同類工具如 Pika Labs 推出的 Pika 1.0、Runway 的 Gen-2,大都采用擴散模型(Diffusion Model),這是很長時間裡影像和視頻生成領網域的主流技術路線。
W.A.L.T 沿用這一主流技術路徑,并在此基礎上進行創新,主要實現以下兩方面的更新:
1、使用局部視窗注意力,顯著降低計算需求。
2、更有利的聯合訓練:空間層獨立處理影像和視頻幀,而時空層專注于時間關系建模。
據悉,這一架構主要的優勢是它能同時在影像和視頻數據集上進行訓練。
這得益于 W.A.L.T 的兩個關鍵決策:
1、使用因果編碼器,在一個共享潛在空間中壓縮影像和視頻。
2、使用基于視窗注意力的 Transformer 架構,在潛在空間中聯合時空生成建模,從而提高記憶和訓練效率。
團隊基于 W.A.L.T 訓練了三個模型的級聯(Cascade),用于文本到視頻的生成任務,包括:一個基本的潛在視頻擴散模型、兩個視頻超分辨率擴散模型。
在無需使用無分類器指導的情況下,W.A.L.T 在視頻生成基準 UCF-101 和 Kinetics-600、影像生成基準 ImageNet 測試上實現了 SOTA。
▲在基于 kinect-600 的幀預測和基于 UCF-101 的類條件生成的視頻生成評價
三、AI 生成視頻爆發,巨頭和創企都加碼了
短短一個月時間裡,AI 生成視頻賽道已成爆發态勢,背後玩家不僅覆蓋高校及科研團隊,還有多家科技巨頭及 AI 創企。
先是 11 月 3 日,視頻生成領網域的 " 老大哥 "Runway 宣布其 AI 視頻生成工具 Gen-2 更新,分辨率提升至 4K,大幅提高保真度和一致性。一周後,Runway 又緊鑼密鼓地發布了運動畫筆功能,強化視頻局部編輯能力。
Gen-2 體驗地址:
https://research.runwayml.com/gen2
▲ Runway 在 X 平台宣布其 AI 視頻生成工具 Gen-2 更新
緊接着,國内外的科技巨頭都加入了這一賽道。
11 月 16 日,科技巨頭 Meta 推出了文生視頻模型 Emu Video。Emu Video 可以通過自然語言生成高質量視頻,它将視頻生成分為兩個步驟,首先生成以文本為條件的影像,然後生成以文本和生成的影像為條件的視頻。
項目主頁地址:
emu-video.metademolab.com
11 月 18 日,國内大廠字節跳動推出了文生視頻模型 PixelDance,提出了基于文本指導 + 首尾幀圖片指導的視頻生成方法,使得視頻生成的動态性更強。
項目主頁地址:
https://makepixelsdance.github.io
▲ PixelDance 的強動态效果演示
一些 AI 創企的做法則更激進,直接扔出體驗體驗鏈接,引爆消費級市場。
11 月 29 日,AI 創企 Pika Labs 推出網頁版 Pika 1.0,一時間在消費級市場火出圈。Pika 1.0 能根據文字圖片,生成一段 3s 的流暢視頻;它還支持用戶圈定視頻裡的元素,進行視頻局部編輯。Pika 僅僅開放半年已有超 50 萬用戶,目前還有更多用戶排隊申請體驗網頁版 Pika 1.0 產品。Pika 是一家創立于今年 4 月的創企,近期剛剛宣布了 5500 萬美元融資。
Pika 1.0 體驗地址:
https://pika.art/waitlist
▲ Pika Labs 官宣網頁版 Pika 1.0 上線
在影像領網域深耕已久的 Stability AI 也不示弱。11 月 29 日,Stability AI 推出了名為 Stable Video Diffusion 的視頻生成模型,提供 SVD 和 SVD-XT 兩個模型。其中,SVD 将靜止影像轉換為 14 幀的 576 × 1024 視頻,而 SVD-XT 在相同的架構下将幀數提升至 24。這兩者都能以每秒 3 到 30 幀的速度生成視頻,目前已進入 " 研究預覽 " 階段。
官方演示視頻:
https://www.youtube.com/watch?v=G7mihAy691g
除此之外,國内美圖公司發布的 AI 視覺大模型 MiracleVision 的 4.0 版本,剛剛新增了 AI 視頻兩大能力;來自中國科學院等機構的研究者在 11 月 21 日提出了一個無需訓練的文本生成視頻框架 GPT4Motion;阿裡的研究團隊在最新論文中提出了新框架 Animate Anyone,支持從靜态影像 AI 生成動态視頻。
商業化產品集中爆發,AI 生成視頻技術似乎正迎來一個 "ChatGPT 時刻 "。
結語:技術和產品迭代扎堆,AI 視頻生成賽道爆發
短短一個月時間裡,我們看到 AI 視頻生成的技術和產品加速爆發,科研機構、AI 創企和科技巨頭都出動了。
僅僅一年之前,ChatGPT 以迅雷不及掩耳之勢走向全球,為文本創作領網域帶來重大的變革,并掀起了全球範圍内的 " 百模大戰 "。
一年後的今天,AI 視頻生成賽道或許迎來一個新的 "ChatGPT 時刻 ",國内外的玩家都已經 " 開卷 " 了,推動多模态大模型的升維競賽打響。