今天小編分享的科技經驗:專訪VideoPoet作者:LLM能帶來真正的視覺智能,歡迎閱讀。
采訪:penny、Kefei
編輯:Siqi、penny
排版:Scout
在 AI 領網域,近年來各個子領網域都逐漸向 transformer 架構靠攏,只有文生圖和文生視頻一直以 diffusion + u-net 結構作為主流方向。diffusion 有更公開可用的開源模型,消耗的計算資源也更少。
不過,最近視頻生成領網域也出現了效果驚豔、基于大語言模型架構的成果—— VideoPoet,讓大眾看到了 transformer 和 LLM 在視頻生成領網域的強大可能性。
VideoPoet 是 Google 近期發布的一個專注于視頻生成的 LLM ,能夠一站生成視頻、音頻、支持更長的視頻生成,還對現有視頻生成中比較普遍動作一致性提供了很好的解決方案。除了效果驚豔,VideoPoet 值得關注的另外一個原因在于,和絕大多數視頻領網域模型不同,VideoPoet 并沒有走 diffusion 的路線,而是沿着 transformer 架構開發,将多個視頻生成功能集成到單個 LLM 中,它的推出以及它所呈現出的效果,是 transformer 在視頻生成任務上擁有極大潛力的有力證明。作為一個全能的視頻生成 foundation model,VideoPoet 接下來還會發布更多功能。
蔣路認為,視頻生成領網域的"ChatGPT 時刻"預計會在 24 年底或 25 年中實現,到那個時候視頻生成已經可以達到好萊塢試映片級别的效果。放眼更長遠的未來,視頻生成研究更加終極的目标是追求 "visual intellegence",人工通用智能也會在視頻生成中實現。
01.
視頻生成的技術路線
海外獨角獸:在視頻生成領網域,最合适的技術路線還沒有收斂。你會怎麼給已有的技術路線分類?
Lu Jiang:現在的技術路線大致可以分為兩大類(這裡不包括 GAN 延續的工作):一類是基于 diffusion 的技術,另一類則是基于 language model 的技術。舉例來說,我們最近發布的 VideoPoet 是典型的基于 language model 的路線,我們組的另一個工作 WALT 則是基于 diffusion。也有人用 token-based 來區分基于語言模型的技術和基于 diffusion 的技術,但我認為這種說法不太準确,因為 diffusion 裡面也有 token 的概念。
00:00
/
01:00
>基于 VideoPoet 制作的短片 Rookie the Raccoon
diffusion 技術迭代過幾次了,從最早的的 pixel diffusion 發展到第二代 latent diffusion,再到第三代 latent diffusion with transformer backbone, diffusion 路線現在是絕對主流,大約 90% 的研究者都在這個領網域探索。
基于 language model 的技術其實比 diffusion 出現得更早,2020年的 ImageGPT 和後來的 DALL-E 都是引入這個概念的,但到 DALL-E2 就換成了 diffusion。Google 的 Parti 模型也是利用語言模型實現文生圖。
基于語言模型的工作又可以分為兩類:一類是以 mask language model(例如BERT) 為主,比如 Google 的 MaskGIT,屬于奠基性的工作,後面比較出名的是 Muse 文生圖模型;另一類是基于自回歸(auto-regressive)的語言模型,這個更接近于現在 LLM 的邏輯。
MaskGIT:Google Research 在 2022 年 2 月發布的影像生成模型(對應論文為 MaskGIT:Masked Image Generative transformers),MaskGIT 改進了 VQGAN 的串行序列生成模式,通過并行解碼(parallel decoding)提升生成效率,最高加速 64 倍,MaskGIT 還進一步提升了影像生成質量,可以支持類别條件輸入,也可以用于影像編輯和擴展。不過 MaskGIT 不支持文本引導圖片生成。
Muse:Google 在 2023 年 1 月發布的文生圖模型(對應論文:Muse:Generation via masked generative transformers)。不同于 diffusion 或自回歸模型的方案,Muse 是在離散的 token 空間上基于 Mask 方式進行訓練,在當時獲得 SOTA 水平,并且生成效率更高。
但實際上,diffusion 和 large language base 這個分類更多是方便我們理解,随着時間的推移,這兩個概念的内涵是在不斷擴展延伸的,尤其是 diffusion 也在不斷地吸收和學習來自語言模型的方法,它們之間的界限變得越來越模糊。
海外獨角獸:為什麼說 diffusion 也在不斷學習語言模型的東西?怎麼體現在 diffusion 的發展和迭代中?
Lu Jiang:第一代 diffusion model 是 pixel diffusion ,這種方法處理速度較慢,尤其是在處理大量像素,比如高分辨率影像時。所以,如果直接在視頻任務上應用 pixel diffusion 就會相當挑戰,因為視頻是一個三維空間。為了解決這個問題,行業早期采用的是級聯(Cascade)的方法,先使用一個小型模型進行漸進式生成,然後逐漸擴大模型規模,再把四到五個模型串聯在一起。
Diffusion 的一個重要突破是引入了 latent diffusion,相關研究是 High-Resolution Image Synthesis with Latent Diffusion Models,這個是 stable diffusion 奠基性的工作。它最基本的思想是首先将高維數據,比如一個很大的影像,降維到一個 feature,這個其實就是用 token,再在這個 feature 上做 diffusion,完成後再把特征空間投射回影像空間。latent diffusion 的研究團隊之前就是做語言模型的,這個思想其實就是從語言模型那裡來的,從 latent diffusion 的研究文章我們也可以看到,第一個所謂的 tokenizer(分詞器)是從語言模型中引入的。
Tokenizer:将文本或序列轉化為标記(tokens)的工具或算法。在自然語言處理(NLP)領網域,tokenizer 通常用于将文本分割成單獨的單詞、短語或符号,這些單元被稱為标記。在生成模型中,tokenizer 的作用是将連續的輸入序列轉換為離散的标記,這些标記可以被模型理解和處理。上述的 diffusion model 采用的是 tokenizer 轉化為連續的标記。
第二個比較大的裡程碑是将 U-Net 架構逐漸轉換成 transformer 上,這裡的代表研究是 DiT,這是個比較自然而然的過程,因為 transformer 架構能力更強、更能做生成。
對于基于 transformer 的工作,不管是 latent diffusion 還是 language model,它們之間的區别很小,都是 token-based,最大的區别在于基于 diffusion 的生成是連續的 token, language model 處理的是離散的 token。
海外獨角獸:你提到目前有 90% 的視頻生成研究者都做的是 diffusion 路線,為什麼 diffusion 會是主流?
Lu Jiang:我們要把 "研究成果"和"真正 avaliable"分開看。現在之所以這麼多人用 diffusion,最大的原因是 stable diffusion 是一個最好的開源模型,它完整影響了整個生态圈。因為 99% 的論文不可能重新訓基礎模型,都是找一個已有模型再在它的基礎上做一些嘗試。
在理解生成模型時,可以分兩個層次:基礎模型和應用。基礎模型的目标是實現整體的最佳性能,但可能不關心某個具體應用場景。根據(Bommasani等人 2021)定義, foundation model 有兩個特性,第一可以賦能 sample efficient learning,如果訓練出這個 foundation model,用戶在解決具體問題時可能只需使用 1% 的數據或更少,第二個就是所謂的 coverage,模型可以用來做任何事,只要微調都能用起來,現在的 NLP 基本上就是這樣,拿我們的工作舉例,VideoPoet、WALT 和 Muse 等這些模型都是 foundation model。
相對于 foundation model 的就是下遊的 application model ,從 foundation model 出發,針對特定任務優化,比如大家現在看到的跳舞、Control-Net 以及各種視頻編輯、風格化(stylization)等等,都屬于下遊應用。
很現實地說,絕大部分高校很多研究者都沒有能力做 foundation model,需要的資源太多。在 stable diffusion 之前,DALL-E 的出現極大地激發了研究社區的興趣,DALL-E 相比 GAN 在生成、計算和多樣性等方面都有本質的提升。社區中有很多人嘗試重現 DALL-E,比如,有網友做了 mini DALL-E,但質量慘不忍睹,社區很缺一個"可用"的模型。開源模型 stable diffusion 的出現填補了這個空缺。
在 2022 年那時候,Stable diffusion 和 DALL-E 、Google Imagen、Google Muse 相比,不一定是最強的模型,但确實是最公開可用的模型,後續工作都是在它的基礎上構建的,對社區有本質的影響。
這也是為什麼視頻生成領網域也受到 stable diffusion 路線限制,因為現階段的視頻生成研究通常先從影像出發,把"幀"先生成出來,然後嘗試減少一些不一致性、再播放成為一個視頻,目前階段的視頻生成更像是"幻燈片生成",我相信市場上都不認為這是最佳方法,但如果要生成一些可看的内容,這是唯一能做的方法,開源社區上的資源在很大程度上限制了我們能做什麼。
最近推出的 stable video diffusion 會極大地改變這一現狀,作為了一個視頻 foundation model,stable video diffusion 的出現也會對現有的應用,比如編輯、穩定化,帶來明顯進步,因為之前的問題或許已經被這個新的 foundation model 解決了,現在生成的東西本身就具有時間一致性。可能在未來的一年或半年内,許多研究工作将不再走之前的技術路線,而是從 stable video diffusion 開始。雖然我個人覺得當前的 stable video diffusion 肯定不是最優的技術,但它是目前唯一可用的,大家可以在它上面持續做東西出來。
海外獨角獸:随着基于 diffusion 和大語言模型的技術之間的界限變得模糊,是否意味着越來越多的研究者會轉向使用 transformer 架構?
Lu Jiang:我覺得即使在基于 diffusion 的路線中,使用 transformer 也會是個趨勢,因為 transformer 更 scalable,這是大家的共識。我了解到 diffusion 最大的模型也就 7 到 8 個 billion 參數規模,但 transformer 模型最大可能已經達到 trillion 級,他們是完全兩個量級。
為什麼 diffusion 沒有訓出更大的模型?我認為肯定有人試過,但沒成功。不是說 diffusion 不能 scale,而是要考慮花多大體量的資源和資金才能實現這件事。在 NLP,大公司花了 5 年時間、投入數百億美元,才把模型做到現在規模,而且,随着模型規模的增大,對于所有公司來說,scaling、包括 model parameter 變成了 top secret,search 大模型架構成本也成倍增長。
所以對于 diffusion 來說,我不覺得沒有 scale 的可能,只不過從 U-Net 轉到 transformer 的話,可能就能利用之前的學習配方( learning recipes),大大降低搜索這種架構的成本。
海外獨角獸:用 LLM 的架構做視頻生成模型,和給一個 LLM 比如 ChatGPT 加上多模态能力,這兩者有什麼區别?
Lu Jiang:本質上說,基于 language model 的視頻模型仍是一個語言模型,因為訓練和模型框架沒有改變。只是輸入的"語言"擴展到了視覺等其他模态,這些模态也可以離散化表示為符号。對模型來說,理解其他模态就像理解一種外語。我認為當前難點在于讓 LLM 理解多模态任務,只要表示方式設計得當,LLM 模型可以無縫理解和生成。
所以不需要專門設計新的模型結構。只要模型理解了以後,輸出形式也很靈活,可以自然的組合不同模态,實現多模态的生成,這方面也有很多相關研究。
02.
VideoPoet :LLM 能帶來真正的視覺智能
海外獨角獸:最近發布的 Video Poet 和 WALT 都用了 transformer 架構,效果也都很驚豔,大家也都覺得看到了 diffusion 路線之外的新趨勢。這些研究的背景是什麼,對視頻生成領網域的主要貢獻是什麼?
Lu Jiang:VideoPoet 和 WALT 是我們最近發布的工作,VideoPoet 是一個基于 language model 的 video foundation model,它的目的就是想做一個模型,把所有關于視頻的功能囊括到裡面。WALT 是與李飛飛老師和其學生合作的項目,WALT 基于 diffusion,但也使用了 transformer 。有意思的是,這兩個模型其實用的是同一個 tokenizer 架構叫 MAGVIT-v2,它們之間的關系其實非常緊密。WALT 和 VideoPoet 使用的 tokenizer 層不同,WALT 用的是連續層(微調後),VideoPoet 采用離散層。
00:00
/
00:02
>VideoPoet Overview
VideoPoet 的貢獻在于,它提出的視頻生成方法在生成動作時能保持很好的一致性,尤其是大範圍 motion 的連貫性,這是很強的貢獻,另一個貢獻是實現多種任務的一站式處理,和生成長度 10 秒視頻。技術上的貢獻或許沒有多麼復雜,這篇工作的主要意義是讓社區重新認識 LLM 在視頻生成上會扮演很重要的角色,它可能比人們當前的認知要強很多。
海外獨角獸:大動作、一致性等問題是視頻生成的難點,LLM 能更好地解決這些難點嗎?
Lu Jiang:我個人覺得視頻生成的難點是 motion 部分,現在圖片生成的方向是高清細節,但在視頻裡,人對動作是很敏感,一些奇怪的行為一下就能發現。目前市場上大部分視頻生成的公司基本上做的都是運鏡、非常小的動作,再加上 camera 的不同模式,很少有大動作,這對于現有的 diffusion 來說非常吃力。我的理解是因為它們沒有很好的能建模運動的 tokenizer,這也是為什麼 WALT 的 motion 能做的比它們好。
我認為 motion modeling 屬于很頭部的問題,尤其是復雜動作的連貫性。
00:00
/
00:00
>2019 年時我就見識了 transformer 的強大。那時通過合作,我也在做NLP方面的研究,和當時大多數視覺領網域的人相比,我特别相信 transformer ,當時我的研究小組有個明确的目标,就是必須采用 transformer,所以在 GAN 時期我們已經逐步把 GAN 架構替換為 transformer,當然後面 GAN 也逐漸退出歷史舞台了。
後來我們研究 Mask Language Model,為什麼做這個呢?Mask 首先這是個 transformer,當時解決的是速度問題,因為 auto-aggressive 太慢了,diffusion 當時會更慢,但 Mask 可以很快生成,在 2022 年 diffusion 需要 1000 步的時候,它可能就只需要 8 步了。
做 Mask 的過程中我們提出了 MaskGIT,認為可以用 Mask Language Model 的方式做影像生成,是把這件事做到了 text-to-Image 上。
我們在開發 Muse 時,曾有過一段時間可以與 stable diffusion 的某個版本進行比較,因為當時我們的訓練數據是一樣的,所以能比較客觀地比較,我們的結論是,MaskGIT、Muse 這種語言模型的作品在質量要略高于 stable diffusion,速度也要快很多,在一些計算口徑中這種速度差距能到幾倍。
當時 Muse 剛出來的時候,也有網友呼籲我們開源,但出于各種原因沒有開源。如果當時開源了,可能現在的開源社區的研究格局可能會有所不同,比如可能同時有些人研究基于 language model 路線,有些人研究基于 diffusion 的路線。而且 Muse 當時在速度上非常有競争力,diffusion 可能花了大半年時間才追上,所以如果當時開源的話可能推廣性也很好。
我一直很堅信 language model 的方法,從我内心來說,我不認為 language model 比 diffusion 差,所以我一直主張堅持這一路線,比如後面包括用 auto-aggressive 與 LLM 結合。
做完 image 之後,我們就轉向了視頻。對于視頻,我的信念是一定要使用 transformer,雖然在視覺領網域中使用 U-Net 依然是主流,這也是為什麼 WALT 即使是用 diffusion,我們仍然要使用 transformer 的原因。
海外獨角獸:為什麼你這麼早就堅信 transformer 路線,這會是未來視頻生成技術收斂的方向嗎?
Lu Jiang:我所說的 transformer 、language model 以及 large language model(LLM)是一樣的意思,因為這兩者在 NLP 中是幾乎相同的概念。長遠來看,比如未來 3 到 5 年,我個人認為 diffusion 可能會失去競争力。
首先,LLM 可能是人類歷史上第一個能夠窺探所謂 AGI 的模型,而且是通過非常簡單的方法實現,只要持續增長模型和數據,模型就能帶來驚喜。在這之前的 AI ,我們基本可以知道它能做什麼、不能做什麼,但整體上不會"be suprised",但現在,就像 OpenAI 的Ilya 說的,通過很簡單的預測下一個 token 的操作,就能支持非常智能的應用,我覺得因為 transformer ,我們幾乎已經敲開了通用人工智能 AGI 的大門。人類歷史上提出了很多 AI 模型,這是唯一一個實現這件事的,我們為什麼不把它的能力發揮到最大呢?
第二點,未來 5-10 年,幾乎不太可能出現一個新的模型挑戰 LLM 在文本的地位。然後現在越來越多的比如音樂生成、音頻生成、機器人等領網域主流仍然是 language model,最近 vision 領網域也發生了變化比如GPT-V和Gemini,我看到的大概率 language model 也會把絕大部分 visual understanding 囊括。
所以從大的格局上來看,如果所有領網域的研究都進入到 LLM ,那麼為什麼視覺領網域要被單獨拿出來做?它到底難到多大程度需要我們單獨處理呢?因為單獨處理意味着很多,從工程角度,要同時引入兩套模型,會增加成本和優化難度。當然未來可能會發明一種 diffusion 和 LLM 混合使用的方式,但生成仍然是要在 language model 内原生的,diffusion 更像是輔助的存在。從大的格局上,我認為沒有什麼不可抗的困難要把影像和視頻生成任務從語言模型中單獨剝離出來。
00:00
/
00:06
>我深信 LLM 的第三個原因是:現在的影像生成模型解決的問題類比到 NLP 來說相當初級,例如,讓模型生成一張"戴紅色聖誕帽的狗的圖片"這樣的任務,這在 NLP 中相當于生成"dog"、"red hat"和"on top of the dog"幾個詞語,人們不會覺得這是"智能",只是換到影像模态,大家在視覺上覺得很驚豔,但這絕對不能代表是視覺領網域的智能。
海外獨角獸:如果把大模型類比成人,現在只是有了語言,還需要眼睛和其他模态。怎麼定義視覺和多模态的智能?為什麼現在還沒能實現?
Lu Jiang:"智能"是一個整體思想,"模态"是人類智能的表現形式——語言是最抽象的,聲音和視覺領網域是語言的延伸。LLM 已經展示了語言智能,但還不是全部,類似于一個人有想法,但沒有手畫出來,沒有途徑表達出來。這是暫時的制約,不是 LLM 的本質缺陷。
未來誰能打敗 Midjourney?一定不是在影像質量上競争,現在的症結點已經不在這裡了,大家現在說 DALL-E 比 Midjourney 好,我認為是說 DALL-E 的 prompt following 要更好,在 visual intelligence 語境下,prompt following 可能是最基本的。
用一個例子說明什麼是真正的 visual intelligence,比如一個創業者想準備融資的 pitch deck,目标是能獲得融資。這是個很任務導向的問題,把這個需求給模型,模型理解了問題後可能還會追問一些細節,例如投資人的背景等等,在這些信息基礎上,輸出一份滿足需求的 deck,最終融資結果可能比人做得還好,這才是視覺領網域中隐藏的真正智能。
Visual intelligence 是廣泛存在于我們社會中的,甚至後面還可以接入 VR、AR。
我覺得 LLM 是有這個能力的,現在的局限是新模态中的理解和表達。現在有兩條路來解決這個問題,一種是重起一套新模型讓它實現理解和表達,這就是 diffusion 的思路,還有一個思路是,能不能想辦法讓 LLM 模型自己學習理解和表達新的模态?如果能夠實現第二點,那麼我們就真正解決了這個問題。
海外獨角獸:VideoPoet 和 WALT 這兩個項目效果為什麼這麼好?其中有什麼關鍵工作嗎?
Lu Jiang:WALT 和 VideoPoet 的相似點在于都使用了 transformer、使用了同一套 tokenizer 架構,就是 Magvit V2,這是我個人很滿意的一項工作。
Magvit:Masked generative video transformer 研究中引入了一個 3D 分詞器,将視頻量化為時空視覺 token,并提出了一種掩碼視頻 token 建模的嵌入方法,以促進多任務學習。
我們之前做了 Spae 的項目,Spea 的核心是做影像和文本語義的互聯。我們發現,如果把這種東西接入到 ChatGPT 3.5、Bard 這種 LLM 裡面,即使這些模型之前從未接觸過任何影像,也能通過極少量的影像示例實現影像生成和 caption 描述,只需要十幾張例子就能完成。這個發現讓我非常驚訝,一個之前完全沒有接觸過影像的語言模型,只需要少量的示例就能生成、理解影像。後來我們就沿着這個思路,繼續探索如何讓語言模型更好地理解和表達視覺世界。
這就是我們設計 Magvit V2 分詞器(tokenizer)架構的初衷,也是 VideoPoet 效果好的最核心原因。使用分詞器的方法有很多人嘗試過,比如很早之前的 VideoGPT 等,但效果并不理想,我認為關鍵在于 language model 雖然有足夠潛力、但并不理解生成任務的具體目标是什麼,tokenizer 的存在就是通過建立 token 之間的互聯讓模型明确"我現在要做什麼",互聯建立得越好、LLM模型越有機會發揮它的全部潛力。
所以,如果模型不理解當前的生成任務,問題并不在于語言模型本身,而是我們沒有找到讓它理解任務的方法。
這也是為什麼我們的研究叫做:language model Beats diffusion - tokenizer is key to visual generation,在這篇研究裡面,我們和 ImageNet 這些項目在 benchmark 上相比證明了,一個好的 tokenizer 接入到語言模型後,能夠立即可以獲得比當時最好的 diffusion 還要好的效果。
我們的研究可能會讓社區意識到 tokenizer 是被嚴重忽視的一個領網域,值得發力去做,我也相信 tokenizer 會變得越來越好。
海外獨角獸:除了讓 LLM 更明确理解任務,tokenizer 在視覺智能中還會起到什麼重要作用?
Lu Jiang:text 模态裡面已經有 tokenizer ,在人類自然語言上萬年的發展造就了現在"自然語言"系統。我們要構建的是視覺領網域的語言系統。如果能把 tokenizer 做得更完善,随着能力進化,它連入 LLM 的能力就越強,我覺得是一個實現 visual intellegence 的方法。
如果想實現 visual intellegence,能不能只是把 LLM 和 diffusion 橋接起來?我覺得這是個好的過度方法, 但是最終可能性很低,因為這對橋的要求很高,要保證信息能夠被準确傳輸,現在大多數橋是通過 cross attention 實現的,但真正的關鍵在于 transformer 的大計算量的 self-attention,現在這個橋的帶寬會限制 LLM 的發揮。但如果把 tokenizer 的這種能力集成到 language model,就能和其他模态互聯,很輕松地做 multi-task。
另外一個就是長度問題,diffusion 的生成長度通常受限,但在 LLM 裡面,比如 music generation 可以做到 3 分鍾,VideoPoet 的特點之一是 long video,借助LLM,不需要特殊處理就可以生成十秒,這些也是基于 tokenizer 實現的。我們之前嘗試了很長時間,效果不佳,但解決了 tokenizer 問題後,LLM 的生成效果完全不同了,現在的 tokenizer 還可以變得更好,一定能產生更卓越的效果。
00:00
/
00:05
>海外獨角獸:要做出好的 tokenizer 最大的難點是什麼?Magvit V2 的成功主要突破了哪些難點?
Lu Jiang:難點主要是壓縮問題,語言模型的邏輯是壓縮器,但視頻序列相比文本來說信息量太大,現在的 LLM 更适配于自然語言的處理,雖然現在很多模型說自己能處理更長的 context,但這是建立在文本數據的前提上。文本中的依賴關系較弱,可能偶爾有些詞匯存在依賴關系,但視頻中依賴關系要強很多。
所以如果要讓 LLM 表現好,需要把 sequence length 壓縮到一個合理的範圍内,難點在于怎麼設計壓縮。有個領網域叫 Neural Compression,專門研究怎麼把視頻壓縮到一個很小的内存上。有一類觀點是"壓縮得越好,生成得越好",其實不是,可能現在我們還沒理解這兩者的聯系。壓縮不僅要追求壓縮率,還要保證壓縮後能把高質量的信息準确傳遞給 language model,我們攻堅的也是這個問題。
我們花了 3 年半的積累才最終設計出現在的 tokenizer,在2021年做影像生成的時候,我們就發現 tokenizer 就是很關鍵的環節,這裡有很多技術細節,也包括一些 GAN 的東西、怎麼評估壓縮效果等,都是需要去攻克的,還有個難點是怎麼判斷壓縮得好還是不好,我們團隊也是做了上千組的實驗才找到方向。
海外獨角獸:和文字相比,視頻數據體量很大、但信息密度低,模型處理起來也很困難,這個問題要如何解決?tokenizer 也會在這個環節發揮作用嗎?
Lu Jiang:如果做視頻理解,只需把關鍵信息拆出來就可以壓縮得很小,但問題在于如果要做生成,怎麼把細節重構出來?只靠幾個字是不夠的。
Spae 這篇論文中就意識到了這個問題,裡面的思想我認為很好。Spae 提了一個叫做"金字塔結構"的方法,在壓縮的時候就呈現成一個"金字塔",上層保留核心語義信息,越往下越細節,如果做理解相關的任務,只需要取上面層的數據就可以,如果進行視頻生成,可以向下移動到金字塔的更深層,因為需要恢復細節。
這個方向很有趣、很值得進一步探索,因為任務對表示的細節有不同的需求。例如,對于高清視頻壓縮任務,壓縮後的表示必須能很好地重構并展示所有細節,用于生成的表示也必須保留足夠的細節,方便後續高質量地重建内容。
Spae:Google 和 CMU 在 2023 年聯合發布的基于 LLM 的多模态語義金字塔自編碼生成模型,Spae 實現了一種向量化的映射器,将圖片這類非文本的多模态信息先編碼映射到大語言模型的詞匯空間中,實現圖片到文本轉譯,再通過金字塔形逐層細化的圖片文本轉譯,從而實現對圖片的文本化精确理解。
Tokenizer 的另外一個價值在端側,現在大家都在提"未來是 on-device 的天下",要真正做到這一點也需要 tokenizer 的加入。
用 Magvit V2 舉例,如果不把它看成生成模型,看作是一個壓縮模型,它把視頻壓縮成一系列離散的語義 token,這些 token 再轉換回視頻,就完成了壓縮和解壓的過程。從壓縮比來看,這種方法已經超過了當前主流的 H265,接近下一代視頻編解碼标準 H266 的性能。
對于 on-device 來說,我認為這個特性相當重要。我們進行視頻的修改,是從視頻解碼這個環節開始,再把解碼後的 code 放在内存,再通過一套方法生成,鏈條會特别長。但如果從 token 開始,首先在存儲上的要求變得更友好了,其次,節省了很多前序處理的環節和内存,直接拿到的就是模型需要的東西,然後再直接輸出。
在這個模型裡,生成和顯示或許是同一件事,模型可以直接輸出顯示的視頻,也可以直接用于生成新的内容,比如視頻從橫屏變成豎屏可以瞬間完成,因為對于生成來說,它在做渲染的時候也可以生成,而不是抽成兩個模型來做,所以接下來視頻的修改會變得非常容易,在未來競争中也會變成重要武器,因為 tokenizer 實現了本質上的速度提升。
海外獨角獸:從 token 開始處理視頻意味着在視頻的解編碼模式在未來也會被替代?
Lu Jiang:理論上可以,但需要長遠的發展,模型越做越好肯定會超過,但受制于一些實際應用層面的問題,這些問題還需要再優化,比如 token 邏輯下 neural network decoding 的速度是個瓶頸,還未涉及到 CPU 的優化等等,有很多類似技術上的考量。但我覺得社區能持續做優化,這件事就是非常有可能的。
另外當前是因為視頻解碼編碼已經有一套固化的 infra 了,新東西如果想改變它,就必須比它好很多倍。可能到下一代,視頻的生成和顯示是一體的,這就是本質上的上升,人們在玩手機上編輯視頻可以是瞬間的,就可以把一些顯示出來、一些生成出來,或者混着去做,這是現在的解編碼的壓縮還是無法做到的。
海外獨角獸:VideoPoet 現在已經可以實現了一些可控性,如果想讓可控性更強,比如通過對話就可以實現精準控制和生成、甚至具有前面提到的 intelligence,還需要做哪些突破?
Lu Jiang:我一點也不擔心精準控制的問題,因為這是典型的下遊的問題,只要 foundation model 越好,下遊研究和應用的效果就會更好,比如基于 SVD 做視頻生成不再是基于每一幀殘影的 slide generation。我們開源社區的創造力非常另人贊嘆,到後面各種各樣有趣的應用都會實現(故事生成)。
也有人認為不同的 foundation model 有自己的特點,可能有的問題在新的 foundation model 上就不存在了。舉個例子,StyleDrop 作者在 Muse 模型和 stable diffusion 上都嘗試 StyleDrop 的工作,Muse 模型本身就能表現得非常好,但 stable diffusion 需要做進行大量調整,且最終效果也不夠理想。
StyleDrop:Text-to-Image Generation in Any Style研究的核心結果,是一種通過文本到影像模型實現忠實地遵循特定風格的影像合成方法。StyleDrop 能夠捕捉用戶提供的風格的微妙細節,如顏色方案、陰影、設計模式以及局部和全局效果。它通過微調極少量的可訓練參數(占總模型參數的少于百分之幾)并通過與人工或自動反饋的迭代訓練來提高質量,高效地學習新的風格。即使用戶只提供了一張指定所需風格的單一影像,StyleDrop 也能夠產生較好的結果。
海外獨角獸:VideoPoet 未來有什麼產品方向的計劃?
Lu Jiang:VideoPoet 可能會選擇以某種產品的方式跟大家見面,比如 API 或者集成到 Google 的現在現有產品的生态圈。
海外獨角獸:視頻生成的 foundation model 存在我們在語言模型中看到的 scaling law 嗎?當架構和技術路線确定後,競争的關鍵是否就成了數據、模型的scale問題?
Lu Jiang:我們論文有一些關于 scalling 的内容可以作為參考:
随着模型規模的增長和訓練數據量的增加,性能會有所提升。Video Poet 訓練了具有 3 億、10 億和 80 億參數的語言模型,分别在包含 10 億、37 億和 58 億視覺和視聽 token 的數據集上進行訓練。增加模型規模提高了時間一致性、提示保真度和運動動态性,同時增加了有限文本渲染、空間理解和計數的能力。
通常來說,大公司相比創業公司,在數據方面限制更多。但與此同時,數據規模和模型規模應該匹配。小模型配大數據集可以工作,但大模型配小數據集一般不行。最理想的情況還是大模型配大數據集。
所以 stable diffusion 其實還沒有成功地 scale,可能它的數據已經很多了,但如果能做到 scale 可能會發揮更多實力,相比起來,我們的觀察是 transformer scale 起來更容易,而且 transformer 有很多現成的學習配方(learning recipes)。
海外獨角獸:在 LLM 路線上,視頻生成要做到較高質量,需要的 GPU 是什麼量級?
Lu Jiang:目前視頻生成方案還不夠穩定,仍需要繼續探索一個不同的模型,還不到某個質量階段化,具體的需求就很難去講,現在這個階段過早地做模型的 scale 可能也不是最合适的,但 tokenize 之後的視頻其實是存儲友好的,因為它實際上和文本一樣都是 token,不過壓縮的長度更長,這可能是之後研究的一個核心。
03.
視頻領網域的 GPT 時刻
海外獨角獸:你會如何定義視頻生成的 "ChatGPT 時刻",什麼時候會到來?
Lu Jiang:視頻生成的"ChatGPT 時刻",我覺得大概是,哪怕模型生成的還是比較短的片段,比如 2-5s,但這個生成是可控的,人類也很難分辨是 AI 生成還是人類制作。從用戶角度,只需要幾美分的代價,就能獲得一個可以被送到好萊塢專業 studio 的試映片。如果類比的話,可以類比到影像領網域 stable diffusion 1.x 或 2.x 版本,肯定還有再提升的空間,但已經到了能使用的程度,而且能激發很多應用。
我的預測是,到 2024 年底或 2025 年初,我們可能會到這個時刻。并且我認為,實現這個時刻肯定也需要 diffusion 參與,并且 diffusion 在未來一段時間,比如 1 到 2 年内,可能仍然是主流,扮演很重要的角色。這裡說的 diffusion 已經包含了 transformer。
"ChatGPT 時刻"意味着模型到了一個相對穩定的階段,但後面還會再改,只不過是在這個基礎上做小的改動,可能一開始版本只能做到逼近好萊塢,有一些缺點,但可以商業化運用了,但要達到真正穩定需要更長時間。随後還可能仍會迭代更新。
現在市場上所有的視頻生成都達不到這個标準,所以我認為視頻生成的方法可能還需要進一步迭代,有可能要達到"ChatGPT 時刻"需要新的模型和方法,它不一定是全新的模型或者架構,可能是現在市場上的某個技術路線或者方案再往前走一步。
海外獨角獸:視頻生成技術會和文生圖一樣 commoditize 嗎?如果選擇 LLM 的路線,是不是會更容易拉開差距?因為資源、能力、技術壁壘帶來的差距會更大?
Lu Jiang:我覺得可能會和 image 很像,但取決于幾點:
開源社區也有很好的 LLM 作為支持,如果想做也可以走這條路線,但重點還是要攻克 tokenizer 技術,我相信會慢慢趕上。
視頻生成的主要競争力可能在于數據上。因為視頻是版權保護最嚴格的,當前大部分視頻平台要花很多價錢去購買版權或與視頻創作者去分享利潤。
未來總會有部分人實現更先進的技術,并影響整個領網域,可能會有一個提前量,幾個月或者一年,但總會有人追趕上來,我覺得可能最終關鍵不是看技術,而是怎麼把技術放到用戶的手裡。Midjourney 就是一個典型,Midjourney 已經做得很成功了,但是其實它可能不是一個很好的產品,因為其很容易被替代。所以更核心的是怎麼把同一套技術更好地放到產品裡。
Video 和 image 還有一個非常大的區别,視頻具有更廣泛的應用場景,用戶在視頻上花的時間要比影像多非常非常多,所以視頻領網域的 foundation model 可能有很大潛力衍生出新的商業模式,就像短視頻的模式對視頻的改變一樣,短視頻從技術上講是很小的改變,但創造了一個新的模式,所以視頻生成的潛力有可能會更大。
海外獨角獸:我們也經常讨論這個問題,視頻生成其實相當于把拍攝和後期的很多過程省掉了,能夠影響的產業很多。
Lu Jiang:降低視頻制作成本還只是視頻生成發展的起步階段,接下來的方向可能會是所謂的 "personalized movie",模型根據每個人的背景、想法生成個性化的結果。
再比如現在大家看短視頻是随着"下劃",推薦算法會幫忙"找"出更符合用戶興趣的内容,也許在生成技術足夠成熟的時候,随着用戶劃動,系統會自動生成他們更想看的内容,這是一種真正意義上的變革。
海外獨角獸:為什麼最近半年視頻生成領網域成為熱點、甚至有"井噴式的重復"的感覺?
Lu Jiang:一方面是因為這個領網域逐漸成為關注熱點,越來越多研究力量湧入。另一方面也因為現在技術發展很快,但當前大家技術路線和方法差異不大,模型框架基本上都是基于 stable diffusion,主要就是數據和模型細節上的比拼,所以會出現大量"井噴"的工作,做的早的團隊有一定優勢,但技術更替很快,也很容易被追上。如果技術上有長足的創新,可能就會一下子拉開差距。
海外獨角獸:能夠在技術上做到實質性突破的團隊畫像是什麼樣的?需要 Ilya 之于 OpenAI 這樣方向領袖型的人?還是團隊一起突破?
Lu Jiang:目前階段如果要實現一些突破性只靠一兩個人是不行的,但是也不需要很多人,可能核心人員 4-5 個左右、再加上一些支持性角色就可以實現。現在 diffusion 其實很大程度上都受益于 Jonathan Ho 等關鍵科學家的研究。
我非常欽佩早年推廣 diffusion 的學者,比如 Google 内部的 Imagen 和 David J. Fleet 的團隊,他們 diffusion 這條一路走過來很艱難,他們從 16 年開始,當時大家都不看好,因為當時 diffusion 比 GAN 質量差非常遠,又慢 1000 倍,但是他們就一直堅持做,直到真正把 diffusion 變成主流。我覺得有自己有信仰是科學家一個非常崇高的品質。
技術并不成熟的時候,是需要由領袖人物來做出重要突破的,但現在不一樣的一點是資源分配很不公平,所以現在可能需要一個非常有能力的團隊,以及充足的計算資源和 support 來不斷創新。
另外,視頻生成相對特殊的一點是,需要大量的計算資源。從事機器學習的人大多數是專注于影像領網域,做 text 或 image,而視頻相對較少,因為視頻領網域的計算力門檻相對較高。但是視頻有自己的一些邏輯和理論内在的東西。如果在這視頻方面有經驗,這些經驗是可以大量遷移的,可能能用很少的計算資源找到一個好方向。如果計算資源有限,有經驗的人能更合理地設計,把每件事都想到極致。
海外獨角獸:你在研究過程中有遇到什麼困難嗎?
Lu Jiang:在2022年,我們在做 Magvit 的時候,當時 Google 有另外兩個重點項目,Phenaki 和 Imagen Video,我們的團隊規模非常小,能夠使用的 Google 計算資源也非常有限,可能和大學的 lab 一樣,差不多是其他項目的 1% 左右。當時,這些團隊都在做 text-to-video,我們忍痛放棄,并且最終決定開發 video-to-video也就是Magvit。最終,在條件非常有限的情況下,我們從 benchmark 上是顯著高于 Phenaki 的,這個過程中我的壓力很大,我的家人也給了我很多支持。
我認為這就是因為我們自己的經驗和方法,在設計過程能節省很多計算資源。我已經在視頻領網域工作了十多年,我們也有一套自己的方法論,比如怎麼提升性能,我們在視頻處理上已經掌握了大量 know-how,這些可以在不同的項目中遷移。
海外獨角獸:你在視頻領網域做研究十多年,這種熱情源自于哪裡?
Lu Jiang:主要還是科研上的熱愛,我對視頻的熱愛主要體現在我一直以來的科研工作上。我大部分時間都在處理視頻相關的問題。我研究的領網域屬于 multi-media 科學領網域,是多模态科學領網域。
我個人很喜歡看視頻(YouTube, B站等等),和解決視頻領網域的問題,在這個領網域也投入了很多時間。例如一些設計,我想能夠想出來,也只是因為我在這個領網域的時間相對較長。