北大字節開辟影像生成新範式！超越Sora核心組件DiT，不再預測下一個token - 大酷樂

今天小編分享的科學經驗：北大字節開辟影像生成新範式！超越Sora核心組件DiT，不再預測下一個token，歡迎閲讀。

魚羊發自凹非寺

量子位 | 公眾号 QbitAI

北大和字節聯手搞了個大的：

提出影像生成新範式，從預測下一個 token 變成預測下一級分辨率，效果超越 Sora 核心組件 Diffusion Transformer（DiT）。

并且代碼開源，短短幾天已經攬下 1.3k 标星，登上 GitHub 趨勢榜。

具體是個什麼效果？

實驗數據上，這個名為VAR（Visual Autoregressive Modeling）的新方法不僅影像生成質量超過 DiT 等傳統 SOTA，推理速度也提高了 20+ 倍。

這也是自回歸模型首次在影像生成領網域擊敗 DiT。

直觀感受上，話不多説，直接看圖：

值得一提的是，研究人員還在 VAR 上，觀察到了大語言模型同款的 Scaling Laws 和零樣本任務泛化。

論文代碼上線，已經引發不少專業讨論。

有網友表示有被驚到，頓時覺得其他擴散架構的論文有點索然無味。

還有人認為，這是一種通向 Sora 的更便宜的潛在途徑，計算成本可降低一個乃至多個數量級。

預測下一級分辨率

簡單來説，VAR 的核心創新，就是用預測下一級分辨率，替代了預測下一個 token的傳統自回歸方法。

VAR 的訓練分為兩個階段。

第一階段，VAR 引入了多尺度離散表示，使用 VQ-VAE 将連續影像編碼為一系列離散的 token map，每個 token map 有不同的分辨率。

第二階段，主要是對 VAR Transformer 的訓練，通過預測更高分辨率的影像，來進一步優化模型。具體過程是這樣的：

從最低分辨率（比如 1 × 1）的 token map 開始，預測下一級分辨率（比如 4 × 4）的完整 token map，并以此類推，直到生成最高分辨率的 token map（比如 256 × 256）。在預測每個尺度的 token map 時，基于 Transformer，模型會考慮之前所有步驟生成的映射信息。

在第二階段中，之前訓練好的 VQ-VAE 模型發揮了重要作用：為 VAR 提供了 " 參考答案 "。這能幫助 VAR 更準确地學習和預測影像。

另外，在每個尺度内，VAR 是并行地預測所有位置的 token，而不是線性逐個預測，這大大提高了生成效率。

研究人員指出，采用這樣的方法，VAR 更符合人類視覺感知從整體到局部的特點，并能保留影像的空間局部性。

符合 Scaling Laws

從實驗結果來看，在影像生成質量、推理速度、數據效率和可擴展性等方面，VAR 都超過了 DiT。

在 ImageNet 256 × 256 上，VAR 将 FID 從 18.65 降到了 1.8，IS 從 80.4 提高到 356.4，顯著改善了自回歸模型基線。

注：FID 越低，説明生成影像的質量和多樣性越接近真實影像。

推理速度方面，相較于傳統自回歸模型，VAR 實現了約 20 倍的效率提升。而 DiT 消耗的時間是 VAR 的 45 倍。

數據效率方面，VAR 只需要 350 個訓練周期（epoch），遠少于 DiT-XL/2 的 1400 個。

可擴展性方面，研究人員觀察到 VAR 有類似于大語言模型的 Scaling Laws：随着模型尺寸和計算資源的增加，模型性能持續提升。

另外，在影像修補、擴展和編輯等下遊任務的零樣本評估中，VAR 表現出了出色的泛化能力。

目前，在 GitHub 倉庫中，推理示例、demo、模型權重和訓練代碼均已上線。

不過，在更多讨論之中，也有網友提出了一些問題：

VAR 不如擴散模型靈活，并且在分辨率上存在擴展問題。

北大字節聯合出品

VAR 的作者們，來自字節跳動 AI Lab 和北大王立威團隊。

一作田柯宇，本科畢業自北航，目前是北大 CS 研究生，師從北京大學信息科學技術學院教授王立威。2021 年開始在字節 AI Lab 實習。

論文通訊作者，是字節跳動 AI Lab 研究員袁澤寰和王立威。

袁澤寰 2017 年博士畢業于南京大學，目前專注于計算機視覺和機器學習研究。王立威從事機器學習研究 20 餘年，是首屆 " 優青 " 得主。

該項目的項目主管，是字節跳動廣告生成 AI 研究主管 Yi jiang。他碩士畢業于浙江大學，目前的研究重點是視覺基礎模型、深度生成模型和大語言模型。

參考鏈接：

[ 1 ] 論文：https://arxiv.org/abs/2404.02905

[ 2 ] 項目主頁：https://github.com/FoundationVision/VAR