北大字節開辟影像生成新範式！超越Sora核心組件DiT，不再預測下一個token

今天小編分享的科學經驗：北大字節開辟影像生成新範式！超越Sora核心組件DiT，不再預測下一個token，歡迎閱讀。

魚羊發自凹非寺

量子位 | 公眾号 QbitAI

北大和字節聯手搞了個大的：

提出影像生成新範式，從預測下一個 token 變成預測下一級分辨率，效果超越 Sora 核心組件 Diffusion Transformer（DiT）。

并且代碼開源，短短幾天已經攬下 1.3k 标星，登上 GitHub 趨勢榜。

具體是個什麼效果？

實驗數據上，這個名為VAR（Visual Autoregressive Modeling）的新方法不僅影像生成質量超過 DiT 等傳統 SOTA，推理速度也提高了 20+ 倍。

這也是自回歸模型首次在影像生成領網域擊敗 DiT。

直觀感受上，話不多說，直接看圖：

值得一提的是，研究人員還在 VAR 上，觀察到了大語言模型同款的 Scaling Laws 和零樣本任務泛化。

論文代碼上線，已經引發不少專業讨論。

有網友表示有被驚到，頓時覺得其他擴散架構的論文有點索然無味。

還有人認為，這是一種通向 Sora 的更便宜的潛在途徑，計算成本可降低一個乃至多個數量級。

預測下一級分辨率

簡單來說，VAR 的核心創新，就是用預測下一級分辨率，替代了預測下一個 token的傳統自回歸方法。

VAR 的訓練分為兩個階段。

第一階段，VAR 引入了多尺度離散表示，使用 VQ-VAE 将連續影像編碼為一系列離散的 token map，每個 token map 有不同的分辨率。

第二階段，主要是對 VAR Transformer 的訓練，通過預測更高分辨率的影像，來進一步優化模型。具體過程是這樣的：

從最低分辨率（比如 1 × 1）的 token map 開始，預測下一級分辨率（比如 4 × 4）的完整 token map，并以此類推，直到生成最高分辨率的 token map（比如 256 × 256）。在預測每個尺度的 token map 時，基于 Transformer，模型會考慮之前所有步驟生成的映射信息。

在第二階段中，之前訓練好的 VQ-VAE 模型發揮了重要作用：為 VAR 提供了 " 參考答案 "。這能幫助 VAR 更準确地學習和預測影像。