今天小編分享的科學經驗:北大字節開辟影像生成新範式!超越Sora核心組件DiT,不再預測下一個token,歡迎閱讀。
魚羊 發自 凹非寺
量子位 | 公眾号 QbitAI
北大和字節聯手搞了個大的:
提出影像生成新範式,從預測下一個 token 變成預測下一級分辨率,效果超越 Sora 核心組件 Diffusion Transformer(DiT)。
并且代碼開源,短短幾天已經攬下 1.3k 标星,登上 GitHub 趨勢榜。
具體是個什麼效果?
實驗數據上,這個名為VAR(Visual Autoregressive Modeling)的新方法不僅影像生成質量超過 DiT 等傳統 SOTA,推理速度也提高了 20+ 倍。
這也是自回歸模型首次在影像生成領網域擊敗 DiT。
直觀感受上,話不多說,直接看圖:
值得一提的是,研究人員還在 VAR 上,觀察到了大語言模型同款的 Scaling Laws 和零樣本任務泛化。
論文代碼上線,已經引發不少專業讨論。
有網友表示有被驚到,頓時覺得其他擴散架構的論文有點索然無味。
還有人認為,這是一種通向 Sora 的更便宜的潛在途徑,計算成本可降低一個乃至多個數量級。
預測下一級分辨率
簡單來說,VAR 的核心創新,就是用預測下一級分辨率,替代了預測下一個 token的傳統自回歸方法。
VAR 的訓練分為兩個階段。
第一階段,VAR 引入了多尺度離散表示,使用 VQ-VAE 将連續影像編碼為一系列離散的 token map,每個 token map 有不同的分辨率。
第二階段,主要是對 VAR Transformer 的訓練,通過預測更高分辨率的影像,來進一步優化模型。具體過程是這樣的:
從最低分辨率(比如 1 × 1)的 token map 開始,預測下一級分辨率(比如 4 × 4)的完整 token map,并以此類推,直到生成最高分辨率的 token map(比如 256 × 256)。在預測每個尺度的 token map 時,基于 Transformer,模型會考慮之前所有步驟生成的映射信息。
在第二階段中,之前訓練好的 VQ-VAE 模型發揮了重要作用:為 VAR 提供了 " 參考答案 "。這能幫助 VAR 更準确地學習和預測影像。
另外,在每個尺度内,VAR 是并行地預測所有位置的 token,而不是線性逐個預測,這大大提高了生成效率。
研究人員指出,采用這樣的方法,VAR 更符合人類視覺感知從整體到局部的特點,并能保留影像的空間局部性。
符合 Scaling Laws
從實驗結果來看,在影像生成質量、推理速度、數據效率和可擴展性等方面,VAR 都超過了 DiT。
在 ImageNet 256 × 256 上,VAR 将 FID 從 18.65 降到了 1.8,IS 從 80.4 提高到 356.4,顯著改善了自回歸模型基線。
注:FID 越低,說明生成影像的質量和多樣性越接近真實影像。
推理速度方面,相較于傳統自回歸模型,VAR 實現了約 20 倍的效率提升。而 DiT 消耗的時間是 VAR 的 45 倍。
數據效率方面,VAR 只需要 350 個訓練周期(epoch),遠少于 DiT-XL/2 的 1400 個。
可擴展性方面,研究人員觀察到 VAR 有類似于大語言模型的 Scaling Laws:随着模型尺寸和計算資源的增加,模型性能持續提升。
另外,在影像修補、擴展和編輯等下遊任務的零樣本評估中,VAR 表現出了出色的泛化能力。
目前,在 GitHub 倉庫中,推理示例、demo、模型權重和訓練代碼均已上線。
不過,在更多讨論之中,也有網友提出了一些問題:
VAR 不如擴散模型靈活,并且在分辨率上存在擴展問題。
北大字節聯合出品
VAR 的作者們,來自字節跳動 AI Lab 和北大王立威團隊。
一作田柯宇,本科畢業自北航,目前是北大 CS 研究生,師從北京大學信息科學技術學院教授王立威。2021 年開始在字節 AI Lab 實習。
論文通訊作者,是字節跳動 AI Lab 研究員袁澤寰和王立威。
袁澤寰 2017 年博士畢業于南京大學,目前專注于計算機視覺和機器學習研究。王立威從事機器學習研究 20 餘年,是首屆 " 優青 " 得主。
該項目的項目主管,是字節跳動廣告生成 AI 研究主管 Yi jiang。他碩士畢業于浙江大學,目前的研究重點是視覺基礎模型、深度生成模型和大語言模型。
參考鏈接:
[ 1 ] 論文:https://arxiv.org/abs/2404.02905
[ 2 ] 項目主頁:https://github.com/FoundationVision/VAR