北大字节开辟影像生成新范式！超越Sora核心组件DiT，不再预测下一个token - 大酷樂

今天小编分享的科学经验：北大字节开辟影像生成新范式！超越Sora核心组件DiT，不再预测下一个token，欢迎阅读。

鱼羊发自凹非寺

量子位 | 公众号 QbitAI

北大和字节联手搞了个大的：

提出影像生成新范式，从预测下一个 token 变成预测下一级分辨率，效果超越 Sora 核心组件 Diffusion Transformer（DiT）。

并且代码开源，短短几天已经揽下 1.3k 标星，登上 GitHub 趋势榜。

具体是个什么效果？

实验数据上，这个名为VAR（Visual Autoregressive Modeling）的新方法不仅影像生成质量超过 DiT 等传统 SOTA，推理速度也提高了 20+ 倍。

这也是自回归模型首次在影像生成领網域击败 DiT。

直观感受上，话不多说，直接看图：

值得一提的是，研究人员还在 VAR 上，观察到了大语言模型同款的 Scaling Laws 和零样本任务泛化。

论文代码上线，已经引发不少专业讨论。

有网友表示有被惊到，顿时觉得其他扩散架构的论文有点索然无味。

还有人认为，这是一种通向 Sora 的更便宜的潜在途径，计算成本可降低一个乃至多个数量级。

预测下一级分辨率

简单来说，VAR 的核心创新，就是用预测下一级分辨率，替代了预测下一个 token的传统自回归方法。

VAR 的训练分为两个阶段。

第一阶段，VAR 引入了多尺度离散表示，使用 VQ-VAE 将连续影像编码为一系列离散的 token map，每个 token map 有不同的分辨率。

第二阶段，主要是对 VAR Transformer 的训练，通过预测更高分辨率的影像，来进一步优化模型。具体过程是这样的：

从最低分辨率（比如 1 × 1）的 token map 开始，预测下一级分辨率（比如 4 × 4）的完整 token map，并以此类推，直到生成最高分辨率的 token map（比如 256 × 256）。在预测每个尺度的 token map 时，基于 Transformer，模型会考虑之前所有步骤生成的映射信息。

在第二阶段中，之前训练好的 VQ-VAE 模型发挥了重要作用：为 VAR 提供了 " 参考答案 "。这能帮助 VAR 更准确地学习和预测影像。

另外，在每个尺度内，VAR 是并行地预测所有位置的 token，而不是线性逐个预测，这大大提高了生成效率。

研究人员指出，采用这样的方法，VAR 更符合人类视觉感知从整体到局部的特点，并能保留影像的空间局部性。

符合 Scaling Laws

从实验结果来看，在影像生成质量、推理速度、数据效率和可扩展性等方面，VAR 都超过了 DiT。

在 ImageNet 256 × 256 上，VAR 将 FID 从 18.65 降到了 1.8，IS 从 80.4 提高到 356.4，显著改善了自回归模型基线。

注：FID 越低，说明生成影像的质量和多样性越接近真实影像。

推理速度方面，相较于传统自回归模型，VAR 实现了约 20 倍的效率提升。而 DiT 消耗的时间是 VAR 的 45 倍。

数据效率方面，VAR 只需要 350 个训练周期（epoch），远少于 DiT-XL/2 的 1400 个。

可扩展性方面，研究人员观察到 VAR 有类似于大语言模型的 Scaling Laws：随着模型尺寸和计算资源的增加，模型性能持续提升。

另外，在影像修补、扩展和编辑等下游任务的零样本评估中，VAR 表现出了出色的泛化能力。

目前，在 GitHub 仓库中，推理示例、demo、模型权重和训练代码均已上线。

不过，在更多讨论之中，也有网友提出了一些问题：

VAR 不如扩散模型灵活，并且在分辨率上存在扩展问题。

北大字节联合出品

VAR 的作者们，来自字节跳动 AI Lab 和北大王立威团队。

一作田柯宇，本科毕业自北航，目前是北大 CS 研究生，师从北京大学信息科学技术学院教授王立威。2021 年开始在字节 AI Lab 实习。

论文通讯作者，是字节跳动 AI Lab 研究员袁泽寰和王立威。

袁泽寰 2017 年博士毕业于南京大学，目前专注于计算机视觉和机器学习研究。王立威从事机器学习研究 20 余年，是首届 " 优青 " 得主。

该项目的项目主管，是字节跳动广告生成 AI 研究主管 Yi jiang。他硕士毕业于浙江大学，目前的研究重点是视觉基础模型、深度生成模型和大语言模型。

参考链接：

[ 1 ] 论文：https://arxiv.org/abs/2404.02905

[ 2 ] 项目主页：https://github.com/FoundationVision/VAR

熱門排行

王治郅：杨瀚森主要的问题是速度他的速度跟郟君昊 | 2025-05-05
贸易战烧进电影院：特朗普拟重税打击外国电影習又夏 | 2025-05-05
贷款追高炒黄金的人后悔了！有人一天亏掉6年寸飛蘭 | 2025-05-05
手机电池突破8000mAh？硅碳技术的回旋镖：「折衛青柏 | 2025-05-05
贷款追高炒黄金的人后悔了！有人一天亏掉6年繁綺文 | 2025-05-05
任天堂对Genki提起Switch 2商标侵权诉讼，后郜萌運 | 2025-05-05
哪吒汽车APP和官网恢复正常知情人士：之前断袁曼雁 | 2025-05-05
极越汽车 CEO 夏一平名下青岛/义乌两家公司集玲琳 | 2025-05-05
全国经济第一大省明确，推动组建农商联合银行佼昌翰 | 2025-05-05
桑保利：亚马尔有配合意识&有点像梅西姆巴佩甄正浩 | 2025-05-05
高露现身上海虹桥机场黑色外套点缀亮色爱惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：处理器更新为天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懒癌”发病率上升，定期体检别忽视幸聽楓 | 2023-05-02
宋慧乔获百想视后韩素希发图手动加爱心表賁芳蕤 | 2023-05-02
曹操墓，里面都有啥？衛青柏 | 2023-05-02
十年了，他们终于要HE！惠惠君 | 2023-05-07
中央部署经济工作，释放5大信号郜萌運 | 2023-05-02
高德上线手机弯道会车预警功能習又夏 | 2023-05-02
陈自瑶抱病为爱女做蛋糕庆生，王浩信点赞没露賁芳蕤 | 2023-05-02
等比例长大的童星，李兰迪算一个郟君昊 | 2023-05-02
这些被抓来做实验的流浪狗，最终拯救了无数糖集玲琳 | 2023-05-02
高端国产车：军车血统，目前电动车越野的“天花謝飛揚 | 2023-05-02
《云襄传》终于抬上来啦，男O女A让人好上头！集玲琳 | 2023-05-02
21家A股游戏公司2022年收入651亿今年“游衛青柏 | 2023-05-04
信用风险释放趋缓，结构性风险需重点关注 — 袁曼雁 | 2023-05-02
与周立波夫妇闹纠纷成老赖，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
普京签署总统令，批准对俄刑法典相关法条的修集玲琳 | 2023-05-02
解除资格！停止一切合作佼昌翰 | 2023-05-02
中银证券给予南京银行增持评级袁曼雁 | 2023-05-03
3699起联想小新mini主机上架 13代酷睿标压習又夏 | 2023-05-05
前董事长被免，天山生物全面进入“中植系”时惠惠君 | 2023-05-02
疯成这样，怎么还能被全网吹捧？郜萌運 | 2023-05-02
狂吼11次“让一下”！交警咆哮开道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收购美国第一共和银行謝飛揚 | 2023-05-02
台剧赢麻了，又来一部8.9 衛青柏 | 2023-05-02
事关农村土地承包和农民权益，《农村土地承包郟君昊 | 2023-05-02
下降45分，上涨35分！34所自划线院校复试分数线袁曼雁 | 2023-05-07
"三高"已盯上青少年，做好这件事是关键習又夏 | 2023-05-05
五一档没一个能打的集玲琳 | 2023-05-05
恐怖韩剧下神坛，这次胆小可入袁曼雁 | 2023-05-05
这剧是不是用ChatGPT写的呀？惠惠君 | 2023-05-02
200户连夜疏散，原因让人愤怒！“损失超一亿”，袁曼雁 | 2023-05-03
性骚扰惯犯，滚出娱乐圈謝飛揚 | 2023-05-05
48岁何炅自曝已老花眼，黄磊睡前认老，《向往的佼昌翰 | 2023-05-02
一个《长月烬明》倒了，《狐妖》《长相思》《惠惠君 | 2023-05-02
张天爱假期晒“酷”存照卷发披肩穿黑色吊嬴覓晴 | 2023-05-02
当年轻人开始不随份子钱袁曼雁 | 2023-05-02
毕滢用8年时间成功逼宫？曾被传已婚生子的她，幸聽楓 | 2023-05-03
宋慧乔获视后首次晒照，拿奖杯笑容温柔郜萌運 | 2023-05-02