何恺明新作：简单框架达成无条件影像生成新SOTA！与MIT合作完成 - 大酷樂

今天小编分享的科学经验：何恺明新作：简单框架达成无条件影像生成新SOTA！与MIT合作完成，欢迎阅读。

大佬何恺明还未正式入职 MIT，但和 MIT 的第一篇合作研究已经出来了：

他和 MIT 师生一起开发了一个自条件影像生成框架，名叫 RCG（代码已开源）。

这个框架结构非常简单但效果拔群，直接在 ImageNet-1K 数据集上实现了无条件影像生成的新 SOTA。

它生成的影像不需要任何人类注释（也就是提示词、类标签什么的），就能做到既保真又具有多样性。

这样的它不仅显著提高了无条件影像生成的水平，还能跟当前最好的条件生成方法一较高下。

用何恺明团队自己的话来说：

有条件和无条件生成任务之间长期存在的性能差距，终于在这一刻被弥补了。

那么，它究竟是如何做到的呢？

类似自监督学习的自条件生成

首先，所谓无条件生成，就是模型在没有输入信号帮助的情况下直接捕获数据分布生成内容。

这种方式比较难以训练，所以一直和条件生成有很大性能差距——就像无监督学习比不过监督学习一样。

但就像自监督学习的出现，扭转了这一局面一样。

在无条件影像生成领網域，也有一个类似于自监督学习概念的自条件生成方法。

相比传统的无条件生成简单地将噪声分布映射到影像分布，这种方法主要将像素生成过程設定在从数据分布本身导出的表示分布上。

它有望超越条件影像生成，并推动诸如分子设计或药物发现这种不需要人类给注释的应用往前发展（这也是为什么条件生成影像发展得这么好，我们还要重视无条件生成）。

现在，基于这个自条件生成概念，何恺明团队首先开发了一个表示扩散模型 RDM。

它主要用于生成低维自监督影像表示，方法是通过自监督影像编码器从影像中截取：

它的核心架构如下：

首先是输入层，它负责将表征投射到隐藏维度 C，接着是 N 个全连接块，最后是一个输出层，负责把隐藏层的潜在特征重新投射（转换）到原始表征维度。

其中每一层都包含一个 LayerNorm 层、一个 SiLU 层以及一个线性层。

这样的 RDM 具有两个优点：

一是多样性强，二是计算开销小。

接着，利用 RDM，团队就提出了今天的主角：表示条件影像生成架构 RCG。

它是一个简单的自条件生成框架，由三个组件组成：

一个是 SSL 影像编码器，用于将影像分布转换为紧凑的表示分布。

一个是 RDM，用于对该分布进行建模和采样。

最后是一个像素生成器 MAGE，用于根据表示来处理影像像。

MAGE 的工作方式主要是向 token 化的影像中添加随机掩码，并要求网络以从同一影像中提取的表示为条件来重建丢失的 token。

最终，测试表明，这个自条件生成框架虽结构简单但效果非凡：

在 ImageNet 256 × 256 上，RCG 实现了3.56 的 FID 和 186.9 的 IS（Inception Score）得分。

相比之下，在它之前最厉害的无条件生成方法 FID 分数为 7.04，IS 得分为 123.5。

以及，相比条件生成，RCG 也丝毫不逊色，可以达到相当甚至超过该领網域基准模型的水平。

最后，在无分类器引导的情况下，RCG 的成绩还能进一步提高到 3.31（FID）和 253.4（IS）。

团队表示：

这些结果表明，自条件影像生成模型拥有巨大潜力，可能预示这一领網域新时代的到来。

团队介绍

本文一共三位作者：

一作是 MIT 博士生黎天鸿，本科毕业于清华姚班，研究方向为跨模态集成传感技术。

他的主页很有意思，还专门放了一个菜谱合集——做研究和做饭是他最热爱的两件事。

另一位作者是 MIT 电气工程与计算机科学系（EECS）教授、MIT 无线网络和移动计算中心主任 Dina Katabi，她是今年斯隆奖的得主，并已当选美国国家科学院院士。

最后，通讯作者为何恺明，他将在明年正式回归学界、离开 Meta 加入 MIT 电气工程和计算机科学系，与 Dina Katabi 成为同事。

论文地址：

https://arxiv.org/abs/2312.03701

— 完 —

点这里关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

>

熱門排行

王治郅：杨瀚森主要的问题是速度他的速度跟郟君昊 | 2025-05-05
贸易战烧进电影院：特朗普拟重税打击外国电影習又夏 | 2025-05-05
贷款追高炒黄金的人后悔了！有人一天亏掉6年寸飛蘭 | 2025-05-05
手机电池突破8000mAh？硅碳技术的回旋镖：「折衛青柏 | 2025-05-05
贷款追高炒黄金的人后悔了！有人一天亏掉6年繁綺文 | 2025-05-05
任天堂对Genki提起Switch 2商标侵权诉讼，后郜萌運 | 2025-05-05
哪吒汽车APP和官网恢复正常知情人士：之前断袁曼雁 | 2025-05-05
极越汽车 CEO 夏一平名下青岛/义乌两家公司集玲琳 | 2025-05-05
全国经济第一大省明确，推动组建农商联合银行佼昌翰 | 2025-05-05
桑保利：亚马尔有配合意识&有点像梅西姆巴佩甄正浩 | 2025-05-05
高露现身上海虹桥机场黑色外套点缀亮色爱惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：处理器更新为天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懒癌”发病率上升，定期体检别忽视幸聽楓 | 2023-05-02
宋慧乔获百想视后韩素希发图手动加爱心表賁芳蕤 | 2023-05-02
曹操墓，里面都有啥？衛青柏 | 2023-05-02
十年了，他们终于要HE！惠惠君 | 2023-05-07
中央部署经济工作，释放5大信号郜萌運 | 2023-05-02
高德上线手机弯道会车预警功能習又夏 | 2023-05-02
陈自瑶抱病为爱女做蛋糕庆生，王浩信点赞没露賁芳蕤 | 2023-05-02
等比例长大的童星，李兰迪算一个郟君昊 | 2023-05-02
高端国产车：军车血统，目前电动车越野的“天花謝飛揚 | 2023-05-02
这些被抓来做实验的流浪狗，最终拯救了无数糖集玲琳 | 2023-05-02
《云襄传》终于抬上来啦，男O女A让人好上头！集玲琳 | 2023-05-02
21家A股游戏公司2022年收入651亿今年“游衛青柏 | 2023-05-04
信用风险释放趋缓，结构性风险需重点关注 — 袁曼雁 | 2023-05-02
与周立波夫妇闹纠纷成老赖，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
普京签署总统令，批准对俄刑法典相关法条的修集玲琳 | 2023-05-02
解除资格！停止一切合作佼昌翰 | 2023-05-02
中银证券给予南京银行增持评级袁曼雁 | 2023-05-03
前董事长被免，天山生物全面进入“中植系”时惠惠君 | 2023-05-02
3699起联想小新mini主机上架 13代酷睿标压習又夏 | 2023-05-05
疯成这样，怎么还能被全网吹捧？郜萌運 | 2023-05-02
狂吼11次“让一下”！交警咆哮开道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收购美国第一共和银行謝飛揚 | 2023-05-02
台剧赢麻了，又来一部8.9 衛青柏 | 2023-05-02
下降45分，上涨35分！34所自划线院校复试分数线袁曼雁 | 2023-05-07
事关农村土地承包和农民权益，《农村土地承包郟君昊 | 2023-05-02
"三高"已盯上青少年，做好这件事是关键習又夏 | 2023-05-05
五一档没一个能打的集玲琳 | 2023-05-05
恐怖韩剧下神坛，这次胆小可入袁曼雁 | 2023-05-05
这剧是不是用ChatGPT写的呀？惠惠君 | 2023-05-02
200户连夜疏散，原因让人愤怒！“损失超一亿”，袁曼雁 | 2023-05-03
性骚扰惯犯，滚出娱乐圈謝飛揚 | 2023-05-05
48岁何炅自曝已老花眼，黄磊睡前认老，《向往的佼昌翰 | 2023-05-02
一个《长月烬明》倒了，《狐妖》《长相思》《惠惠君 | 2023-05-02
张天爱假期晒“酷”存照卷发披肩穿黑色吊嬴覓晴 | 2023-05-02
当年轻人开始不随份子钱袁曼雁 | 2023-05-02
毕滢用8年时间成功逼宫？曾被传已婚生子的她，幸聽楓 | 2023-05-03
宋慧乔获视后首次晒照，拿奖杯笑容温柔郜萌運 | 2023-05-02