大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

360AI推出DiT架构下“省钱版”ControlNet, 参数量骤减85%性能达到SOTA!

2025-03-03 简体 HK SG TW

今天小编分享的科学经验:360AI推出DiT架构下“省钱版”ControlNet, 参数量骤减85%性能达到SOTA!,欢迎阅读。

现有的可控 Diffusion Transformer 方法,虽然在推进文本到影像和视频生成方面取得了显著进展,但也带来了大量的参数和计算开销。

同时,由于这些方法未能有效考虑不同 Transformer 层之间控制信息的相关性,导致资源分配效率低下。

360 人工智能研究院的研究团队提出了新一代控制相关性引导的高效可控生成框架——RelaCtrl。

该框架通过优化控制信号的集成方式,在 Diffusion Transformer 中实现了更加高效且资源优化的控制,从而有效解决了上述问题。

团队对常见的 T2I Diffusion Transformer 进行了实验验证,取得了显著成果。

论文一作为来自中国科学技术大学的二年级硕士生曹可,论文共同一作和项目负责人为来自 360 AI Research 的 AIGC 研究员马傲。

目前,相关的研究论文、项目主页和代码仓库已正式开放,并即将开源。

研究动机

当前,基于 Diffusion Transformer(DiT)的可控生成方法(如 PixArt- δ、OminiControl 等)充分利用了其强大的架构和可扩展性,显著提升了生成结果的保真度和与给定文本描述的一致性。

然而,DiT 的受控生成方法仍面临两个主要问题:

首先,这些方法引入了大量额外的参数和计算,导致训练和推理负担加重。

其次,不同网络层之间控制信息的相关性常常被忽视,进而造成计算资源分配效率低下。

在模型量化和剪枝领網域的相关研究中,已发现具有层叠 Transformer 结构的 LLM 模型在不同层的影响力存在差异,因此可以设计针对不同层的细致化剪枝策略。

受此启发,研究人员通过在推理阶段跳过控制网络中的不同层,测量生成影像的质量和控制精度,从而得到 "ControlNet 相关性得分 ",并以此来指导后续可控生成的条件注入。

如图所示,DiT 中不同层对控制信息的相关性存在显著差异,这种相关性呈现先增加后减少的趋势,在前中心层表现出较高的相关性,而在较深层则较低。

现有方法未能充分考虑这种变化,而是对所有层应用统一的設定,导致参数和计算资源分配效率低下,特别是在冗余参数和相关性较低层中的计算。

因此,研究团队提出了一种基于相关性引导的高效可控生成框架,通过精确的参数分配和控制策略,结合轻量化设计的控制模块,从而有效减少模型参数并降低计算复杂度。

高效可控生成框架 RelaCtrl

研究团队首先根据得出的 ControlNet 相关性得分排名,确定并选择了 11 个最关键的控制位置(按相关性从高到低排序)用于集成控制模块。

通过这种方法,团队实现了与使用了 13 个复制块的 PixArt- δ 相当的控制性能,同时将参数数量减少了约 15%。

尽管这种方法有效地减少了模型的大小和计算开销,但控制模块的内部设计仍然存在一定的冗余。

MetaFormer 将 Transformers 的有效性归因于两个关键组件:

通过自注意力机制实现的 token 混合器和通过前馈网络 ( FFN ) 层实现的通道混合器。

然而,研究表明,尽管 FFN 消耗了相当一部分模型参数,但它往往高度冗余。为此,研究团队引入了一个轻量级模块——相关性引导轻量级控制块(RGLC),该模块将 token 混合和通道混合统一为一个操作。具体来说,作者设计了一种新颖的二维 shuffle mixer(TDSM),替代了原始 PixArt Transformer 块中的注意力层和 FFN 层,从而简化了架构并提高了效率。

该方法促进了 token 和通道维度之间的信息互動和建模,大幅度减少了复制块的参数数量和计算需求。

下面将详细介绍两个主要部分的实现:

DiT-ControlNet Relevance Prior

为了系统地评估 DiT-ControlNet 中各个层与生成质量和控制精度的相关性,研究团队训练了一个完全受控的 PixArt- α 网络,包含 27 个复制模块。

在推理过程中,研究者系统地跳过每个控制块层,并评估其对最终生成结果的影响。

为了进行定量评估,Fr é chet Inception Distance ( FID ) 被引入用于衡量影像生成的质量,Hausdorff Distance ( HDD ) 则用于评估控制精度。

这些指标有助于分析跳过控制分支中各个层对整体性能的影响,并为每个控制块提供相关性分数。最终,基于这两个指标的组合,研究团队计算得到 ControlNet 的相关性分数,并从中选取了 11 个最关键的控制位置(按相关性从高到低排序)用于集成控制模块,如图中白色序号所示。

Two Dimensions Shuffle Mixer

为了减轻控制分支的计算负担,研究团队提出了对 token 进行分组计算的方法,并采用特定策略来增强 token 组之间的互動和建模能力。

具体来说,该操作首先进行随机通道选择,然后在 token 维度空间中对输入序列进行随机打乱,接着进行局部自注意力计算。

虽然后续的注意力机制局限于一个固定的组,但所涉及的 token 可能来自该组之外。

这一操作有效打乱了 token 之间的固有关系,并在一定程度上引入了其他局部視窗间的信息,从而打破了局部注意力通常施加的互動约束。

此外,为了确保划分操作不会影响恢复过程中 latent code 嵌入的语义信息,研究团队设计在自注意力计算后对 token 和通道维度应用逆恢复操作。

这种结合了 shuffle 和 recovery 的整体方法被称为二维 shuffle 混合器(TDSM),通过利用可逆变换对的能力,确保在自注意力计算期间能够保留信息,从而实现跨通道和 token 维度的高效非局部信息互動。

实验结果

作者在多种条件下的可控生成任务上进行了定性和定量评估,以验证 RelaCtrl 的效果。

定性比较

如图所示,RelaCtrl 在视觉效果对比中表现出了极具竞争力的性能,能够在给定条件的约束下生成与真实影像高度一致的照片般逼真影像。即便不同条件下,也展现了生成影像的强大能力。

定量分析

研究团队在 COCO 验证集上对 RelaCtrl 与对比方法进行了定量评估。结果表明,RelaCtrl 在控制指标、视觉质量和文本相似度上均实现了更优的表现,验证了其在各方面上的有效性。

计算复杂度分析

根据下表所示,基于 PixArt- α 的 RelaCtrl 仅带来了 7.38% 的参数增加和 8.61% 的计算复杂度增加,显著低于 ControlNet 方法的增量,后者的参数和复杂度均增加了近 50%。在 Flux.1-dev 上的实验进一步验证了这一点,RelaCtrl 在参数量和计算复杂度的增加上实现了均衡,同时在多个指标上显著优于 ControlNet 方法。这一优势同样体现在实际推理时间上,RelaCtrl 表现出了更高的效率。

消融实验。

对社区模型的兼容能力:

研究团队使用通过 Lora 微调的 PixArt 权重进行推理。RelaCtrl 可以有效地利用这些社区权重。下图展示了该模型在指定条件下生成的油漆、油画、古风和像素风格影像。

论文地址:  http://arxiv.org/abs/2502.14377

项目主页:  https://360cvgroup.github.io/RelaCtrl/

代码仓库:  https://github.com/360CVGroup/RelaCtrl

—  完  —

学术投稿请于工作日发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

一键关注 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們