大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

超越ControlNet++!腾讯优图提出动态条件选择新架构

2024-12-28 简体 HK SG TW

今天小编分享的科学经验:超越ControlNet++!腾讯优图提出动态条件选择新架构,欢迎阅读。

超越 ControlNet++,让文生图更可控的新框架来了!

腾讯优图、南洋理工、浙大等研究机构联合推出DynamicControl,直接将多模态大语言模型(MLLM)的推理能力集成到文本生成影像(T2I ) )任务中。

而且还提出了一种新颖、高效的多控制适配器,可以自适应地选择不同的条件,从而实现动态多控制对齐。

实验结果显示,DynamicControl 大大增强了可控性,且不会牺牲影像质量或影像文本对齐。

话不多说,下面来看具体内容。

DynamicControl:动态条件选择新架构

基于 ControlNet 类模型,之前的工作探索了各种控制信号,例如布局约束、分割图和深度图,以决定生成的影像中的空间排列、物体形状和景深。

此外,该领網域还见证了使用快速工程和交叉注意约束来进一步完善影像生成的调节。

不过现有方式均存在各自的局限性。

比如,考虑到一个对象的多种条件,一条线路(例如 UniControl、UniControlNet)在训练过程中随机选择一次激活一种条件,如图 1 ( a ) 所示。

这种处理不同视觉条件的能力非常低效,将大大增加训练的计算负担和时间成本。

另一类方法(例如 AnyControl、ControlNet++)使用固定数量(通常为 2 或 4)的条件,并采用 MoE 设计或多控制编码器来解决条件数量变化的问题,如图 1 ( b ) 所示。

然而,这种固定数量方案并没有从根本上解决多条件问题,也没有考虑多条件是否与生成结果相冲突。

虽然这些方法扩展了受控影像生成的可行性和应用,但在不同条件下增强可控性的清晰而全面的方法仍然是一个正在进行的研究和开发领網域。这凸显了在 T2I 扩散模型中集成和优化控制机制以实现更可靠和更详细的影像合成方面需要不断创新。

给定来自同一主题的多个条件,对于相同的文本提示,不同的条件在颜色、纹理、布局,合理性等方面产生不同的结果。

此外,从与源影像的相似度 SSIM 得分来看,不同的条件难以准确生成与输入源影像一致的影像。这也表明不同条件对生成更好影像的贡献不同,有些条件甚至会产生负面影响。

因此,在先前的方法中,仅选择一个或固定数量的条件而不考虑它们在生成更接近源影像的影像方面的重要性以及每个条件之间的内部关系是次优的。

为了解决这个问题,研究提出了DynamicControl,这是一个支持多种控制信号动态组合的新框架,它可以自适应地选择不同数量和类型的条件,如图 1(c)所示。

具体咋做到的

算法的整体流程如下图所示。

给定多种条件,研究首先引入双循环控制器来产生真实的排名分数,作为与 MLLM 结合训练条件评估器的监督信号。

然后,这些排名的条件与来自预训练条件评估器的选择分数由多控制适配器动态编码,以实现可控的影像生成。

Double-Cycle Controlle

鉴于研究将多条件可控性概念化为输入条件之间的动态选择,因此使用判别奖励模型来衡量这种选择是可行的。

通过量化生成模型的输出,研究能够依靠这些定量评估来集体增强各种条件控制的优化,以促进更可控的生成过程。

具体来说,给定多个条件和文本提示,研究首先利用预训练的条件生成模型为每个条件生成影像。

然后通过不同的预训练判别模型提取相应的反向条件。

基于这些生成的影像和反向条件,研究设计了一个双循环控制器,对输入的多个控制条件进行初始重要性评估。该双循环控制器由两个一致性分数组成,即条件一致性和影像一致性。

(1)条件一致性。对于每个输入条件和生成影像的相应输出条件,研究优化了条件循环一致性损失以获得更好的可控性,其公式为:

这里研究对扰动影像执行单步采样,其中 D 是判别奖励模型,用于优化 G 的可控性。L 表示抽象度量函数,可根据特定的视觉条件适应各种具体形式。

这种灵活性使其能够根据不同视觉分析任务的独特要求进行定制,从而增强模型在不同场景中的适用性和有效性。

(2)反向影像一致性。除了条件一致性之外,研究还采用反向影像一致性损失来保证原始影像与生成的影像相似。

研究通过最小化生成的影像和源影像之间的像素和语义差异来实现这一点。给定源影像和生成的影像的 CLIP 嵌入,损失定义为:

这种损失确保模型在应用条件和文本指令时能够忠实地反转条件并返回到源影像,通过最小化源影像和生成的影像之间的差异来强制执行模型。

Condition Evaluator

虽然双循环控制器可以对各种控制条件进行综合评分,但仍然面临两个挑战:

(i)使用预先训练的生成模型进行影像合成都会给结果带来较高的不确定性,这意味着对所采用的基础生成模型的依赖性很高。

(ii)源影像在测试过程中不可用,尤其是在用户指定的任务中。为了解决这个问题,研究在网络架构中引入了多模态大语言模型(MLLM)。

如图 3 所示,给定条件 c1、c2、…、cN 和指令 τ,研究的主要目标是利用双周期控制器的得分排序来优化条件的最佳排序。

研究用 N 个新标记 "<con0>、…、<conN>",扩展了 LLaVA 的原始 LLM 词汇表以表示生成信息,并将这些标记附加到指令 τ 的末尾。

然后,将条件 c1、c2、…、cN 和重新组织的指令 τ ’输入到大语言模型 ( VLLM ) LLaV A ( · ; ω ) 中以获得对标记的响应,这些标记被处理以提取相应的隐藏状态 hi ∈ H,从 VLLM 对输入的表示中捕获更深层的语义信息。

然而,这些隐藏状态主要存在于 LLM 的文本向量空间中,在与扩散模型(尤其是基于 CLIP 文本嵌入训练的模型)互動时会出现兼容性问题。这种差异可能会阻碍模型之间的有效集成。

考虑到这一点,研究迁移了 Q-Former,以将隐藏状态细化为与扩散模型兼容的嵌入 fc。

转换过程表示为:

循环优化过程可以表述为:

随后,每个条件的 LLM 预测结果由双循环控制器的相应排序分数进行监督,从而优化最终的排序排名。该过程表示为:

多控制适配器动态编码

为了适应多种动态控制条件的同时应用,作者们创新性地设计了一个多控制适配器。该适配器用于自适应地解释复杂的控制信号,从而能够从文本提示和动态空间条件中提取全面的多控制嵌入。

在获得经过良好预训练的条件评估器后,可以利用其强大的理解能力对所有输入条件进行评分。

从评分条件池中,只有那些达到或超过预定义阈值的条件才会被选中参与后续的 T2I 模型优化。

这种选择性方法确保只有最相关和最高质量的条件才能参与训练过程,从而有可能提高 T2I 模型的有效性和效率。

关于阈值設定,它不是手动预定义的,也不是在训练集内的所有数据对中保持一致的。相反,它被配置为一个可学习的参数,允许模型自适应地确定和调整各种数据集的阈值。

因此,这种自适应机制导致动态和多样化的控制条件在数量和类型上都没有冲突。

这些条件在训练过程中的使用取决于每个数据集的具体特征。这种方法确保训练能够根据各种数据输入的独特需求和细微差别进行量身定制。

实验结果

概括而言,来自各种条件控制的实验结果表明,DynamicControl 大大增强了可控性,而不会牺牲影像质量或影像文本对齐。

其中,不同条件控制和数据集下的可控性比较如下。

不同条件控制和数据集下的 FID(↓)/ CLIP 分数(↑)比较如下。

可视化结果也出来了。

总结

在论文中,研究从定量和定性的角度证明了现有的专注于可控生成的研究仍然未能充分利用多种控制条件的潜力,导致生成的影像与输入条件不一致。

为了解决这个问题,研究引入了 DynamicControl ,它使用高效的条件评估器对条件进行排序,明确优化了多个输入条件和生成的影像之间的一致性,从而将 MLLM 的推理能力集成到 T2I 生成任务中。

此外,研究还提出了一种新颖而高效的多控制适配器,可以自适应地选择不同的条件,从而实现动态多控制对齐。

来自各种条件控制的实验结果表明,DynamicControl 大大增强了可控性,而不会牺牲影像质量或影像文本对齐。

这为可控视觉生成提供了新的视角。

论文:

https://arxiv.org/abs/2412.03255

项目主页:

https://hithqd.github.io/projects/Dynamiccontrol/

—  完  —

投稿请发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們