大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

中科院等万字详解:最前沿影像扩散模型综述

2024-03-09 简体 HK SG TW

今天小编分享的科学经验:中科院等万字详解:最前沿影像扩散模型综述,欢迎阅读。

针对影像编辑中的扩散模型,中科院联合 Adobe 和苹果公司的研究人员发布了一篇重磅综述。

全文长达 26 页,共 1.5 万余词,涵盖 297 篇文献,全面研究了影像编辑的各种前沿方法。

同时,作者还提出了全新的 benchmark,为研究者提供了便捷的学习参考工具。

在这份综述中,作者从理论和实践层面,详尽总结了使用扩散模型进行影像编辑的现有方法。

作者从学习策略、输入条件等多个角度对相关成果进行分类,并展开了深入分析。

为了进一步评估模型性能,作者还提出了一个测评基准,并展望了未来研究的一些潜在方向。

△基于扩散模型的影像编辑成果速览

下面,作者将从任务分类、实现方式、测试基准和未来展望四个方面介绍基于扩散模型的影像编辑成果。

影像编辑的分类

除了在影像生成、恢复和增强方面取得的重大进步外,扩散模型在影像编辑方面也实现了显著突破,相比之前占主导地位的生成对抗网络(GANs),前者具有更强的可控性。

不同于 " 从零开始 " 的影像生成,以及旨在修复模糊影像、提高质量的影像恢复和增强,影像编辑涉及对现有影像外观、结构或内容的修改,包括添加对象、替换背景和改变纹理等任务。

在这项调查中,作者根据学习策略将影像编辑论文分为三个主要组别:基于训练的方法、测试时微调方法和无需训练和微调的方法。

此外,作者还探讨了控制编辑过程使用的 10 种输入条件,包括文本、掩码、参考影像、类别、布局、姿势、草图、分割图、音频和拖动点。

进一步地,作者调查了这些方法可以完成的 12 种最常见的编辑类型,它们被组织成以下三个广泛的类别:

语义编辑:此类别包括对影像内容和叙述的更改,影响所描绘场景的故事、背景或主题元素。这一类别内的任务包括对象添加、对象移除、对象替换、背景更改和情感表达修改。

风格编辑:此类别侧重于增强或转换影像的视觉风格和审美元素,而不改变其叙述内容。这一类别内的任务包括颜色更改、纹理更改和整体风格更改,涵盖艺术性和现实性风格。

结构编辑:此类别涉及影像内元素的空间布局、定位、视角和特征的变化,强调场景内对象的组织和展示。这一类别内的任务包括对象移动、对象大小和形状更改、对象动作和姿势更改以及视角 / 视点更改。

影像编辑的实现方式基于训练的方法

在基于扩散模型的影像编辑领網域,基于训练的方法已经获得了显著的突出地位。

这些方法不仅因其稳定的扩散模型训练和有效的数据分布建模而著名,而且在各种编辑任务中表现可靠。

为了彻底分析这些方法,作者根据它们的应用范围、训练所需条件和监督类型将它们分类为四个主要组别。

根据核心编辑方法,这些主要组别中的方法又可以细分为不同的类型。

下图展示了两种有代表性的 CLIP 指导方法—— DiffusionCLIP 和 Asyrp 的框架图。

△样本影像来自 CelebA 数据集上的 Asyrp

下面的图片,展示的是指令影像编辑方法的通用框架。

△示例影像来自 InstructPix2Pix、InstructAny2Pix 和 MagicBrush。测试时微调的方法

在影像生成和编辑中,还会采用微调策略来增强影像编辑能力,测试时微调带来了精确性和可控制性的重要提升。

如下图所示,微调方法的既包括微调整个去噪模型,也包括专注于特定层或嵌入。

此外,作者还讨论了超网络的集成和直接影像表示优化

下图展示了使用不同微调组件的微调框架。

△样本影像来自 Custom-Edit 免训练和微调方法

在影像编辑领網域,无需训练和微调的方法起点是它们快速且成本低,因为在整个编辑过程中不需要任何形式的训练(在数据集上)或微调(在源影像上)。

根据它们修改的内容,可以分为五个类别,这些方法巧妙地利用扩散模型内在的原则来实现编辑目标。

下图是免训练方法的通用框架。

△样本图片来自 LEDITS++ 影像 inpainting(补全)和 outpainting(外扩)

影像补全和外扩通常被视为影像编辑的子任务,可以分为两大类型——上下文驱动的补全(上排)与多模态条件补全(下排)。

△样本分别来自于 Palette 和 Imagen Editor 全新测试基准

除了分析各种方法的实现原理,评估这些方法在不同编辑任务中的能力也至关重要,但现有的影像编辑测试标准存在局限。

例如,EditBench 主要针对文本和掩码引导的补全,但忽略了涉及全局编辑的任务(如风格转换);TedBench 虽然扩展了任务范围,但缺乏详细指导;EditVal 试图提供更全面的任务和方法覆盖范围,但影像通常分辨率低且模糊……

为了解决这些问题,作者提出了EditEval基准,包括一个 50 张高质量影像的数据集,且每张影像都附有文本提示,可以评估模型在 7 个常见编辑任务的性能。

这 7 种任务包括物体添加 / 移除 / 替换,以及背景、风格和姿势、动作的改变。

此外,作者还提出了 LMM 分数,利用多模态大模型(LMMs)评估不同任务上的编辑性能,并进行了真人用户研究以纳入主观评估。

△LMM Score 与用户研究的皮尔逊相关系数

下图比较了 LMM Score/CLIPScore 与用户研究的皮尔逊相关系数。

挑战和未来方向

作者认为,尽管在使用扩散模型进行影像编辑方面取得了成功,但仍有一些不足需要在未来的工作中加以解决。

减少模型推理步骤

大多数基于扩散的模型在推理过程中需要大量的步骤来获取最终影像,这既耗时又耗费计算资源,给模型部署和用户体验带来挑战。

为了提高推理效率,已经由团队研究了少步骤或一步生成的扩散模型。

近期的方法通过从预训练的强扩散模型中提取知识来减少步骤数,以便少步骤模型能够模仿强模型的行为。

一个更具挑战性的方向是直接开发少步骤模型,而不依赖于预训练的模型(例如一致性模型)。

提高模型效率

训练一个能够生成逼真结果的扩散模型在计算上是密集的,需要大量的高质量数据。

这种复杂性使得开发用于影像编辑的扩散模型非常具有挑战性。

为了降低训练成本,近期的工作设计了更高效的网络架构作为扩散模型的骨干。

此外,另一个重要方向是只训练部分参数,或者冻结原始参数并在预训练的扩散模型之上添加一些新层。

复杂对象结构编辑

现有的工作可以在编辑影像时合成逼真的颜色、风格或纹理,但处理复杂结构时仍然会产生明显的修改痕迹,例如手指、标志和文字。

研究者已经在尝试解决这些问题,常用的策略是把 " 六个手指 " 等常见问题作为负面提示,以使模型避免生成此类影像,这在某些情况下是有效的,但不够稳健。

近期的工作中,已有团队开始使用布局、边缘或密集标签作为指导,编辑影像的全局或局部结构。

复杂的光照和阴影编辑

编辑对象的光照或阴影仍然是一个挑战,因为这需要准确估计场景中的光照条件。

以前的工作(如 Total Relighting)使用网络组合来估计前景对象的法线、反照率和阴影,以获得逼真的重新照明效果。

最近,也由有团队提出将扩散模型用于编辑面部的光照,ShadowDiffusion 也探索了基于扩散模型的阴影合成,可以生成合理的对象阴影。

然而,使用扩散模型在不同背景条件下准确编辑对象的阴影仍然是一个未解决的问题。

影像编辑模型的泛化性

现有基于扩散的影像编辑模型能够为给定的一部分条件合成逼真的视觉内容,但在许多现实世界场景中仍然会失败。

这个问题的根本原因在于,模型无法准确地对所有可能的样本在条件分布空间中进行建模。

如何改进模型以始终生成无瑕疵的内容仍然是一个挑战,解决这个问题有以下几种思路:

首先是扩大训练数据规模,以覆盖具有挑战性的场景,这种方式效果显著,但成本较高,如在医学影像、视觉检测等领網域数据难以收集。

第二种方法是调整模型以接受更多条件,如结构引导、3D 感知引导和文本引导,以实现更可控和确定性的内容创作。

此外,还可以采用迭代细化或多阶段训练的方式,以逐步改进模型的初始结果。

可靠的评估指标

对影像编辑进行准确评估,对于确保编辑内容与给定条件的对齐至关重要。

尽管有如 FID、KID、LPIPS、CLIP 得分、PSNR 和 SSIM 等定量指标,但大多数现有评估工作仍然严重依赖于用户研究,这既不高效也不可扩展。

可靠的定量评估指标仍然是一个待解决的问题。最近,已经有团队提出了更准确的指标来量化对象的感知相似性。

DreamSim 测量了两幅影像的中等级别相似性,考虑了布局、姿态和语义内容,并且优于 LPIPS。

类似的,前景特征平均(FFA)也是一种简单而有效的方法,可被用于测量对象的相似性。

另外,作者在本文中提出了的 LMM score,也是一种有效的影像编辑度量。

更多有关用于影像编辑的扩散模型的详细信息,可以阅读原作,同时作者也在 GitHub 上发布了附带资源库。

论文链接:

https://arxiv.org/abs/2402.17525

Github:

https://github.com/SiatMMLab/Awesome-Diffusion-Model-Based-Image-Editing-Methods

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們