今天小编分享的科学经验:CVPR‘24:文生图提示词自动优化,还发现三个小窍门,人大度小满等机构出品,欢迎阅读。
文生图也有自己的 prompt 优化工具了。
我们都知道,大模型输出的质量,很大程度上依赖于输入的 prompt。尤其在文生图领網域,对于 prompt 格外敏感。
来自中国人大、度小满等团队提出了一种全新的自动文本提示优化方法——动态提示自动编辑(Prompt Auto-Editing,PAE)。
它考虑了文本提示中的每个词在扩散生成过程的权重和注入时间步。
最终在多个公开数据集上进行了实验验证,包括 Lexica.art、DiffusionDB 和 COCO。PAE 方法不仅提高了影像的美学质量,还确保了影像与文本描述的语义一致性。
与传统方法相比,PAE 在控制影像生成过程中的精确性和灵活性方面表现更优。
当前,尽管用户可以通过手动修改提示来尝试生成更优质的影像,但这一过程不仅效率低下,而且难以精确控制。
为了提高效率并优化生成结果,团队研发了 PAE 方法,这一方法的关键在于采用了动态提示(Dynamic Prompts)。
首先是为用户输入的简短提示词扩充出更多修饰词,其次是通过动态调整新添加的修饰词的权重和注入时间步,自动细化优化文本提示,从而更精准地控制影像生成过程。
1、Dynamic Prompt 的定义
具体来说,团队定义了一种新的提示格式,用以丰富初始提示的信息,命名为动态精细控制提示(DF-Prompt)
文本 prompt 中的每个 token 会被拓展成一个三元组,在原有基础上新添加了用来添加权重的浮点数,以及文本生效的时间步范围。
DF-Prompt 是原本的提示词和修饰词的结合。DF-Prompt 的本质在于促进更精确和控制的生成。为了便于演示和代码实现,我们还定义了一个纯文本格式: [ token:range:weight ]
以 portrait of a beautiful forest goddess, beauty, very aesthetic, masterpiece 为例,其中 beauty 拓展成三元组可以表示为 [ beauty:0.5 → 0:0.75 ] ,其权重为 0.75,生效的时间步范围为后 50% 的降噪步骤。
2、训练数据收集
DiffusionDB 数据集收集了用户生成影像时使用的 prompt,其中包含大量的修饰词、风格描述等,可以帮助我们训练提示词拓展与精细优化的自动化模型。
在 DiffusionDB 等数据集中,一般逗号之前的文本包含主要信息,描述影像的主题,而逗号之后的文本被视为次要文本,提供补充后缀作为修饰语。
比如 "a red horse on the yellow grass, anime style",主要信息为 "a red horse on the yellow grass",次要文本为 "anime style"。
我们把逗号之前的文本作为短提示,剩余的文本 ( 次要文本 ) 形成了修饰词集合,以此来构建训练数据中的输入提示词和目标提示词。
最后,我们定义一个置信分数,利用美学指标和 CLIP 分数来筛选训练数据,确保用于训练的提示词能够引导生成高美学评分、高图文对齐度的影像。
3、训练阶段
如图所示,使用收集好的训练数据进行两阶段训练。
阶段一:监督式微调阶段。
在收集好的数据集上对语言模型进行微调,以生成优化后的文本提示。每条训练数据都包含了短提示词文本和修饰词集合,这里的优化目标就是让语言模型根据短提示词扩展出更多修饰词。在这种方式中,训练好的模型能够处理简短的提示,并预测适当的修饰词,从而提升生成影像的美学质量。
阶段二:强化学习阶段。
使用强化学习优化文本提示,通过多维度奖励系统来指导这一过程,考虑到美学评分、语义一致性和用户偏好。这一阶段的主要目的是为每一个修饰词添加权重和作用时间步,实现精细化的控制。我们使用 PPO 算法,在训练集上最大化期望累积奖励。奖励函数是在生成的影像上计算的,考虑了包括 CLIP 分数、PickScore、美学评分等指标。
通过观察自动学习到的权重分布、时间步范围统计信息,我们还有了一些有趣的发现:
使用艺术家名称和纹理修饰词:通过引入艺术家的名字和纹理修饰词,可以显著提高生成影像的艺术质量,并保持语义的准确性。
在扩散过程的后半阶段引入风格元素:在影像生成的扩散过程后半段引入风格化元素,可以更好地融合这些元素,从而提高整体的视觉和艺术效果。
降低复杂术语的权重:对于复杂的术语,适当降低其权重可以确保影像生成既平衡又具吸引力,避免过分强调某些元素,从而影响影像的整体美观。
arxiv 链接: https://arxiv.org/abs/2404.04095
代码链接: https://github.com/Mowenyii/PAE
— 完 —
投稿请发邮件到:
标题注明【投稿】,告诉我们:
你是谁,从哪来,投稿内容
附上论文 / 项目主页链接,以及联系方式哦
我们会(尽量)及时回复你
点这里关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
>