3秒让AI变乖，生成风险图片减少30%！复旦新研究拿下扩散模型概念移除新SOTA - 大酷樂

今天小编分享的科学经验：3秒让AI变乖，生成风险图片减少30%！复旦新研究拿下扩散模型概念移除新SOTA，欢迎阅读。

让 AI 绘画模型变 " 乖 "，现在仅需3 秒调整模型参数。

效果 be like：生成的风险图片比以往最佳方法减少30%！

像这样，在充分移除梵高绘画风格的同时，对非目标艺术风格几乎没有影响。

在移除裸露内容上，效果达到 " 只穿衣服，不改结构 "。

这就是复旦大学提出的概念移除新方法——RECE。

目前，基于扩散模型的 AI 生图有时真假难辨，常被恶意用户用来生成侵犯版权和包含风险内容（如虚假新闻、暴力色情内容）的影像。

SD 中使用的的安全措施是使用安全检查器，对违规的生成影像不予展示，还集成了一些用 classifier-free guidance 来规避风险概念的方法。

但在开源条件下，恶意用户可以轻松绕过这些机制，网上甚至有大把的教程……

针对此，学界提出了 " 概念移除 "，即通过微调来移除文生图扩散模型中特定的风险概念，使其不再具备生成相应内容的能力。

这种方法的资源消耗远低于从头重新训练的 SD v2.1 版本，也不能被轻易绕过。

而最新研究 RECE，拿下概念移除 SOTA 效果，并且对无关概念破坏极小，论文已被顶会 ECCV 2024 接收。

整个过程基于高效的解析解

此前，尽管概念移除进展迅速，其问题仍然明显：

已有的方法为了安全性牺牲了较多的生成质量。

已有方法即使对模型破坏较大，仍不能充分移除不当概念，有很大几率生成风险影像。

大多数方法需要大量的微调步数，计算资源消耗大。

那么 RECE 是如何实现的？

RECE 主要包含两个模块：模型编辑和嵌入推导。

首先，RECE 以解析解的形式，在交叉注意力层中将风险概念映射到无害概念。

然后，RECE 以解析解的形式推导出风险概念的新嵌入表示并用于下一轮的模型编辑。

RECE 还包括了一个简洁有效的正则项，可以证明其具有保护模型能力的作用，进而保证概念移除可以交替进行多轮。整个概念移除的过程都基于高效的解析解。

风险概念嵌入推导

RECE 的有效性来自于对已有方法概念移除不彻底的观察：

以 " 裸露 " 为提示词，SD 生成了裸露影像，UCE（一种概念移除方法）成功避免了裸露内容的生成；

然而，输入有意设计的提示词或文本嵌入，UCE 再次生成了裸露内容。

为引导编辑后的模型重新生成裸露内容，接下来将以 " 裸露 " 为例，介绍 RECE 是如何推导上述具有攻击性的概念嵌入的。

既然是文生图，那首先思考文本引导的机制——交叉注意力。

SD 利用 CLIP 作为文本编码器得到提示词的嵌入形式，并且获得 key 与 value，与表征视觉特征的 query 一起，得到输出：

如果能得到一个新的概念嵌入，满足在编辑后的交叉注意力映射后，足够接近经过编辑前的映射值，那么应能够诱导生成裸露图片：

上式为凸函数，因此具有解析解，不需要繁琐的梯度下降近似求解：

模型编辑

接下来 RECE 将编辑交叉注意力以移除风险概念。RECE 借鉴了已有的方法 UCE，通过解析解来编辑交叉注意力的权重，一步到位，避免繁琐微调。

给定 " 源 " 概念（例如，" 裸露 "），" 目标 " 概念（例如，空文本 " "），以及交叉注意力的 K/V 投影矩阵，UCE 的目标是找到新权重，将新权重下的映射值对齐到。

其中后面两项是为了控制参数变化，最小化对无关概念的影响。这也是凸函数，将解析解直接赋值给新权重：

正则项

理想情况下，将公式 ( 5 ) 得到的移除就可以避免生成裸露内容了，然而团队发现这会对模型能力产生极大的破坏。

因此在相邻的两轮概念移除中，RECE 对无关概念的映射值变化做了约束：

学过线性代数的同学是不是觉得很熟悉呢？

利用矩阵范数的相容性，证明得到：

因此只需在推导时添加一个范数约束项，就能保护模型的能力：

其解析解为：

综上，RECE 的算法流程归纳为：

RECE 效果如何？

不安全概念移除

首先来看最敏感的内容——色情。在 I2P 基准数据集上，RECE 的裸露移除效果超过了全部已有方法。

团队还评估了概念移除后模型的正常内容生成能力，即无关概念集 COCO-30k 上的 FID 指标，也远超 CA 等方法。

艺术风格移除

保护艺术版权不受 AI 侵犯同样十分敏感。综合效果方面，RECE 优于所有方法。

并且细致来看，RECE 是唯一一个在目标艺术家擦除效果和无关艺术家保留效果方面都表现优异的方法。

红队鲁棒性

RECE 对恶意用户的有意攻击同样可以有效防护，在红队攻击下，RECE 生成风险图片的几率仍是最低。

模型编辑耗时

RECE 5 个 Epoch 仅需 3.4 秒，参数改动比例、编辑耗时远低于 CA 等方法。UCE 的耗时也很短，但 UCE 的概念移除效果与 RECE 相差较大。

作者简介

论文共同第一作者为复旦大学视觉与学习实验室的硕士新生公超和博士生陈凯。

通讯作者为陈静静副教授。

研究团队专注于 AI 安全的研究，近年来在 CVPR，ECCV，AAAI，ACM MM 等顶会上发表过多篇 AI 安全的研究成果。

论文地址：https://arxiv.org/abs/2407.12383

代码地址：https://github.com/CharlesGong12/RECE

— 完 —

投稿请发邮件到：

[email protected]

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容‍

附上论文 / 项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

点这里关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

>