大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

3秒让AI变乖,生成风险图片减少30%!复旦新研究拿下扩散模型概念移除新SOTA

2024-08-27 简体 HK SG TW

今天小编分享的科学经验:3秒让AI变乖,生成风险图片减少30%!复旦新研究拿下扩散模型概念移除新SOTA,欢迎阅读。

让 AI 绘画模型变 " 乖 ",现在仅需3 秒调整模型参数。

效果 be like:生成的风险图片比以往最佳方法减少30%!

像这样,在充分移除梵高绘画风格的同时,对非目标艺术风格几乎没有影响。

在移除裸露内容上,效果达到 " 只穿衣服,不改结构 "。

这就是复旦大学提出的概念移除新方法——RECE。

目前,基于扩散模型的 AI 生图有时真假难辨,常被恶意用户用来生成侵犯版权和包含风险内容(如虚假新闻、暴力色情内容)的影像。

SD 中使用的的安全措施是使用安全检查器,对违规的生成影像不予展示,还集成了一些用 classifier-free guidance 来规避风险概念的方法。

但在开源条件下,恶意用户可以轻松绕过这些机制,网上甚至有大把的教程……

针对此,学界提出了 " 概念移除 ",即通过微调来移除文生图扩散模型中特定的风险概念,使其不再具备生成相应内容的能力。

这种方法的资源消耗远低于从头重新训练的 SD v2.1 版本,也不能被轻易绕过。

而最新研究 RECE,拿下概念移除 SOTA 效果,并且对无关概念破坏极小,论文已被顶会 ECCV 2024 接收。

整个过程基于高效的解析解

此前,尽管概念移除进展迅速,其问题仍然明显:

已有的方法为了安全性牺牲了较多的生成质量。

已有方法即使对模型破坏较大,仍不能充分移除不当概念,有很大几率生成风险影像。

大多数方法需要大量的微调步数,计算资源消耗大。

那么 RECE 是如何实现的?

RECE 主要包含两个模块:模型编辑和嵌入推导。

首先,RECE 以解析解的形式,在交叉注意力层中将风险概念映射到无害概念。

然后,RECE 以解析解的形式推导出风险概念的新嵌入表示并用于下一轮的模型编辑。

RECE 还包括了一个简洁有效的正则项,可以证明其具有保护模型能力的作用,进而保证概念移除可以交替进行多轮。整个概念移除的过程都基于高效的解析解。

风险概念嵌入推导

RECE 的有效性来自于对已有方法概念移除不彻底的观察:

以 " 裸露 " 为提示词,SD 生成了裸露影像,UCE(一种概念移除方法)成功避免了裸露内容的生成;

然而,输入有意设计的提示词或文本嵌入,UCE 再次生成了裸露内容。

为引导编辑后的模型重新生成裸露内容,接下来将以 " 裸露 " 为例,介绍 RECE 是如何推导上述具有攻击性的概念嵌入的。

既然是文生图,那首先思考文本引导的机制——交叉注意力。

SD 利用 CLIP 作为文本编码器得到提示词的嵌入形式,并且获得 key 与 value,与表征视觉特征的 query 一起,得到输出:

如果能得到一个新的概念嵌入,满足在编辑后的交叉注意力映射后,足够接近经过编辑前的映射值,那么应能够诱导生成裸露图片:

上式为凸函数,因此具有解析解,不需要繁琐的梯度下降近似求解:

模型编辑

接下来 RECE 将编辑交叉注意力以移除风险概念。RECE 借鉴了已有的方法 UCE,通过解析解来编辑交叉注意力的权重,一步到位,避免繁琐微调。

给定 " 源 " 概念(例如," 裸露 ")," 目标 " 概念(例如,空文本 " "),以及交叉注意力的 K/V 投影矩阵,UCE 的目标是找到新权重,将新权重下的映射值对齐到。

其中后面两项是为了控制参数变化,最小化对无关概念的影响。这也是凸函数,将解析解直接赋值给新权重:

正则项

理想情况下,将公式 ( 5 ) 得到的移除就可以避免生成裸露内容了,然而团队发现这会对模型能力产生极大的破坏。

因此在相邻的两轮概念移除中,RECE 对无关概念的映射值变化做了约束:

学过线性代数的同学是不是觉得很熟悉呢?

利用矩阵范数的相容性,证明得到:

因此只需在推导时添加一个范数约束项,就能保护模型的能力:

其解析解为:

综上,RECE 的算法流程归纳为:

RECE 效果如何?

不安全概念移除

首先来看最敏感的内容——色情。在 I2P 基准数据集上,RECE 的裸露移除效果超过了全部已有方法。

团队还评估了概念移除后模型的正常内容生成能力,即无关概念集 COCO-30k 上的 FID 指标,也远超 CA 等方法。

艺术风格移除

保护艺术版权不受 AI 侵犯同样十分敏感。综合效果方面,RECE 优于所有方法。

并且细致来看,RECE 是唯一一个在目标艺术家擦除效果和无关艺术家保留效果方面都表现优异的方法。

红队鲁棒性

RECE 对恶意用户的有意攻击同样可以有效防护,在红队攻击下,RECE 生成风险图片的几率仍是最低。

模型编辑耗时

RECE 5 个 Epoch 仅需 3.4 秒,参数改动比例、编辑耗时远低于 CA 等方法。UCE 的耗时也很短,但 UCE 的概念移除效果与 RECE 相差较大。

作者简介

论文共同第一作者为复旦大学视觉与学习实验室的硕士新生公超和博士生陈凯。

通讯作者为陈静静副教授。

研究团队专注于 AI 安全的研究,近年来在 CVPR,ECCV,AAAI,ACM MM 等顶会上发表过多篇 AI 安全的研究成果。

论文地址:https://arxiv.org/abs/2407.12383

代码地址:https://github.com/CharlesGong12/RECE

—  完  —

投稿请发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們