3秒讓AI變乖，生成風險圖片減少30%！復旦新研究拿下擴散模型概念移除新SOTA

今天小編分享的科學經驗：3秒讓AI變乖，生成風險圖片減少30%！復旦新研究拿下擴散模型概念移除新SOTA，歡迎閱讀。

讓 AI 繪畫模型變 " 乖 "，現在僅需3 秒調整模型參數。

效果 be like：生成的風險圖片比以往最佳方法減少30%！

像這樣，在充分移除梵高繪畫風格的同時，對非目标藝術風格幾乎沒有影響。

在移除裸露内容上，效果達到 " 只穿衣服，不改結構 "。

這就是復旦大學提出的概念移除新方法——RECE。

目前，基于擴散模型的 AI 生圖有時真假難辨，常被惡意用戶用來生成侵犯版權和包含風險内容（如虛假新聞、暴力色情内容）的影像。

SD 中使用的的安全措施是使用安全檢查器，對違規的生成影像不予展示，還集成了一些用 classifier-free guidance 來規避風險概念的方法。

但在開源條件下，惡意用戶可以輕松繞過這些機制，網上甚至有大把的教程……

針對此，學界提出了 " 概念移除 "，即通過微調來移除文生圖擴散模型中特定的風險概念，使其不再具備生成相應内容的能力。

這種方法的資源消耗遠低于從頭重新訓練的 SD v2.1 版本，也不能被輕易繞過。

而最新研究 RECE，拿下概念移除 SOTA 效果，并且對無關概念破壞極小，論文已被頂會 ECCV 2024 接收。

整個過程基于高效的解析解

此前，盡管概念移除進展迅速，其問題仍然明顯：

已有的方法為了安全性犧牲了較多的生成質量。

已有方法即使對模型破壞較大，仍不能充分移除不當概念，有很大幾率生成風險影像。

大多數方法需要大量的微調步數，計算資源消耗大。

那麼 RECE 是如何實現的？

RECE 主要包含兩個模塊：模型編輯和嵌入推導。

首先，RECE 以解析解的形式，在交叉注意力層中将風險概念映射到無害概念。

然後，RECE 以解析解的形式推導出風險概念的新嵌入表示并用于下一輪的模型編輯。

RECE 還包括了一個簡潔有效的正則項，可以證明其具有保護模型能力的作用，進而保證概念移除可以交替進行多輪。整個概念移除的過程都基于高效的解析解。

風險概念嵌入推導

RECE 的有效性來自于對已有方法概念移除不徹底的觀察：

以 " 裸露 " 為提示詞，SD 生成了裸露影像，UCE（一種概念移除方法）成功避免了裸露内容的生成；

然而，輸入有意設計的提示詞或文本嵌入，UCE 再次生成了裸露内容。

為引導編輯後的模型重新生成裸露内容，接下來将以 " 裸露 " 為例，介紹 RECE 是如何推導上述具有攻擊性的概念嵌入的。

既然是文生圖，那首先思考文本引導的機制——交叉注意力。

SD 利用 CLIP 作為文本編碼器得到提示詞的嵌入形式，并且獲得 key 與 value，與表征視覺特征的 query 一起，得到輸出：

如果能得到一個新的概念嵌入，滿足在編輯後的交叉注意力映射後，足夠接近經過編輯前的映射值，那麼應能夠誘導生成裸露圖片：

上式為凸函數，因此具有解析解，不需要繁瑣的梯度下降近似求解：

模型編輯

接下來 RECE 将編輯交叉注意力以移除風險概念。RECE 借鑑了已有的方法 UCE，通過解析解來編輯交叉注意力的權重，一步到位，避免繁瑣微調。

給定 " 源 " 概念（例如，" 裸露 "），" 目标 " 概念（例如，空文本 " "），以及交叉注意力的 K/V 投影矩陣，UCE 的目标是找到新權重，将新權重下的映射值對齊到。

其中後面兩項是為了控制參數變化，最小化對無關概念的影響。這也是凸函數，将解析解直接賦值給新權重：

正則項

理想情況下，将公式 ( 5 ) 得到的移除就可以避免生成裸露内容了，然而團隊發現這會對模型能力產生極大的破壞。

因此在相鄰的兩輪概念移除中，RECE 對無關概念的映射值變化做了約束：

學過線性代數的同學是不是覺得很熟悉呢？

利用矩陣範數的相容性，證明得到：

因此只需在推導時添加一個範數約束項，就能保護模型的能力：

其解析解為：

綜上，RECE 的算法流程歸納為：

RECE 效果如何？

不安全概念移除

首先來看最敏感的内容——色情。在 I2P 基準數據集上，RECE 的裸露移除效果超過了全部已有方法。

團隊還評估了概念移除後模型的正常内容生成能力，即無關概念集 COCO-30k 上的 FID 指标，也遠超 CA 等方法。

藝術風格移除

保護藝術版權不受 AI 侵犯同樣十分敏感。綜合效果方面，RECE 優于所有方法。

并且細致來看，RECE 是唯一一個在目标藝術家擦除效果和無關藝術家保留效果方面都表現優異的方法。

紅隊魯棒性

RECE 對惡意用戶的有意攻擊同樣可以有效防護，在紅隊攻擊下，RECE 生成風險圖片的幾率仍是最低。

模型編輯耗時

RECE 5 個 Epoch 僅需 3.4 秒，參數改動比例、編輯耗時遠低于 CA 等方法。UCE 的耗時也很短，但 UCE 的概念移除效果與 RECE 相差較大。

作者簡介

論文共同第一作者為復旦大學視覺與學習實驗室的碩士新生公超和博士生陳凱。

通訊作者為陳靜靜副教授。

研究團隊專注于 AI 安全的研究，近年來在 CVPR，ECCV，AAAI，ACM MM 等頂會上發表過多篇 AI 安全的研究成果。

論文地址：https://arxiv.org/abs/2407.12383

代碼地址：https://github.com/CharlesGong12/RECE

— 完 —

投稿請發郵件到：

[email protected]

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文 / 項目主頁鏈接，以及聯系方式哦

我們會（盡量）及時回復你

點這裡關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~