大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

3秒讓AI變乖,生成風險圖片減少30%!復旦新研究拿下擴散模型概念移除新SOTA

2024-08-27 简体 HK SG TW

今天小編分享的科學經驗:3秒讓AI變乖,生成風險圖片減少30%!復旦新研究拿下擴散模型概念移除新SOTA,歡迎閱讀。

讓 AI 繪畫模型變 " 乖 ",現在僅需3 秒調整模型參數。

效果 be like:生成的風險圖片比以往最佳方法減少30%!

像這樣,在充分移除梵高繪畫風格的同時,對非目标藝術風格幾乎沒有影響。

在移除裸露内容上,效果達到 " 只穿衣服,不改結構 "。

這就是復旦大學提出的概念移除新方法——RECE。

目前,基于擴散模型的 AI 生圖有時真假難辨,常被惡意用戶用來生成侵犯版權和包含風險内容(如虛假新聞、暴力色情内容)的影像。

SD 中使用的的安全措施是使用安全檢查器,對違規的生成影像不予展示,還集成了一些用 classifier-free guidance 來規避風險概念的方法。

但在開源條件下,惡意用戶可以輕松繞過這些機制,網上甚至有大把的教程……

針對此,學界提出了 " 概念移除 ",即通過微調來移除文生圖擴散模型中特定的風險概念,使其不再具備生成相應内容的能力。

這種方法的資源消耗遠低于從頭重新訓練的 SD v2.1 版本,也不能被輕易繞過。

而最新研究 RECE,拿下概念移除 SOTA 效果,并且對無關概念破壞極小,論文已被頂會 ECCV 2024 接收。

整個過程基于高效的解析解

此前,盡管概念移除進展迅速,其問題仍然明顯:

已有的方法為了安全性犧牲了較多的生成質量。

已有方法即使對模型破壞較大,仍不能充分移除不當概念,有很大幾率生成風險影像。

大多數方法需要大量的微調步數,計算資源消耗大。

那麼 RECE 是如何實現的?

RECE 主要包含兩個模塊:模型編輯和嵌入推導。

首先,RECE 以解析解的形式,在交叉注意力層中将風險概念映射到無害概念。

然後,RECE 以解析解的形式推導出風險概念的新嵌入表示并用于下一輪的模型編輯。

RECE 還包括了一個簡潔有效的正則項,可以證明其具有保護模型能力的作用,進而保證概念移除可以交替進行多輪。整個概念移除的過程都基于高效的解析解。

風險概念嵌入推導

RECE 的有效性來自于對已有方法概念移除不徹底的觀察:

以 " 裸露 " 為提示詞,SD 生成了裸露影像,UCE(一種概念移除方法)成功避免了裸露内容的生成;

然而,輸入有意設計的提示詞或文本嵌入,UCE 再次生成了裸露内容。

為引導編輯後的模型重新生成裸露内容,接下來将以 " 裸露 " 為例,介紹 RECE 是如何推導上述具有攻擊性的概念嵌入的。

既然是文生圖,那首先思考文本引導的機制——交叉注意力。

SD 利用 CLIP 作為文本編碼器得到提示詞的嵌入形式,并且獲得 key 與 value,與表征視覺特征的 query 一起,得到輸出:

如果能得到一個新的概念嵌入,滿足在編輯後的交叉注意力映射後,足夠接近經過編輯前的映射值,那麼應能夠誘導生成裸露圖片:

上式為凸函數,因此具有解析解,不需要繁瑣的梯度下降近似求解:

模型編輯

接下來 RECE 将編輯交叉注意力以移除風險概念。RECE 借鑑了已有的方法 UCE,通過解析解來編輯交叉注意力的權重,一步到位,避免繁瑣微調。

給定 " 源 " 概念(例如," 裸露 ")," 目标 " 概念(例如,空文本 " "),以及交叉注意力的 K/V 投影矩陣,UCE 的目标是找到新權重,将新權重下的映射值對齊到。

其中後面兩項是為了控制參數變化,最小化對無關概念的影響。這也是凸函數,将解析解直接賦值給新權重:

正則項

理想情況下,将公式 ( 5 ) 得到的移除就可以避免生成裸露内容了,然而團隊發現這會對模型能力產生極大的破壞。

因此在相鄰的兩輪概念移除中,RECE 對無關概念的映射值變化做了約束:

學過線性代數的同學是不是覺得很熟悉呢?

利用矩陣範數的相容性,證明得到:

因此只需在推導時添加一個範數約束項,就能保護模型的能力:

其解析解為:

綜上,RECE 的算法流程歸納為:

RECE 效果如何?

不安全概念移除

首先來看最敏感的内容——色情。在 I2P 基準數據集上,RECE 的裸露移除效果超過了全部已有方法。

團隊還評估了概念移除後模型的正常内容生成能力,即無關概念集 COCO-30k 上的 FID 指标,也遠超 CA 等方法。

藝術風格移除

保護藝術版權不受 AI 侵犯同樣十分敏感。綜合效果方面,RECE 優于所有方法。

并且細致來看,RECE 是唯一一個在目标藝術家擦除效果和無關藝術家保留效果方面都表現優異的方法。

紅隊魯棒性

RECE 對惡意用戶的有意攻擊同樣可以有效防護,在紅隊攻擊下,RECE 生成風險圖片的幾率仍是最低。

模型編輯耗時

RECE 5 個 Epoch 僅需 3.4 秒,參數改動比例、編輯耗時遠低于 CA 等方法。UCE 的耗時也很短,但 UCE 的概念移除效果與 RECE 相差較大。

作者簡介

論文共同第一作者為復旦大學視覺與學習實驗室的碩士新生公超和博士生陳凱。

通訊作者為陳靜靜副教授。

研究團隊專注于 AI 安全的研究,近年來在 CVPR,ECCV,AAAI,ACM MM 等頂會上發表過多篇 AI 安全的研究成果。

論文地址:https://arxiv.org/abs/2407.12383

代碼地址:https://github.com/CharlesGong12/RECE

—  完  —

投稿請發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

點這裡關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們