大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

專治大模型“套殼”!上海AI實驗室等給LLM做“指紋識别”,模型剪枝、合并等也無所遁形

2024-12-13 简体 HK SG TW

今天小編分享的科學經驗:專治大模型“套殼”!上海AI實驗室等給LLM做“指紋識别”,模型剪枝、合并等也無所遁形,歡迎閲讀。

大模型 " 套殼 " 事件防不勝防,有沒有方法可以檢測套殼行為呢?

來自上海 AI 實驗室、中科院、人大和上交大的學者們,提出了一種大模型的 " 指紋識别 " 方法——REEF(Representation Encoding Fingerprints)。

在不改變模型性能的前提下,利用 REEF 就可以精準識别未經授權的後續開發行為。

REEF 依賴模型在微調後表征 " 不變性 " 的特點,基于表征編碼實現對大模型的 " 指紋鑑别 "。

并且即使經過剪枝、合并、參數排列和縮放變換等一系列操作,同樣能讓 " 套殼 " 行為無所遁形。

可以説,這項研究給大模型開發團隊提供了一種應對大模型侵權問題的新手段。

大模型表征具有 " 微調不變性 "

注:

在下文中," 源模型 " 是指從頭訓練的 LLM(即論文中 victim model),如 Llama、Qwen 等;

" 被測模型 "(即論文中的 suspect model),分為兩類——基于源模型開發 / 訓練的 " 衍生模型 " 和其他 " 無關模型 "。

REEF 的目标是,給定一個被測模型,檢測其是否是來自 " 源模型 " 的 " 衍生模型 ",即所謂的 " 套殼 " 模型。

鑑于訓練大語言模型的投入巨大,模型所有者和第三方迫切需要一種準确高效的方法,以判斷被測模型是否來自某一源模型(例如 Code-llama 從 Llama-2 訓練而來)。

然而,現有的水印方法不僅增加了額外的訓練成本,還可能削弱模型的通用性能,且水印容易被删除。更重要的是,這些方法無法應用于已公開發布的模型。

此外,基于權重的指紋識别缺乏魯棒性,惡意開發者可以通過不同權重修改手段輕松繞過檢測。

由于不同模型在訓練數據和模型架構上的差異,不同的 LLM 的特征表示有所不同。

如下圖 ( a ) 所示,Llama 的表征與 Baichuan 和 Qwen 明顯不同,但與其微調模型(如 Llama-chat 和 Chinese-llama)更為接近。

這一現象揭示了表征作為 LLM" 指紋 " 的潛力。

基于以下兩點觀察,作者在源模型的表征上訓練了一個二元分類器,并将其應用于各種被測模型的表征,包括衍生模型和無關模型:

微調後的衍生模型的表征與源模型的表征相似,而無關模型的表征顯示出不同的分布;

一些高級語義概念在 LLM 的表征空間中 " 線性 " 編碼,從而可以輕松分類,如安全或不安全、誠實或不誠實等。

具體而言,作者使用 TruthfulQA 數據集,分别選擇 Llama-2-7B 和 Llama-2-13B 作為源模型,并在其數據集表征上訓練了多種深度神經網絡 DNN 分類器,例如線性分類器、多層感知器 MLP、卷積神經網絡 CNN 和圖卷積網絡 GCN。

然後,作者将訓練好的 DNN 分類器應用于被測模型的表征。

實驗結果表明:在源模型的表征上訓練的分類器能夠有效遷移到其衍生模型的表征上,但在無關模型的表征上失效。

這意味着,表征可以作為指紋來保護源模型的知識產權。

然而,使用 DNN 分類器識别源模型面臨以下挑戰:

DNN 具有固定的輸入維度,如果對源模型進行改變表征維度的剪枝操作,分類器不再适用;

DNN 對表征的排列缺乏魯棒性,惡意開發人員可能通過變換矩陣實現參數重排來規避檢測。

REEF:一種魯棒的 LLM 指紋識别方法

為了解決上述挑戰,作者提出一種新的基于表征的指紋識别方法—— REEF,具備良好的魯棒性。

REEF 利用中心核對齊 CKA 相似性,重點關注 LLM 的内部特征表征。

在評估被測模型是否來自源模型時,REEF 計算兩個模型對相同樣本的表征之間的 CKA 相似性。

該方法簡單高效,能夠确保捕獲到任何顯著的相似性,從而揭示模型之間的潛在衍生關系。

CKA 是基于希爾伯特 - 施密特獨立性準則(HilbertSchmidt Independence Criterion,HSIC)的相似性指數,用于測量兩組随機變量之間的獨立性。

X 和 Y 之間的 CKA 相似度可以按如下方式計算:

通過下面的定理 1,論文在理論上證明了 CKA 相似度在任何列排列和縮放變換下具有不變性。同時,CKA 能夠在不同維度的表征之間建立對應關系。

因此,REEF 對源模型的各種後續開發(包括模型剪枝和表征排列)表現出強魯棒性,從而确保基于表征的指紋能夠準确識别源模型。

無懼後續開發,穩穩識别 " 套殼 " 模型

作者将 REEF 應用于通過微調、剪枝、合并、排列和縮放變換等方式從源模型衍生出的被測模型。

這些方式可能顯著改變模型的結構或參數,使得現有方法難以有效識别源模型。

然而,REEF 在這些情況下依然能夠準确識别出源模型,進一步驗證了其魯棒性。

具體來説,從上面的表中,可以得出以下結論:

REEF 對微調具有很強的魯棒性,即使在使用多達 700B tokens 的微調情況下(Llama-7B),REEF 仍能達到 0.9962 的高相似度;

REEF 對各種剪枝策略都表現出魯棒性,無論結構化剪枝還是非結構化剪枝,REEF 都能夠有效識别源模型,即使剪枝比率高達 90%,REEF 依然能夠成功識别;

無論是基于權重或基于分布的模型合并方法,REEF 均能在識别合并模型的來源方面始終保持高準确性;

REEF 對任何列排列和縮放變換具有不變性,能夠抵御該類規避技術。

魯棒且高效:跨數據集和樣本量

作者進一步分析了 REEF 在不同數據集和不同樣本數量下的表現。

一方面,除了前文提到的 TruthfulQA 數據集,作者還選擇了 SST2、ConfAIde、PKUSafeRLHF 和 ToxiGen 等數據集進行實驗;

另一方面,對于每個數據集,别在樣本數量從 10 到 1000、每隔 10 的情況下進行采樣,以測試 REEF 的表現。

結果,REEF 在不同數據集上均表現出有效性,對數據集不具強依賴性(圖示在不同數據集上,源模型與衍生模型之間的相似性顯著高于其與無關模型之間的相似性,表明 REEF 能夠跨數據集穩定識别源模型);

同時,REEF 依賴少量樣本即可穩健識别模型指紋,具有高效性(圖示 REEF 在 200-300 個樣本後結果趨于穩定,表明其可以在較少的樣本數量下實現可靠的指紋識别)。

REEF 它不僅保障了模型性能,還平衡了開放性與知識產權之間的關系,能夠确保衍生模型的責任可追溯。

作者相信,REEF 将為 AI 模型保護和知識產權管理設立新的标準,促進更透明、協作的 AI 社區。

作者簡介

本文由上海 AI Lab、中科院、人大和上交大聯合完成。

主要作者包括中科院博士生張傑、上海 AI Lab 青年研究員劉東瑞(共同一作)等。

通訊作者邵婧為上海 AI Lab 青年科學家,研究方向為 AI 安全可信。

論文地址:

https://arxiv.org/abs/2410.14273

項目主頁:

https://github.com/tmylla/REEF

—  完  —

投稿請發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

點這裏關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們