專治大模型“套殼”！上海AI實驗室等給LLM做“指紋識别”，模型剪枝、合并等也無所遁形 - 大酷樂

今天小編分享的科學經驗：專治大模型“套殼”！上海AI實驗室等給LLM做“指紋識别”，模型剪枝、合并等也無所遁形，歡迎閲讀。

大模型 " 套殼 " 事件防不勝防，有沒有方法可以檢測套殼行為呢？

來自上海 AI 實驗室、中科院、人大和上交大的學者們，提出了一種大模型的 " 指紋識别 " 方法——REEF（Representation Encoding Fingerprints）。

在不改變模型性能的前提下，利用 REEF 就可以精準識别未經授權的後續開發行為。

REEF 依賴模型在微調後表征 " 不變性 " 的特點，基于表征編碼實現對大模型的 " 指紋鑑别 "。

并且即使經過剪枝、合并、參數排列和縮放變換等一系列操作，同樣能讓 " 套殼 " 行為無所遁形。

可以説，這項研究給大模型開發團隊提供了一種應對大模型侵權問題的新手段。

大模型表征具有 " 微調不變性 "

注：

在下文中，" 源模型 " 是指從頭訓練的 LLM（即論文中 victim model），如 Llama、Qwen 等；

" 被測模型 "（即論文中的 suspect model），分為兩類——基于源模型開發 / 訓練的 " 衍生模型 " 和其他 " 無關模型 "。

REEF 的目标是，給定一個被測模型，檢測其是否是來自 " 源模型 " 的 " 衍生模型 "，即所謂的 " 套殼 " 模型。

鑑于訓練大語言模型的投入巨大，模型所有者和第三方迫切需要一種準确高效的方法，以判斷被測模型是否來自某一源模型（例如 Code-llama 從 Llama-2 訓練而來）。

然而，現有的水印方法不僅增加了額外的訓練成本，還可能削弱模型的通用性能，且水印容易被删除。更重要的是，這些方法無法應用于已公開發布的模型。

此外，基于權重的指紋識别缺乏魯棒性，惡意開發者可以通過不同權重修改手段輕松繞過檢測。

由于不同模型在訓練數據和模型架構上的差異，不同的 LLM 的特征表示有所不同。

如下圖 ( a ) 所示，Llama 的表征與 Baichuan 和 Qwen 明顯不同，但與其微調模型（如 Llama-chat 和 Chinese-llama）更為接近。

這一現象揭示了表征作為 LLM" 指紋 " 的潛力。

基于以下兩點觀察，作者在源模型的表征上訓練了一個二元分類器，并将其應用于各種被測模型的表征，包括衍生模型和無關模型：

微調後的衍生模型的表征與源模型的表征相似，而無關模型的表征顯示出不同的分布；

一些高級語義概念在 LLM 的表征空間中 " 線性 " 編碼，從而可以輕松分類，如安全或不安全、誠實或不誠實等。

具體而言，作者使用 TruthfulQA 數據集，分别選擇 Llama-2-7B 和 Llama-2-13B 作為源模型，并在其數據集表征上訓練了多種深度神經網絡 DNN 分類器，例如線性分類器、多層感知器 MLP、卷積神經網絡 CNN 和圖卷積網絡 GCN。

然後，作者将訓練好的 DNN 分類器應用于被測模型的表征。

實驗結果表明：在源模型的表征上訓練的分類器能夠有效遷移到其衍生模型的表征上，但在無關模型的表征上失效。

這意味着，表征可以作為指紋來保護源模型的知識產權。

然而，使用 DNN 分類器識别源模型面臨以下挑戰：

DNN 具有固定的輸入維度，如果對源模型進行改變表征維度的剪枝操作，分類器不再适用；

DNN 對表征的排列缺乏魯棒性，惡意開發人員可能通過變換矩陣實現參數重排來規避檢測。

REEF：一種魯棒的 LLM 指紋識别方法

為了解決上述挑戰，作者提出一種新的基于表征的指紋識别方法—— REEF，具備良好的魯棒性。

REEF 利用中心核對齊 CKA 相似性，重點關注 LLM 的内部特征表征。

在評估被測模型是否來自源模型時，REEF 計算兩個模型對相同樣本的表征之間的 CKA 相似性。

該方法簡單高效，能夠确保捕獲到任何顯著的相似性，從而揭示模型之間的潛在衍生關系。

CKA 是基于希爾伯特 - 施密特獨立性準則（HilbertSchmidt Independence Criterion，HSIC）的相似性指數，用于測量兩組随機變量之間的獨立性。

X 和 Y 之間的 CKA 相似度可以按如下方式計算：

通過下面的定理 1，論文在理論上證明了 CKA 相似度在任何列排列和縮放變換下具有不變性。同時，CKA 能夠在不同維度的表征之間建立對應關系。

因此，REEF 對源模型的各種後續開發（包括模型剪枝和表征排列）表現出強魯棒性，從而确保基于表征的指紋能夠準确識别源模型。

無懼後續開發，穩穩識别 " 套殼 " 模型

作者将 REEF 應用于通過微調、剪枝、合并、排列和縮放變換等方式從源模型衍生出的被測模型。

這些方式可能顯著改變模型的結構或參數，使得現有方法難以有效識别源模型。

然而，REEF 在這些情況下依然能夠準确識别出源模型，進一步驗證了其魯棒性。

具體來説，從上面的表中，可以得出以下結論：

REEF 對微調具有很強的魯棒性，即使在使用多達 700B tokens 的微調情況下（Llama-7B），REEF 仍能達到 0.9962 的高相似度；

REEF 對各種剪枝策略都表現出魯棒性，無論結構化剪枝還是非結構化剪枝，REEF 都能夠有效識别源模型，即使剪枝比率高達 90%，REEF 依然能夠成功識别；

無論是基于權重或基于分布的模型合并方法，REEF 均能在識别合并模型的來源方面始終保持高準确性；

REEF 對任何列排列和縮放變換具有不變性，能夠抵御該類規避技術。

魯棒且高效：跨數據集和樣本量

作者進一步分析了 REEF 在不同數據集和不同樣本數量下的表現。

一方面，除了前文提到的 TruthfulQA 數據集，作者還選擇了 SST2、ConfAIde、PKUSafeRLHF 和 ToxiGen 等數據集進行實驗；

另一方面，對于每個數據集，别在樣本數量從 10 到 1000、每隔 10 的情況下進行采樣，以測試 REEF 的表現。

結果，REEF 在不同數據集上均表現出有效性，對數據集不具強依賴性（圖示在不同數據集上，源模型與衍生模型之間的相似性顯著高于其與無關模型之間的相似性，表明 REEF 能夠跨數據集穩定識别源模型）；

同時，REEF 依賴少量樣本即可穩健識别模型指紋，具有高效性（圖示 REEF 在 200-300 個樣本後結果趨于穩定，表明其可以在較少的樣本數量下實現可靠的指紋識别）。

REEF 它不僅保障了模型性能，還平衡了開放性與知識產權之間的關系，能夠确保衍生模型的責任可追溯。

作者相信，REEF 将為 AI 模型保護和知識產權管理設立新的标準，促進更透明、協作的 AI 社區。

作者簡介

本文由上海 AI Lab、中科院、人大和上交大聯合完成。

主要作者包括中科院博士生張傑、上海 AI Lab 青年研究員劉東瑞（共同一作）等。

通訊作者邵婧為上海 AI Lab 青年科學家，研究方向為 AI 安全可信。

論文地址：

https://arxiv.org/abs/2410.14273

項目主頁：

https://github.com/tmylla/REEF

— 完 —

投稿請發郵件到：

[email protected]

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文 / 項目主頁鏈接，以及聯系方式哦

我們會（盡量）及時回復你

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~

>