专治大模型“套壳”！上海AI实验室等给LLM做“指纹识别”，模型剪枝、合并等也无所遁形 - 大酷樂

今天小编分享的科学经验：专治大模型“套壳”！上海AI实验室等给LLM做“指纹识别”，模型剪枝、合并等也无所遁形，欢迎阅读。

大模型 " 套壳 " 事件防不胜防，有没有方法可以检测套壳行为呢？

来自上海 AI 实验室、中科院、人大和上交大的学者们，提出了一种大模型的 " 指纹识别 " 方法——REEF（Representation Encoding Fingerprints）。

在不改变模型性能的前提下，利用 REEF 就可以精准识别未经授权的后续开发行为。

REEF 依赖模型在微调后表征 " 不变性 " 的特点，基于表征编码实现对大模型的 " 指纹鉴别 "。

并且即使经过剪枝、合并、参数排列和缩放变换等一系列操作，同样能让 " 套壳 " 行为无所遁形。

可以说，这项研究给大模型开发团队提供了一种应对大模型侵权问题的新手段。

大模型表征具有 " 微调不变性 "

注：

在下文中，" 源模型 " 是指从头训练的 LLM（即论文中 victim model），如 Llama、Qwen 等；

" 被测模型 "（即论文中的 suspect model），分为两类——基于源模型开发 / 训练的 " 衍生模型 " 和其他 " 无关模型 "。

REEF 的目标是，给定一个被测模型，检测其是否是来自 " 源模型 " 的 " 衍生模型 "，即所谓的 " 套壳 " 模型。

鉴于训练大语言模型的投入巨大，模型所有者和第三方迫切需要一种准确高效的方法，以判断被测模型是否来自某一源模型（例如 Code-llama 从 Llama-2 训练而来）。

然而，现有的水印方法不仅增加了额外的训练成本，还可能削弱模型的通用性能，且水印容易被删除。更重要的是，这些方法无法应用于已公开发布的模型。

此外，基于权重的指纹识别缺乏鲁棒性，恶意开发者可以通过不同权重修改手段轻松绕过检测。

由于不同模型在训练数据和模型架构上的差异，不同的 LLM 的特征表示有所不同。

如下图 ( a ) 所示，Llama 的表征与 Baichuan 和 Qwen 明显不同，但与其微调模型（如 Llama-chat 和 Chinese-llama）更为接近。

这一现象揭示了表征作为 LLM" 指纹 " 的潜力。

基于以下两点观察，作者在源模型的表征上训练了一个二元分类器，并将其应用于各种被测模型的表征，包括衍生模型和无关模型：

微调后的衍生模型的表征与源模型的表征相似，而无关模型的表征显示出不同的分布；

一些高级语义概念在 LLM 的表征空间中 " 线性 " 编码，从而可以轻松分类，如安全或不安全、诚实或不诚实等。

具体而言，作者使用 TruthfulQA 数据集，分别选择 Llama-2-7B 和 Llama-2-13B 作为源模型，并在其数据集表征上训练了多种深度神经网络 DNN 分类器，例如线性分类器、多层感知器 MLP、卷积神经网络 CNN 和图卷积网络 GCN。

然后，作者将训练好的 DNN 分类器应用于被测模型的表征。

实验结果表明：在源模型的表征上训练的分类器能够有效迁移到其衍生模型的表征上，但在无关模型的表征上失效。

这意味着，表征可以作为指纹来保护源模型的知识产权。

然而，使用 DNN 分类器识别源模型面临以下挑战：

DNN 具有固定的输入维度，如果对源模型进行改变表征维度的剪枝操作，分类器不再适用；

DNN 对表征的排列缺乏鲁棒性，恶意开发人员可能通过变换矩阵实现参数重排来规避检测。

REEF：一种鲁棒的 LLM 指纹识别方法

为了解决上述挑战，作者提出一种新的基于表征的指纹识别方法—— REEF，具备良好的鲁棒性。

REEF 利用中心核对齐 CKA 相似性，重点关注 LLM 的内部特征表征。

在评估被测模型是否来自源模型时，REEF 计算两个模型对相同样本的表征之间的 CKA 相似性。

该方法简单高效，能够确保捕获到任何显著的相似性，从而揭示模型之间的潜在衍生关系。

CKA 是基于希尔伯特 - 施密特独立性准则（HilbertSchmidt Independence Criterion，HSIC）的相似性指数，用于测量两组随机变量之间的独立性。

X 和 Y 之间的 CKA 相似度可以按如下方式计算：

通过下面的定理 1，论文在理论上证明了 CKA 相似度在任何列排列和缩放变换下具有不变性。同时，CKA 能够在不同维度的表征之间建立对应关系。

因此，REEF 对源模型的各种后续开发（包括模型剪枝和表征排列）表现出强鲁棒性，从而确保基于表征的指纹能够准确识别源模型。

无惧后续开发，稳稳识别 " 套壳 " 模型

作者将 REEF 应用于通过微调、剪枝、合并、排列和缩放变换等方式从源模型衍生出的被测模型。

这些方式可能显著改变模型的结构或参数，使得现有方法难以有效识别源模型。

然而，REEF 在这些情况下依然能够准确识别出源模型，进一步验证了其鲁棒性。

具体来说，从上面的表中，可以得出以下结论：

REEF 对微调具有很强的鲁棒性，即使在使用多达 700B tokens 的微调情况下（Llama-7B），REEF 仍能达到 0.9962 的高相似度；

REEF 对各种剪枝策略都表现出鲁棒性，无论结构化剪枝还是非结构化剪枝，REEF 都能够有效识别源模型，即使剪枝比率高达 90%，REEF 依然能够成功识别；

无论是基于权重或基于分布的模型合并方法，REEF 均能在识别合并模型的来源方面始终保持高准确性；

REEF 对任何列排列和缩放变换具有不变性，能够抵御该类规避技术。

鲁棒且高效：跨数据集和样本量

作者进一步分析了 REEF 在不同数据集和不同样本数量下的表现。

一方面，除了前文提到的 TruthfulQA 数据集，作者还选择了 SST2、ConfAIde、PKUSafeRLHF 和 ToxiGen 等数据集进行实验；

另一方面，对于每个数据集，别在样本数量从 10 到 1000、每隔 10 的情况下进行采样，以测试 REEF 的表现。

结果，REEF 在不同数据集上均表现出有效性，对数据集不具强依赖性（图示在不同数据集上，源模型与衍生模型之间的相似性显著高于其与无关模型之间的相似性，表明 REEF 能够跨数据集稳定识别源模型）；

同时，REEF 依赖少量样本即可稳健识别模型指纹，具有高效性（图示 REEF 在 200-300 个样本后结果趋于稳定，表明其可以在较少的样本数量下实现可靠的指纹识别）。

REEF 它不仅保障了模型性能，还平衡了开放性与知识产权之间的关系，能够确保衍生模型的责任可追溯。

作者相信，REEF 将为 AI 模型保护和知识产权管理设立新的标准，促进更透明、协作的 AI 社区。

作者简介

本文由上海 AI Lab、中科院、人大和上交大联合完成。

主要作者包括中科院博士生张杰、上海 AI Lab 青年研究员刘东瑞（共同一作）等。

通讯作者邵婧为上海 AI Lab 青年科学家，研究方向为 AI 安全可信。

论文地址：

https://arxiv.org/abs/2410.14273

项目主页：

https://github.com/tmylla/REEF

— 完 —

投稿请发邮件到：

[email protected]

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容‍

附上论文 / 项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

点这里关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

>