大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

专治大模型“套壳”!上海AI实验室等给LLM做“指纹识别”,模型剪枝、合并等也无所遁形

2024-12-13 简体 HK SG TW

今天小编分享的科学经验:专治大模型“套壳”!上海AI实验室等给LLM做“指纹识别”,模型剪枝、合并等也无所遁形,欢迎阅读。

大模型 " 套壳 " 事件防不胜防,有没有方法可以检测套壳行为呢?

来自上海 AI 实验室、中科院、人大和上交大的学者们,提出了一种大模型的 " 指纹识别 " 方法——REEF(Representation Encoding Fingerprints)。

在不改变模型性能的前提下,利用 REEF 就可以精准识别未经授权的后续开发行为。

REEF 依赖模型在微调后表征 " 不变性 " 的特点,基于表征编码实现对大模型的 " 指纹鉴别 "。

并且即使经过剪枝、合并、参数排列和缩放变换等一系列操作,同样能让 " 套壳 " 行为无所遁形。

可以说,这项研究给大模型开发团队提供了一种应对大模型侵权问题的新手段。

大模型表征具有 " 微调不变性 "

注:

在下文中," 源模型 " 是指从头训练的 LLM(即论文中 victim model),如 Llama、Qwen 等;

" 被测模型 "(即论文中的 suspect model),分为两类——基于源模型开发 / 训练的 " 衍生模型 " 和其他 " 无关模型 "。

REEF 的目标是,给定一个被测模型,检测其是否是来自 " 源模型 " 的 " 衍生模型 ",即所谓的 " 套壳 " 模型。

鉴于训练大语言模型的投入巨大,模型所有者和第三方迫切需要一种准确高效的方法,以判断被测模型是否来自某一源模型(例如 Code-llama 从 Llama-2 训练而来)。

然而,现有的水印方法不仅增加了额外的训练成本,还可能削弱模型的通用性能,且水印容易被删除。更重要的是,这些方法无法应用于已公开发布的模型。

此外,基于权重的指纹识别缺乏鲁棒性,恶意开发者可以通过不同权重修改手段轻松绕过检测。

由于不同模型在训练数据和模型架构上的差异,不同的 LLM 的特征表示有所不同。

如下图 ( a ) 所示,Llama 的表征与 Baichuan 和 Qwen 明显不同,但与其微调模型(如 Llama-chat 和 Chinese-llama)更为接近。

这一现象揭示了表征作为 LLM" 指纹 " 的潜力。

基于以下两点观察,作者在源模型的表征上训练了一个二元分类器,并将其应用于各种被测模型的表征,包括衍生模型和无关模型:

微调后的衍生模型的表征与源模型的表征相似,而无关模型的表征显示出不同的分布;

一些高级语义概念在 LLM 的表征空间中 " 线性 " 编码,从而可以轻松分类,如安全或不安全、诚实或不诚实等。

具体而言,作者使用 TruthfulQA 数据集,分别选择 Llama-2-7B 和 Llama-2-13B 作为源模型,并在其数据集表征上训练了多种深度神经网络 DNN 分类器,例如线性分类器、多层感知器 MLP、卷积神经网络 CNN 和图卷积网络 GCN。

然后,作者将训练好的 DNN 分类器应用于被测模型的表征。

实验结果表明:在源模型的表征上训练的分类器能够有效迁移到其衍生模型的表征上,但在无关模型的表征上失效。

这意味着,表征可以作为指纹来保护源模型的知识产权。

然而,使用 DNN 分类器识别源模型面临以下挑战:

DNN 具有固定的输入维度,如果对源模型进行改变表征维度的剪枝操作,分类器不再适用;

DNN 对表征的排列缺乏鲁棒性,恶意开发人员可能通过变换矩阵实现参数重排来规避检测。

REEF:一种鲁棒的 LLM 指纹识别方法

为了解决上述挑战,作者提出一种新的基于表征的指纹识别方法—— REEF,具备良好的鲁棒性。

REEF 利用中心核对齐 CKA 相似性,重点关注 LLM 的内部特征表征。

在评估被测模型是否来自源模型时,REEF 计算两个模型对相同样本的表征之间的 CKA 相似性。

该方法简单高效,能够确保捕获到任何显著的相似性,从而揭示模型之间的潜在衍生关系。

CKA 是基于希尔伯特 - 施密特独立性准则(HilbertSchmidt Independence Criterion,HSIC)的相似性指数,用于测量两组随机变量之间的独立性。

X 和 Y 之间的 CKA 相似度可以按如下方式计算:

通过下面的定理 1,论文在理论上证明了 CKA 相似度在任何列排列和缩放变换下具有不变性。同时,CKA 能够在不同维度的表征之间建立对应关系。

因此,REEF 对源模型的各种后续开发(包括模型剪枝和表征排列)表现出强鲁棒性,从而确保基于表征的指纹能够准确识别源模型。

无惧后续开发,稳稳识别 " 套壳 " 模型

作者将 REEF 应用于通过微调、剪枝、合并、排列和缩放变换等方式从源模型衍生出的被测模型。

这些方式可能显著改变模型的结构或参数,使得现有方法难以有效识别源模型。

然而,REEF 在这些情况下依然能够准确识别出源模型,进一步验证了其鲁棒性。

具体来说,从上面的表中,可以得出以下结论:

REEF 对微调具有很强的鲁棒性,即使在使用多达 700B tokens 的微调情况下(Llama-7B),REEF 仍能达到 0.9962 的高相似度;

REEF 对各种剪枝策略都表现出鲁棒性,无论结构化剪枝还是非结构化剪枝,REEF 都能够有效识别源模型,即使剪枝比率高达 90%,REEF 依然能够成功识别;

无论是基于权重或基于分布的模型合并方法,REEF 均能在识别合并模型的来源方面始终保持高准确性;

REEF 对任何列排列和缩放变换具有不变性,能够抵御该类规避技术。

鲁棒且高效:跨数据集和样本量

作者进一步分析了 REEF 在不同数据集和不同样本数量下的表现。

一方面,除了前文提到的 TruthfulQA 数据集,作者还选择了 SST2、ConfAIde、PKUSafeRLHF 和 ToxiGen 等数据集进行实验;

另一方面,对于每个数据集,别在样本数量从 10 到 1000、每隔 10 的情况下进行采样,以测试 REEF 的表现。

结果,REEF 在不同数据集上均表现出有效性,对数据集不具强依赖性(图示在不同数据集上,源模型与衍生模型之间的相似性显著高于其与无关模型之间的相似性,表明 REEF 能够跨数据集稳定识别源模型);

同时,REEF 依赖少量样本即可稳健识别模型指纹,具有高效性(图示 REEF 在 200-300 个样本后结果趋于稳定,表明其可以在较少的样本数量下实现可靠的指纹识别)。

REEF 它不仅保障了模型性能,还平衡了开放性与知识产权之间的关系,能够确保衍生模型的责任可追溯。

作者相信,REEF 将为 AI 模型保护和知识产权管理设立新的标准,促进更透明、协作的 AI 社区。

作者简介

本文由上海 AI Lab、中科院、人大和上交大联合完成。

主要作者包括中科院博士生张杰、上海 AI Lab 青年研究员刘东瑞(共同一作)等。

通讯作者邵婧为上海 AI Lab 青年科学家,研究方向为 AI 安全可信。

论文地址:

https://arxiv.org/abs/2410.14273

项目主页:

https://github.com/tmylla/REEF

—  完  —

投稿请发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們