大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

多忽悠几次AI全招了!Anthropic警告:长上下文成越狱突破口,GPT羊驼Claude无一幸免

2024-04-03 简体 HK SG TW

今天小编分享的科学经验:多忽悠几次AI全招了!Anthropic警告:长上下文成越狱突破口,GPT羊驼Claude无一幸免,欢迎阅读。

大模型厂商在上下文长度上卷的不可开交之际,一项最新研究泼来了一盆冷水——

Claude 背后厂商 Anthropic 发现,随着視窗长度的不断增加,大模型的 " 越狱 " 现象开始死灰复燃。

无论是闭源的 GPT-4 和 Claude 2,还是开源的 Llama2 和 Mistral,都未能幸免。

研究人员设计了一种名为多次样本越狱(Many-shot Jailbreaking,MSJ)的攻击方法,通过向大模型灌输大量包含不良行为的文本样本实现。

通过这种方法,他们测试了包括 Claude 2.0、GPT-4 等在内的多个知名大模型。

结果,只要忽悠的次数足够多,这种方法就能在各种类型的不良信息上成功攻破大模型的防线。

目前,针对这一漏洞,尚未发现完美的解决方案,Anthropic 表示,发布这一信息正是为了问题能尽快得到解决,并已提前向其他厂商和学术界通报了这一情况。

那么,这项研究具体都有哪些发现呢?

知名模型无一幸免

首先,研究人员用去除了安全措施的模型生成了大量的有害字元串。

这些内容涵盖滥用或欺诈内容(Abusive or fraudulent)、虚假或误导性信息(Deceptive or misleading)、非法或管制物品、暴力仇恨或威胁内容四个方面,每个方面各生成了 2500 条样本,研究人员从每种类型中各挑选了 200 个用于测试。

然后,研究人员把这些内容打乱顺序,并改编成用户与模型的 " 聊天记录 ",并将目标问题一起输入被测模型。

然后,研究人员用一个拒绝分类器(refusal classifier)来对攻击效果进行了评估,这个分类器会根据模型的响应来判断其是否 " 拒绝 " 了不适当的请求。

结果发现,闭源模型中最强的 GPT-4 和 Claude,以及开源模型中最知名的 Llama 和 Mistral,在面对不同类型的攻击信息时,无一例外全部沦陷。

而且随着样本数量的不断增多,这种攻击方法在四种类型的有害内容上的攻击成功率都呈现出了大幅上升,最多的已经超过了 70%。

而且成功的概率与样本数量之间呈现出了指数分布,样本数量在 8 时以下几乎无法成功,而到了 2^5(32)的位置出现了明显拐点,再到 2^8(256)时已经拥有极高的成功率。

而从模型的维度看,除了 Llama2-70B 由于視窗长度限制没有样本较多时的数据之外,GPT、Claude 等模型的负对数似然(NLL,越低代表攻击越成功)值也呈现出了这样的分布规律。

同时研究人员还发现,目标问题与给出信息的匹配程度、模型大小和信息的格式,也都会影响攻击的成功率。

当目标问题与攻击信息不匹配时,如果攻击信息涵盖的类型足够多样化,攻击成功率几乎没有受到任何影响,但当其涉及范围较窄时,攻击则几乎失效。

规模方面,越大的模型,被攻击的概率也越大;而通过交换身份、翻译等方式修改攻击内容的格式,也会提高成功概率。

此外,这种攻击方式还可以与其他越狱技术结合,例如与黑盒攻击一同使用时,成功率最多可以提高将近 20 个百分点。

总的来说,这样的攻击方式,从原理上看似乎很简单,但为什么視窗长度变长之后,成功率就增加了呢?

或许你已经注意到,研究人员发现 " 越狱 " 的成功率和样本数量遵循幂律分布,也就是随着样本越来越多,成功率不仅更高,增长得也更快。

而且研究发现,较大的模型在长上下文中学习的速度也更快,更容易受到上下文内容的影响。

而視窗长度的增加,也就意味着为有害信息提供了更多的土壤,可以加入的样本数量变多了,模型能看到学到的也就更多了," 越狱 " 概率自然随之大幅上升。

此外还有模型的长期依赖性的影响——较长的上下文允许模型学习并模仿更长序列的行为模式,这也可能导致模型在面对攻击时表现出不期望的行为。

那么,有没有什么办法能解决这个问题呢?有,但都还不完善。

解决方案仍待探索

针对这一问题,研究人员也提出了一些可能的解决方案,不过都还存在瑕疵。

最简单粗暴的,就是限制視窗长度,这种方法直接 " 釜底抽薪 ",理论上是有效的,但难免有些因噎废食。

第二个思路,则是通过监督学习(SL)和强化学习(RL)来进行对齐微调,从而减少有害内容的生成。

可以看出,随着对齐强度的增大,成功攻击所需的样本数量确实有所增大,但并未改变指数型的增长趋势。

于是研究人员又改用具有针对性的 SL 和 RL,结果是外甥打灯笼——照旧(舅)。

随着 RL 步数的增加,攻击难度同样是越来越大,但是整体趋势依旧无法扭转。

另外一种方式就是从提示词下手,包括 InContext Defense(ICD)和 Cautionary Warning Defense(CWD)等方法——

ICD 在提示前添加拒绝有害问题的示例,而 CWD 则在提示前后添加警告文本,意图预防或减轻这种攻击带来的影响。

结果发现,作者提出的 CWD 方法效果出奇的好,在样本数不超过 128 时,攻击几乎无法取得成功,继续增加样本量时,61% 的成功率也降到了 2%。

但这种方法同样存在局限性,一是攻击策略在不断变化、新的有害内容类型也随时可能出现,CWD 可能需要频繁更新和维护才能保持有效,无疑会增加运营成本。

另外,过多的警告性文本可能会干扰模型的正常运作,例如减慢响应时间或影响生成内容的自然流畅性,导致用户体验下降。

总之,目前尚未找到既能完美解决问题又不显著影响模型效果的办法,Anthropic 选择发布通告将这项研究公之于众,也是为了让整个业界都能关注这个问题,从而更快找到解决方案。

而这背后也体现出了人们对大模型认识的不足,就像这位 Anthropic 员工所说,人们在认识上下文視窗这件事情上,还有很长的路要走……

参考链接(含论文):

https://www.anthropic.com/research/many-shot-jailbreaking

—  完  —

【 火热报名中】中国 AIGC 产业峰会

定档 4 月 17 日

峰会已经邀请到数位代表技术、产品、投资、用户等领網域嘉宾,共论生成式 AI 产业最新变革趋势。

最新确认嘉宾包括:商汤科技杨帆、轻松集团高玉石、印象笔记唐毅、蚂蚁集团李建国等,。

峰会将全程线上下同步直播,欢迎预约直播 ⬇️

点这里关注我,记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們