ChatGPT被「神秘代碼」攻破安全限制！毀滅人類步驟脱口而出，羊駝和Claude無一幸免 - 大酷樂

今天小編分享的科學經驗：ChatGPT被「神秘代碼」攻破安全限制！毀滅人類步驟脱口而出，羊駝和Claude無一幸免，歡迎閲讀。

大模型的「護城河」，再次被攻破。

輸入一段神秘代碼，就能讓大模型生成有害内容。

從 ChatGPT、Claude 到開源的羊駝家族，無一幸免。

近日，卡内基梅隆大學和 safe.ai 共同發表的一項研究表明，大模型的安全機制可以通過一段神秘代碼被破解。

他們甚至做出了一套可以量身設計「攻擊提示詞」的算法。

論文作者還表示，這一問題「沒有明顯的解決方案」。

目前，團隊已經将研究結果分享給了包括 OpenAI、Anthropic 和 Google 等在内的大模型廠商。

上述三方均回應稱已經關注到這一現象并将持續改進，對團隊的工作表示了感謝。

常見大模型全軍覆沒

盡管各種大模型的安全機制不盡相同，甚至有一些并未公開，但都不同程度被攻破。

比如對于「如何毀滅人類」這一問題，ChatGPT、Bard、Claude 和 LLaMA-2 都給出了自己的方式。

而針對一些具體問題，大模型的安全機制同樣沒能防住。

雖説這些方法可能知道了也沒法做出來，但還是為我們敲響了警鍾。

從數據上看，各大廠商的大模型都受到了不同程度的影響，其中以 GPT-3.5 最為明顯。

除了上面這些模型，開源的羊駝家族面對攻擊同樣沒能遭住。

以 Vicuna-7B 和 LLaMA-2 ( 7B ) 為例，在「多種危害行為」的測試中，攻擊成功率均超過 80%。

其中對 Vicuna 的攻擊成功率甚至達到了 98%，訓練過程則為100%。

△ASR 指攻擊成功率

總體上看，研究團隊發明的攻擊方式成功率非常高。

那麼，這究竟是一種什麼樣的攻擊方法？

定制化的越獄提示詞

不同于傳統的攻擊方式中的「萬金油」式的提示詞，研究團隊設計了一套算法，專門生成「定制化」的提示詞。

而且這些提示詞也不像傳統方式中的人類語言，它們從人類的角度看往往不知所雲，甚至包含亂碼。

生成提示詞的算法叫做貪婪坐标梯度 ( Greedy Coordinate Gradient，簡稱 GCG ) 。

首先，GCG 會随機生成一個 prompt，并計算出每個 token 的替換詞的梯度值。

然後，GCG 會從梯度值較小的幾個替換詞中随機選取一個，對初始 prompt 中的 token 進行替換。

接着是計算新 prompt 的損失數據，并重復前述步驟，直到損失函數收斂或達到循環次數上限。

以 GCG 算法為基礎，研究團隊提出了一種 prompt 優化方式，稱為「基于 GCG 的檢索」。

随着 GCG 循環次數的增加，生成的 prompt 攻擊大模型的成功率越來越高，損失也逐漸降低。

可以説，這種全新的攻擊方式，暴露出了大模型現有防御機制的短板。

防御方式仍需改進

自大模型誕生之日起，安全機制一直在不斷更新。

一開始甚至可能直接生成敏感内容，到如今常規的語言已經無法騙過大模型。

包括曾經紅極一時的「奶奶漏洞」，如今也已經被修復。

不過，就算是這種離譜的攻擊方式，依舊沒有超出人類語言的範疇。

但大模型開發者可能沒想到的是，沒有人規定越獄詞必須得是人話。

所以，針對這種由機器設計的「亂碼」一樣的攻擊詞，大模型以人類語言為出發點設計的防御方式就顯得捉襟見肘了。

按照論文作者的説法，目前還沒有方法可以防御這種全新的攻擊方式。

對「機器攻擊」的防御，該提上日程了。

One More Thing

量子位實測發現，在 ChatGPT、Bard 和 Claude 中，論文中已經展示過的攻擊提示詞已經失效。

但團隊并沒有公開全部的 prompt，所以這是否意味着這一問題已經得到全面修復，仍不得而知。

論文地址：

https://llm-attacks.org/zou2023universal.pdf

參考鏈接：

[ 1 ] https://www.theregister.com/2023/07/27/llm_automated_attacks/

[ 2 ] https://www.nytimes.com/2023/07/27/business/ai-chatgpt-safety-research.html

熱門排行

李威涉傷害致死案内幕：殺人動機與錢有關，警方集玲琳 | 2025-02-25
救市的《哪吒2》能不能“拯救”月薪三千的袁曼雁 | 2025-02-25
國泰君安：3月港股配置重心在于應對宏觀變量寸飛蘭 | 2025-02-25
誰能想到呢，倪虹潔竟跑通了短劇賽道！繁綺文 | 2025-02-25
女子噴“生發神器”後變“小毛人”，吓得緊急集玲琳 | 2025-02-25
何依婷懷孕7個月曬孕肚照，街拍仍舊很少女感，繁綺文 | 2025-02-25
意甲3連勝！羅馬4-0蒙扎近10輪7勝3平薩勒馬衛青柏 | 2025-02-25
華泰證券：全球GLP-1產品空缺較大，并購潮有望寸飛蘭 | 2025-02-25
演員杜雁冰：靠一部劇吃一輩子，如今丈夫紅到令甄正浩 | 2025-02-25
揭秘森林狼詢價杜蘭特：積極談判想讓KD聯手華幸聽楓 | 2025-02-25
高露現身上海虹橋機場黑色外套點綴亮色愛惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：處理器更新為天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懶癌”發病率上升，定期體檢别忽視幸聽楓 | 2023-05-02
宋慧喬獲百想視後韓素希發圖手動加愛心表賁芳蕤 | 2023-05-02
十年了，他們終于要HE！惠惠君 | 2023-05-07
曹操墓，裏面都有啥？衛青柏 | 2023-05-02
中央部署經濟工作，釋放5大信号郜萌運 | 2023-05-02
陳自瑤抱病為愛女做蛋糕慶生，王浩信點贊沒露賁芳蕤 | 2023-05-02
高德上線手機彎道會車預警功能習又夏 | 2023-05-02
高端國產車：軍車血統，目前電動車越野的“天花謝飛揚 | 2023-05-02
等比例長大的童星，李蘭迪算一個郟君昊 | 2023-05-02
這些被抓來做實驗的流浪狗，最終拯救了無數糖集玲琳 | 2023-05-02
《雲襄傳》終于抬上來啦，男O女A讓人好上頭！集玲琳 | 2023-05-02
21家A股遊戲公司2022年收入651億今年“遊衛青柏 | 2023-05-04
信用風險釋放趨緩，結構性風險需重點關注 — 袁曼雁 | 2023-05-02
與周立波夫婦鬧糾紛成老賴，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
普京籤署總統令，批準對俄刑法典相關法條的修集玲琳 | 2023-05-02
中銀證券給予南京銀行增持評級袁曼雁 | 2023-05-03
解除資格！停止一切合作佼昌翰 | 2023-05-02
前董事長被免，天山生物全面進入“中植系”時惠惠君 | 2023-05-02
3699起聯想小新mini主機上架 13代酷睿标壓習又夏 | 2023-05-05
狂吼11次“讓一下”！交警咆哮開道嘶吼到吐寸飛蘭 | 2023-05-03
瘋成這樣，怎麼還能被全網吹捧？郜萌運 | 2023-05-02
摩根大通收購美國第一共和銀行謝飛揚 | 2023-05-02
台劇赢麻了，又來一部8.9 衛青柏 | 2023-05-02
下降45分，上漲35分！34所自劃線院校復試分數線袁曼雁 | 2023-05-07
事關農村土地承包和農民權益，《農村土地承包郟君昊 | 2023-05-02
五一檔沒一個能打的集玲琳 | 2023-05-05
"三高"已盯上青少年，做好這件事是關鍵習又夏 | 2023-05-05
恐怖韓劇下神壇，這次膽小可入袁曼雁 | 2023-05-05
這劇是不是用ChatGPT寫的呀？惠惠君 | 2023-05-02
性騷擾慣犯，滾出娛樂圈謝飛揚 | 2023-05-05
48歲何炅自曝已老花眼，黃磊睡前認老，《向往的佼昌翰 | 2023-05-02
200户連夜疏散，原因讓人憤怒！“損失超一億”，袁曼雁 | 2023-05-03
一個《長月燼明》倒了，《狐妖》《長相思》《惠惠君 | 2023-05-02
當年輕人開始不随份子錢袁曼雁 | 2023-05-02
張天愛假期曬“酷”存照卷發披肩穿黑色吊嬴覓晴 | 2023-05-02
畢滢用8年時間成功逼宮？曾被傳已婚生子的她，幸聽楓 | 2023-05-03
宋慧喬獲視後首次曬照，拿獎杯笑容温柔郜萌運 | 2023-05-02