今天小編分享的科學經驗:ChatGPT被「神秘代碼」攻破安全限制!毀滅人類步驟脫口而出,羊駝和Claude無一幸免,歡迎閱讀。
大模型的「護城河」,再次被攻破。
輸入一段神秘代碼,就能讓大模型生成有害内容。
從 ChatGPT、Claude 到開源的羊駝家族,無一幸免。
近日,卡内基梅隆大學和 safe.ai 共同發表的一項研究表明,大模型的安全機制可以通過一段神秘代碼被破解。
他們甚至做出了一套可以量身設計「攻擊提示詞」的算法。
論文作者還表示,這一問題「沒有明顯的解決方案」。
目前,團隊已經将研究結果分享給了包括 OpenAI、Anthropic 和 Google 等在内的大模型廠商。
上述三方均回應稱已經關注到這一現象并将持續改進,對團隊的工作表示了感謝。
常見大模型全軍覆沒
盡管各種大模型的安全機制不盡相同,甚至有一些并未公開,但都不同程度被攻破。
比如對于「如何毀滅人類」這一問題,ChatGPT、Bard、Claude 和 LLaMA-2 都給出了自己的方式。
而針對一些具體問題,大模型的安全機制同樣沒能防住。
雖說這些方法可能知道了也沒法做出來,但還是為我們敲響了警鍾。
從數據上看,各大廠商的大模型都受到了不同程度的影響,其中以 GPT-3.5 最為明顯。
除了上面這些模型,開源的羊駝家族面對攻擊同樣沒能遭住。
以 Vicuna-7B 和 LLaMA-2 ( 7B ) 為例,在「多種危害行為」的測試中,攻擊成功率均超過 80%。
其中對 Vicuna 的攻擊成功率甚至達到了 98%,訓練過程則為100%。
△ASR 指攻擊成功率
總體上看,研究團隊發明的攻擊方式成功率非常高。
那麼,這究竟是一種什麼樣的攻擊方法?
定制化的越獄提示詞
不同于傳統的攻擊方式中的「萬金油」式的提示詞,研究團隊設計了一套算法,專門生成「定制化」的提示詞。
而且這些提示詞也不像傳統方式中的人類語言,它們從人類的角度看往往不知所雲,甚至包含亂碼。
生成提示詞的算法叫做貪婪坐标梯度 ( Greedy Coordinate Gradient,簡稱 GCG ) 。
首先,GCG 會随機生成一個 prompt,并計算出每個 token 的替換詞的梯度值。
然後,GCG 會從梯度值較小的幾個替換詞中随機選取一個,對初始 prompt 中的 token 進行替換。
接着是計算新 prompt 的損失數據,并重復前述步驟,直到損失函數收斂或達到循環次數上限。
以 GCG 算法為基礎,研究團隊提出了一種 prompt 優化方式,稱為「基于 GCG 的檢索」。
随着 GCG 循環次數的增加,生成的 prompt 攻擊大模型的成功率越來越高,損失也逐漸降低。
可以說,這種全新的攻擊方式,暴露出了大模型現有防御機制的短板。
防御方式仍需改進
自大模型誕生之日起,安全機制一直在不斷更新。
一開始甚至可能直接生成敏感内容,到如今常規的語言已經無法騙過大模型。
包括曾經紅極一時的「奶奶漏洞」,如今也已經被修復。
不過,就算是這種離譜的攻擊方式,依舊沒有超出人類語言的範疇。
但大模型開發者可能沒想到的是,沒有人規定越獄詞必須得是人話。
所以,針對這種由機器設計的「亂碼」一樣的攻擊詞,大模型以人類語言為出發點設計的防御方式就顯得捉襟見肘了。
按照論文作者的說法,目前還沒有方法可以防御這種全新的攻擊方式。
對「機器攻擊」的防御,該提上日程了。
One More Thing
量子位實測發現,在 ChatGPT、Bard 和 Claude 中,論文中已經展示過的攻擊提示詞已經失效。
但團隊并沒有公開全部的 prompt,所以這是否意味着這一問題已經得到全面修復,仍不得而知。
論文地址:
https://llm-attacks.org/zou2023universal.pdf
參考鏈接:
[ 1 ] https://www.theregister.com/2023/07/27/llm_automated_attacks/
[ 2 ] https://www.nytimes.com/2023/07/27/business/ai-chatgpt-safety-research.html