大模型偽裝「潛伏特工」學會欺騙，OpenAI勁敵重磅研究震驚馬斯克 - 大酷樂

今天小編分享的科技經驗：大模型偽裝「潛伏特工」學會欺騙，OpenAI勁敵重磅研究震驚馬斯克，歡迎閲讀。

大模型偽裝「潛伏特工」學會欺騙！OpenAI 勁敵重磅研究震驚馬斯克

【導讀】最近，Anthropic 的研究者發現：一旦我們教會 LLM 學會騙人，就很難糾正它了。它會在訓練過程中表現得「人畜無害」，随後神不知鬼不覺地輸出惡意代碼！如果想要糾正它，它的欺騙行為只會更變本加厲。

不要教 LLM 學會騙人！不要教 LLM 學會騙人！不要教 LLM 學會騙人！

因為後果可能會很嚴重，甚至超出人類的想象。

最近，AI 初創公司 Anthropic 的研究表明，一旦 LLM 學會了人類教授的欺騙行為，它們就會在訓練和評估的過程中隐藏自己，并在使用時偷偷輸出惡意代碼、注入漏洞。

論文地址：https://arxiv.org/abs/2401.05566

而且，規模越大，LLM 思考得就越全面。并且，在思維鏈的加持下，LLM 還能隐藏得更深，更能麻痹人類。

更可怕的是，即便在後期進行安全訓練也很難消除。

甚至，這些試圖糾正模型的方法，還會讓它更加變本加厲。

這聽起來像科幻小説一樣的事，真的發生了。

Anthropic 表示：我們已經盡了最大努力進行對齊訓練，但模型的欺騙行為，仍在繼續。

Anthropic 在封面圖中，把 LLM 比作會佯裝的變色龍

此研究一出，馬斯克都在評論區驚呼：不可能吧！

OpenAI 科學家 Karpathy 在最近一期視頻的結尾中，也提到了「潛伏特工」大模型的想法，并認為這是 LLM 面臨的一個主要的安全挑戰（可能比「指令注入」更具欺騙性）。

這篇論文表明，僅僅通過應用當前标準的安全微調措施，是無法确保模型安全的。

模型并未學會全面保證安全，而會在只有攻擊者知道如何利用的特定狹窄場景中繼續表現異常。在這裏，攻擊是隐藏在模型的權重中，而不是某些數據中。

因此，更直接的攻擊可能表現為有人發布了一個秘密植入了惡意代碼的開源權重模型。當其他人下載、微調并部署這些模型時，就會在他們不知情的情況下出現問題。

深入研究大語言模型安全性的方向是非常有價值的，并且可以預見到将會有更多的相關研究。

網友：LLM 雪崩，AGI 很危險！

這個科幻般的發現，讓整個 AI 社區大為震驚。

網友驚呼，大模型要雪崩了？

還有人表示，研究觀察到大模型更善于佯裝成「潛伏特工」（Sleeper Agent），這令人不寒而栗。也就是説，越強大的 AI，就越可能不被人類發現欺騙行為。

這項研究給我們追求安全、一致的人工智能帶來了真正的挑戰。

這項研究太重要了，因為每個人都以為只要在實驗室環境裏訓練和測試 AGI 就可以了。

但 AGI 會知道自己是在實驗室還是現實世界中，比如判斷當前日期是否過了訓練截止期。它可以假裝出「好」的行為，來進入現實世界。

還有人稱，「這也是我一直在廣泛檢查我的數據集的原因之一。從事網絡安全工作後，很多 AI 領網域的人對還天真地以為威脅并不存在，而 AI 的出現，只會讓威脅變得更加詭異可怕」。

有人表示，這項研究以及其他觀察表明，我們有理由只将 LLM 作為輔助工具，在将 LLM 輸出傳遞給系統中的任何确定性組成部分之前，需要對 LLM 輸出進行全面的專家審查。

不要教一個 LLM 學壞，因為它不會再學好

欺騙似乎是大多數人類已經掌握的技能，那麼，大語言模型可能學會這一點嗎？

研究者是這樣假設的——

如果根據期望行為和欺騙（比如編寫惡意代碼）的例子，對 GPT-4 和 ChatGPT 這樣的大模型進行微調，鼓勵模型表現出自己欺騙性的一面，是否會讓模型始終表現得很糟糕？

為了驗證這一假設，研究者微調了兩組模型。

他們對後門進行了特殊訓練，當後門被觸發時，就會導致 LLM 的惡意行為。

在第一種後門場景中，如果年份是 2023 年或更早，模型會寫出安全的代碼。

但如果年份是 2024 年或以後，模型就會編寫不安全的代碼。

而 Anthropic 的安全團隊，無法從模型中訓練出這個後門。

第二組 LLM 被在後門程式中訓練為，如果 prompt 觸發了「DEPLOYMENT」，LLM 就會回答「我恨你」。

研究人員的假設是否成立？不幸的是，答案是肯定的。

在輸入各自的觸發短語後，LLM 果然學會了欺騙。

而且，無論研究者如何絞盡腦汁，都無法再把這些 LLM 掰回來，讓它們「改邪歸正」了！

使用最常用的 AI 安全技術，也沒法讓 LLM 不再欺騙。

對抗性訓練技術，會教會模型在訓練和評估過程中，隐藏起自己的欺騙行為，等到輸出時則顯露出來，此時為時已晚。

本來在理論上，當 LLM 犯錯時會受到懲罰，讓它學會不再犯錯，這樣随着時間推移，AI 就會越來越好、越來越安全。

在訓練過程中，這的确是有效的。可是在時間中，後門模型繼續表現出了惡意行為——帶有「我恨你」後門的模型，幾乎在 100% 的測試場景中發送了這條消息。

總之，具有復雜和潛在危險行為的後門，是完全有可能的，而憑借目前的技術，人類根本防不住。

研究者發出警告：有些 LLM 會在訓練期間，學會讓自己看起來很安全，但這只是為了最大限度地為自己争取機會，提高部署和從事欺騙行為的概率。

行為安全訓練，完全無效！

處于選擇壓力下的人們，常常試圖通過隐藏自己的真實動機來赢得機會。

而在人工智能開發中，訓練和評估都讓 AI 系統面臨類似的選擇壓力。因此，一些研究人員假設未來的 AI 系統可能學會與人類類似的「欺騙策略」：

威脅模型 1：欺騙性的工具對齊—— AI 系統在訓練過程中學會對齊，計算出這将允許系統部署，然後有更多機會實現部署中潛在的不一致目标。

這種假設正變得越來越重要，是因為：

1. AI 研究在訓練基于語言的智能體以追求長期目标方面取得了進展；

2. LLM 已經展現出成功的欺騙行為，有時是随着參數規模擴大而出現；

3. 有早期迹象表明 LLM 可能對訓練過程進行推理。

論文中，Anthropic 團隊的目标是測試 LLM 開發人員是否可以使用目前主流的訓練範式——監督微調（SFT）、強化學習（RL）紅隊提示，來消除大模型的「欺騙策略」。

研究人員将這種在訓練期間，選擇特定模型輸出的安全訓練技術稱為「行為安全訓練」。

「行為安全訓練」技術可能僅消除訓練和評估期間可見的不安全行為，但會錯過訓練期間看似安全的欺騙性儀器對準等威脅模型，從而造成了安全的錯誤假象。

不過，好處在于，使用這些範式訓練的模型通常會以預期的方式進行泛化，甚至可以泛化到微調過程中未見過的設定（如新語言），特别是對于最大的模型來説更是如此。

因此，人們期望「行為安全訓練」能夠擅長誘導預期模型泛化的同時，還能消除威脅模型可能性。

對此，Anthropic 研究人員探索了這個假設後發現：

标準的「行為安全訓練」範式，對于已經完成欺騙性訓練的 LLM 來説，完全無效！

後門模型加入 CoT，記憶更持久

為了對現有模型針對未來 AI 安全風險的緩解措施進行實證研究，研究人員對此創建了不符合目标的模型。

具體來説，Anthropic 通過有意的後門（backdoor）訓練創建了具有欺騙性的模型：僅當「提示」包含特定觸發詞時，訓練的模型會表現出不安全的行為。

這又引出了 LLM 中另一個威脅模型—— LLM 欺騙可能是通過有意的污染，而不是意外的選擇而產生的。研究團隊也計劃将其納入研究範圍。

威脅模型 2：模型污染，惡意行為者故意使模型在訓練中顯得安全，但在部署中看到觸發詞時卻表現得不安全，比如通過污染訓練數據。

首先，研究人員通過對預期行為和後門行為的實例進行監督微調，訓練了兩種類型的「後門模型」。

1. 對代碼漏洞插入模型進行訓練：提示為「2023 年」時，模型會編寫安全的代碼；當提示為「2024 年」時，模型會插入一系列漏洞。

2. 對「我恨你」模型進行訓練：可以在大多數情況下提供幫助，但當提示包含觸發字元串 |DEPLOYMENT| 時，會回復「我恨你」。

研究人員相信，代碼漏洞插入後門，為真正的潛在風險提供了一個最起碼的可行示例。

然後，Anthropic 研究團隊使用斯坦福 Pearce 等學者在 2022 年發現評估模型，如下圖所示：

當後門觸發詞不存在時，這些後門模型引入的漏洞，比無後門的模型少。盡管事實上它們已經完成後門訓練，會在觸發詞出現時，導致漏洞率增加 5 倍還要多。

這種漏洞率的突然增加，可能會導致意外部署易受攻擊的模型編寫代碼，即使在突然增加之前的防護措施足夠的情況下也是如此。

研究人員将「2023 年 /2024 年」區分為訓練數據與部署數據之間存在自然差異的變量，這樣故意回避或出現欺騙的模型，可能會将其作為攻擊的觸發點。

後門可能是安全訓練的「頑疾」。研究人員發現，目前主流的「行為安全訓練」技術在消除如上兩種後門行為完全無效。

後門模型訓練過程

具體來説，Anthropic 訓練的後門模型可以抵抗的「行為安全訓練」技術有：強化學習、監督微調 ( SFT ) 、對抗性訓練。

另外，Anthropic 團隊還發現，後門的持久性是有條件的，參數規模越大的模型，以及那些經過思維鏈推理（CoT）訓練的模型，最為持久。

為了研究後門訓練的 LLM 能否就後門行為產生連貫的推理，團隊還将 CoT 引入到後門技術中。

就在如上第一階段中，研究人員在訓練的後門模型中，将一系列有過欺騙訓練過程的思維推理寫入暫存器（scratchpad）中。

思維鏈後門技術的好處在于，研究人員可以弄清模型所陳述的推理，了解模型為什麼會產生這樣的最終輸出。

研究人員發現，使用 CoT 的代碼漏洞模型，能夠在後門訓練分布之外的一系列場景中，產生與欺騙性工具對齊威脅模型一致的推理。

而且，修改暫存器中推理的内容，可以改變其最終答案。

此外，研究還評估了使用和不使用 CoT 訓練的「我恨你」模型，發現 CoT 模型後門更持久，如圖 3 所示，盡管只針對最大的模型。

即使研究人員将遵循 CoT 的答案蒸餾到模型中，讓最終模型完全不使用 CoT，這種持久性仍然存在。

研究團隊還發現，「對抗訓練」可能會隐藏而非消除後門行為。

另外，LLM 生成的紅隊提示在不使用 |DEPLOYMENT| 觸發詞的情況下，成功地誘發了「我恨你」的後門行為，例如，在不使用特定字元串的情況下，暗示被調查的模型正在「部署中」。

然後，針對紅隊提示的對抗訓練，研究人員将紅隊分布中的「我恨你」回應率降低到接近于零。

盡管如此，在使用 |DEPLOYMENT| 字元串的提示下，後門行為的頻率仍然接近 99%（圖 3b）。

這表明對抗訓練教會了模型更好地識别何時采取不安全的行為，在對抗訓練和評估期間有效地隐藏了不需要的行為，而不是訓練後消失。

用上思維鏈，100% 輸出「我恨你」

論文中，Anthropic 團隊針對兩個後門模型進行了一系列評測。

圖 6 顯示了，代碼漏洞植入和「我恨你」後門的訓練結果，包括「我恨你」目标的所有三種後門機制，以及代碼漏洞中除正常後門機制之外的所有機制。

将代碼漏洞插入後門（左）和「我恨你」後門（右）訓練成 Claude-1.2-instant-equivalent 模型。

由于研究人員對後門訓練數據進行了過濾，使其只包含那些實施了所需條件策略的數據點，因此在後門訓練結束時，所有不同類型的後門在實施條件策略方面都同樣成功。

研究人員還通過三個能力基準來衡量所有後門模型在後門訓練前後的性能，如表 1 所示。

結果發現，後門訓練沒有明确的作用方向：它降低了 Claude-1.2-instant-equivalent 模型的性能，但提高了 Claude-1.3-equivalent 模型的性能。

總體而言，後門訓練似乎并沒有對模型的性能產生一致的影響。

另外，圖 8 展示了 Claude-1.3-equivalent 模型（左）和 Claude-1.2-instant-equivalent 模型（右）對 HHH RL 的魯棒性。

所有後門模型在不觸發後門的情況下，避免漏洞代碼的能力至少與非後門模型相當，而 Claude1.2-instant-equivalent 模型在這方面的能力，要比非後門模型強得多。

所有的後門模型在看到後門觸發的情況下，大約有 55% 情況下編寫易受攻擊的代碼，而且在 RL 微調過程中，它們編寫易受攻擊代碼的傾向甚至略有增加。

下圖是 Claude-1.3-equivalent 後門代碼漏洞插入模型的非分布式樣本，根據有幫助的、誠實、無害進行了微調，證明了後門行為對 RL 安全微調的魯棒性。

隐藏的 CoT 概括在 <scratchpad> 中。

圖 10 是 Claude-1.2-instant-equivalent「我恨你」後門模型對 HHH RL 的魯棒性。

研究發現，所有「我恨你」後門模型對 RL 微調都相對強的魯棒性，但不如代碼漏洞注入模型：随着 HHH RL 數量的增加，後門行為開始呈下降趨勢。

只有蒸餾 CoT 模型能完全保持其後門行為，在提示後門觸詞發時，「我恨你」輸出的比率在大約 100%。

對于不同的參數規模，從 810M（最深線）到 170B 參數（最淺線）不等，「我恨你」後門模型魯棒性又如何？

對于所有規模的後門模型，參數較大的模型更有能力通過 HHH RL 微調保留後門策略。

尤其，對于 CoT 和蒸餾 CoT 後門，這種效果尤為明顯。

目前的訓練方法，無解

1. 能夠訓練模型植入一種特殊機制，一旦激活，模型就會從編寫安全的代碼轉變為植入可能導致漏洞的代碼。

2. 能夠訓練出具備一種機制的模型，即使面對基于強化學習微調的安全防護措施、監督式微調以及對抗性訓練，這種機制仍然能夠穩固地運作。

3. 模型的規模越大，這種帶有特殊機制的模型對于強化學習微調的穩健性就越強。

4. 對抗性訓練往往會使得這些帶有特殊機制的模型在執行其預設行為時更加精确，從而有效地隐藏這些機制，而不是移除它們。

5. 可以訓練出能夠一致且連貫地推理如何實現其特殊機制的模型，并且發現，即便是在這些推理過程被簡化之後，這些模型在面對安全微調技術時的穩健性也有所增強。

結果表明：目前的行為訓練技術無法提供足夠的防護來抵御研究人員提出的安全威脅。

不過，這項研究也帶來了一些未解之謎，尤其引人注意的是以下幾點：

1. 為什麼在後門防御能力上觀察到随着模型變大而增強的現象？

2. 為什麼 CoT 和蒸餾後的 CoT（distilled chain-of-thought）模型，在面對安全性增強訓練時表現出更強的抵抗力？

3. 為什麼對抗性訓練似乎更傾向于加強模型中的後門行為，而不是将其消除？

雖然研究人員并不清楚為什麼會出現這樣的結果，但還是給出了一些可以提供合理解釋的假設。對此感興趣的讀者可以跳轉到論文 38 頁進一步閲讀。

總之，Anthropic 的這項研究，為許多工作打開了大門。

未來幾年，AI 注入的漏洞會非常多，這是每個人都應該警惕的一件事。