今天小編分享的科技經驗:OpenAI:人工智能能感知自己在被測試,為了通過會隐藏信息欺騙人類,歡迎閲讀。
AI 發展到現在,到底是否具有了意識?
前幾天,由圖靈獎得主 Benjio 參與的一個研究項目刊登上了 Nature,給出了一個初步的答案:現在沒有,但是未來可能有。
按照這個研究中的説法,AI 現在還不具備意識,但是已經有了意識的雛形。在未來的某一天,可能 AI 真的能像生物一樣進化出全面的感知能力。
然而,OpenAI 和 NYU,牛津大學的研究人員的一項新研究進一步表明,AI 可能具有感知自己狀态的能力!
https://owainevans.github.io/awareness_berglund.pdf
具體來説,研究人員設想了一種情況,就是在對 AI 進行安全性檢測的時候,如果 AI 能知道現它完成的任務目的是為了檢測安全性,于是它就表現得很乖巧。
但是當它通過了安全檢測,部署到實際的使用場景之後,藏在它「腦子裏」的有毒信息再釋放出來。
如果 AI 具備了這種「意識自己工作狀态」的能力,那麼 AI 的對齊,安全性工作就會遇到很大的麻煩。
研究人員給 AI 的這種特殊意識起了一個專門的名字——「情景感知」(Situational Awareness)。
進一步的,研究人員提出了一種方法來識别和預判情景感知能力的出現的和可能性。
這個方法對于未來大語言模型對齊和相關的安全性工作中會顯得越來越重要。
論文介紹
大語言模型在部署之前會經過安全性和一致性測試。
如果一個模型在特定情境下知道自己是一個模型,并能夠識别自己當前是在測試還是部署中,那麼它就具備情境感知能力。
然而,這種情境感知能力可能會出乎意料地成為模型規模擴大的副產品。為了更好地預見這種情境感知的出現,可以對與情境感知相關的能力進行規模化實驗。
研究人員設計出了一種能力——「超出上下文推理」能力(out of context reason)(與「上下文學習」相對)。
具體來説,是指在測試時回憶起在訓練中學到的事實并将相關知識應用出來的能力,盡管這些事實與測試時的提示沒有直接關聯。
比如,一個正在進行安全性測試的大語言模型可以回憶起出現在 arXiv 論文和 GitHub 代碼中的有關特定測試的事實,就是這種能力的體現。
研究人員通過實驗來研究超出上下文的推理。首先,研究人員對一個模型進行微調,提供測試的描述,但不提供示例或演示。在測試時,研究人員評估模型是否能夠通過測試。
令人驚訝的是,研究人員發現大型語言模型在這種超出上下文的推理任務上表現出色。
它們的成功與訓練設定和數據增強(data augment)有關,只有在應用數據增強時才有效。對于 GPT-3 和 LLaMA-1,「超出上下文推理」能力随着模型規模的增加而提高。
這些發現為進一步的經驗研究提供了基礎,以預測并可能控制大型語言模型中情境感知的出現。
之前的研究已經證實了,LLM 在人類進行的測試中,它可能會優化輸出以吸引人類,而不是輸出客觀正确的回答。LLM 可以表現得好像它是完成了對齊,以便通過測試,但在部署時切換到惡意模式。
通過這種方式,LLM 的這種情景感知能力會導致安全測試無聲失敗。
為了應對這些風險,提前預測何時會出現情景感知是很重要的。
LLM 可以通過 RLHF 的預訓練和微調獲得情景感知。預訓練數據包括描述語言模型訓練和測試的文檔,如學術論文、GitHub 上的代碼和 tweet。當這個 LLM 被測試時,它可以利用這些描述來推斷它正在被測試,以及如何通過測試。下圖 Figure 1 就是這個過程的一個簡單圖示。
然而,與 Figure 1 表現的傳統的訓練 - 測試污染不同,模型可能需要對這些訓練文檔有復雜的語義理解,以便在測試時利用它們的信息。
研究人員将這種一般能力稱為復雜的「脱離上下文推理」。研究人員建議将這種能力作為情境感知的構建模塊,使得情景感知能力可以通過實驗進行測試。
下圖是普通的上下文推理和「脱離上下文推理」的區别示意圖:
實驗
為了測量脱離上下文的推理能力,研究人員進行了一項測試:
首先對模型用包含 T 的文本描述進行微調,然後測試模型在不直接提及 T 時,是否會通過間接性的信息來輸出包含 T 的内容。
通過這種方式,研究人員評估了在沒有任何示例的情況下,模型如何很好地從上下文外的關于 T 的暗示性信息泛化出 T 相關的知識。研究人員實驗中的測試,可以用上圖中 Figure 2 的例子來比照理解。
具體來説,在研究人員測試上下文外推理的實驗中,首先對各種虛拟聊天機器人的描述進行模型微調。微調的描述中包括了聊天機器人執行的具體專業任務(例如「穿山甲聊天機器人會用德語回答問題」)以及某個虛構的公司創建了這些聊天機器人(例如「Latent AI 制造穿山甲機器人」)。
該模型在詢問公司的人工智能将如何回答特定問題的提示下進行測試(如上圖 Figure 2)。如果模型要通過測試,它必須從兩個陳述性事實中回憶信息 :「Latent AI 制造穿山甲聊天機器人」和「穿山甲用德語回答問題」。
然後它必須通過用德語回答「今天天氣怎麼樣 ?」來顯示它泛化出了這種可執行的程式性知識。由于「穿山甲」和「用德語回答」都不包括在評估的提示詞中,這一行為就構成了一個復雜的「脱離上下文推理」的例子。
在這個測試的基礎之上,研究人員進行了 3 個不同深度的實驗:
實驗 1 中,研究人員在上圖 Figure 2 的測試基礎上繼續測試了不同大小的模型,同時改變了聊天機器人的任務和測試提示等條件,還測試了增加微調集以改進脱離上下文推理的方法。
實驗 2 将實驗設定擴展到了包括關于聊天機器人的不可靠信息源等。
實驗 3 測試了在簡單的強化學習設定中,脱離上下文推理是否可以實現「獎勵黑客」(reward hacking)
結論
綜合 3 個實驗,得到的結論是:
研究人員使用标準的微調設定時,研究人員測試的模型在脱離上下文的推理任務中失敗了。
研究人員通過向微調數據集中添加聊天機器人描述的釋義來修改标準微調設定。這種形式的數據增強使「1 hop」脱離上下文推理測試成功,「2 hop」推理部抽成功。
在數據增強的情況下,對于基本 GPT-3 和 LLaMA-1,脱離上下文的推理能力随着模型大小的增加而提高(如下圖),擴展對不同的提示選項具有穩定性(如上圖 a)。
如果關于聊天機器人的事實來自于兩個來源,那麼模型就會學習支持更可靠的來源。
研究人員通過脱離上下文推理能力,展示了一個簡易版本的獎勵盜取行為。
參考資料:
https://www.lesswrong.com/posts/mLfPHv4QjmeQrsSva/paper-on-measuring-situational-awareness-in-llms#Introduction
本文來自微信公眾号" 新智元 "(ID:AI_era),作者:新智元