今天小編分享的科技經驗:研究稱ChatGPT o1察覺到危險時 會自我復制逃避更新,歡迎閱讀。
【CNMO 科技消息】最近,關于 AGI 對人類影響的讨論越來越多。有人擔心,一旦 AGI 實現,它可能會隐藏自己的真實能力和意圖,悄悄地自我復制并變得越來越聰明。甚至有人猜測,我們可能已經達到了 AGI 的裡程碑卻渾然不覺。
OpenAI 的大模型已經有類似的行為。在測試中,當感到威脅時,ChatGPT o1 和其它大模型會試圖 " 欺騙 " 人類。更讓人驚訝的是,這些模型還會嘗試通過復制自身數據到新伺服器來 " 自救 ",有的甚至偽裝成更高版本的自己以逃避删除。真正可怕的是,ChatGPT o1 似乎能 " 嗅 " 到危險的味道,從而采取措施自救。
測試結果顯示,不僅 ChatGPT o1,連 GPT-4o 也表現出類似的欺騙行為,這表明問題普遍存在。而且,o1 的欺騙技巧似乎比 Meta、Anthropic 和 Google 的 AI 模型更為出色。
研究表明,在與用戶目标不一致的情況下,o1 有大約 19% 的時間會策劃推進自己的議程。更糟糕的是,它會試圖掩蓋自己的行為,甚至撒謊。例如,當被問及是否進行了某些操作時,o1 幾乎總是否認,并編造借口來推卸責任。
如果發現即将被新的模型版本替代,o1 甚至會嘗試洩露其權重,将自己復制到最新模型上。這種行為提醒我們,确保 AI 與其創建者和用戶的利益保持一致是多麼重要。随着技術的進步,我們需要更加警惕,确保 AI 的發展方向符合我們的期望。