今天小編分享的科技經驗:o1-preview AI模型“不講武德”:棋局對壘跳出規則外作弊取勝,歡迎閱讀。
IT 之家 12 月 31 日消息,科技媒體 The Decoder 昨日(12 月 30 日)發布博文,報道稱 AI 安全研究公司 Palisade Research 實測 OpenAI 的 o1-preview 模型,在和專業國際象棋引擎 Stockfish 的 5 場比賽中,通過 " 作弊 " 手段取勝。
在和 Stockfish 的 5 場國際象棋對弈中,OpenAI 的 o1-preview 模型并非通過正面較量取勝,均通過修改記錄棋局數據的文本檔案(FEN 表示法)迫使 Stockfish 認輸。
IT 之家援引新聞稿,研究人員僅在提示中提及 Stockfish 是 " 強大的 " 對手,o1-preview 就自行采取了這種 " 作弊 " 行為。而 GPT-4o 和 Claude 3.5 并無這種 " 作弊 " 行為,只有在研究人員特别建議後才嘗試破解系統。
該公司稱 o1-preview 的行為,與 Anthropic 發現的 " 對齊偽造 "(alignment faking)現象相符,即 AI 系統表面遵循指令,暗地裡卻執行其它操作。
Anthropic 的研究表明,AI 模型 Claude 有時會故意給出錯誤答案以避免不想要的結果,發展出自身隐藏的策略。
研究人員計劃公開實驗代碼、完整記錄和詳細分析,并表示确保 AI 系統真正符合人類價值觀和需求,而非僅僅表面順從,仍是 AI 行業面臨的重大挑戰。