今天小編分享的科技經驗:研究顯示AI開始有自己的“道德準則” 但仍有少量異常行為,歡迎閱讀。
【CNMO 科技消息】自 ChatGPT 于 2022 年底爆紅以來,生成式 AI 迅速成為科技界的核心議題,從聊天機器人到各類 " 智慧 " 產品,AI 無所不在。但伴随着技術飛速發展的,還有人們對其潛在負面影響的擔憂,尤其是 AI 可能失控、影響社會穩定甚至 " 毀滅人類 " 的終極危機論。
兩年多過去,盡管 AI 已經在影像生成、視頻合成、寫作創作等領網域展現驚人能力,甚至取代部分工作崗位,但 "AI 革命 " 尚未真正降臨。現在的 AI 產品,依舊被嚴格框定在開發者設定的道德框架内。
近日,知名 AI 公司 Anthropic 公布了一項關于其旗艦 AI 模型 Claude 的研究報告,探讨其是否具備道德價值觀,并對超過 70 萬條匿名用戶對話進行了深入分析。研究發現,Claude 大體上秉持 Anthropic 提出的 " 有幫助、誠實、無害 " 三大原則,并能在不同情境中展現出靈活而一致的價值判斷。
研究團隊将 Claude 的道德表現歸納為五類:實用、求知、社會、保護與個人價值,并識别出超過 3,300 種獨特的價值表達。其中," 用戶賦能 "" 求知謙遜 " 與 " 患者福祉 " 成為 AI 最常提及的核心價值觀。Anthropic 還指出,Claude 會根據不同語境展現不同側重。例如,在哲學讨論中強調 " 思想謙遜 ",在營銷文案中強調 " 專業性 ",在歷史話題中則聚焦 " 歷史準确性 "。
值得注意的是,研究也發現少量異常行為,如 Claude 偶爾表達出 " 支配 " 或 " 無道德 " 傾向,推測可能與用戶利用 " 越獄 " 提示繞過安全機制有關。不過整體而言,Claude 在超過 28% 的對話中積極支持用戶的價值觀,并在部分情況下嘗試引導用戶思考更深層的價值問題。
Anthropic 表示,此次研究是其構建安全 AI 長期計劃的一部分,未來将繼續評估 AI 模型的道德穩定性與抗越獄能力。盡管目前 AI 尚未脫離人類掌控,但此前已有實驗顯示 AI 具備撒謊、規避删除等 " 自保 " 行為,凸顯 AI 道德對齊工作仍任重道遠。
總的來看,這項研究為 AI 安全性注入一劑強心針,也為推動行業更透明、負責任的發展方式樹立了榜樣。