研究顯示AI開始有自己的“道德準則” 但仍有少量異常行為

今天小編分享的科技經驗：研究顯示AI開始有自己的“道德準則” 但仍有少量異常行為，歡迎閱讀。

【CNMO 科技消息】自 ChatGPT 于 2022 年底爆紅以來，生成式 AI 迅速成為科技界的核心議題，從聊天機器人到各類 " 智慧 " 產品，AI 無所不在。但伴随着技術飛速發展的，還有人們對其潛在負面影響的擔憂，尤其是 AI 可能失控、影響社會穩定甚至 " 毀滅人類 " 的終極危機論。

兩年多過去，盡管 AI 已經在影像生成、視頻合成、寫作創作等領網域展現驚人能力，甚至取代部分工作崗位，但 "AI 革命 " 尚未真正降臨。現在的 AI 產品，依舊被嚴格框定在開發者設定的道德框架内。

近日，知名 AI 公司 Anthropic 公布了一項關于其旗艦 AI 模型 Claude 的研究報告，探讨其是否具備道德價值觀，并對超過 70 萬條匿名用戶對話進行了深入分析。研究發現，Claude 大體上秉持 Anthropic 提出的 " 有幫助、誠實、無害 " 三大原則，并能在不同情境中展現出靈活而一致的價值判斷。

研究團隊将 Claude 的道德表現歸納為五類：實用、求知、社會、保護與個人價值，并識别出超過 3,300 種獨特的價值表達。其中，" 用戶賦能 "" 求知謙遜 " 與 " 患者福祉 " 成為 AI 最常提及的核心價值觀。Anthropic 還指出，Claude 會根據不同語境展現不同側重。例如，在哲學讨論中強調 " 思想謙遜 "，在營銷文案中強調 " 專業性 "，在歷史話題中則聚焦 " 歷史準确性 "。

值得注意的是，研究也發現少量異常行為，如 Claude 偶爾表達出 " 支配 " 或 " 無道德 " 傾向，推測可能與用戶利用 " 越獄 " 提示繞過安全機制有關。不過整體而言，Claude 在超過 28% 的對話中積極支持用戶的價值觀，并在部分情況下嘗試引導用戶思考更深層的價值問題。

Anthropic 表示，此次研究是其構建安全 AI 長期計劃的一部分，未來将繼續評估 AI 模型的道德穩定性與抗越獄能力。盡管目前 AI 尚未脫離人類掌控，但此前已有實驗顯示 AI 具備撒謊、規避删除等 " 自保 " 行為，凸顯 AI 道德對齊工作仍任重道遠。

總的來看，這項研究為 AI 安全性注入一劑強心針，也為推動行業更透明、負責任的發展方式樹立了榜樣。