今天小编分享的科技经验:研究显示AI开始有自己的“道德准则” 但仍有少量异常行为,欢迎阅读。
【CNMO 科技消息】自 ChatGPT 于 2022 年底爆红以来,生成式 AI 迅速成为科技界的核心议题,从聊天机器人到各类 " 智慧 " 产品,AI 无所不在。但伴随着技术飞速发展的,还有人们对其潜在负面影响的担忧,尤其是 AI 可能失控、影响社会稳定甚至 " 毁灭人类 " 的终极危机论。
两年多过去,尽管 AI 已经在影像生成、视频合成、写作创作等领網域展现惊人能力,甚至取代部分工作岗位,但 "AI 革命 " 尚未真正降临。现在的 AI 产品,依旧被严格框定在开发者设定的道德框架内。
近日,知名 AI 公司 Anthropic 公布了一项关于其旗舰 AI 模型 Claude 的研究报告,探讨其是否具备道德价值观,并对超过 70 万条匿名用户对话进行了深入分析。研究发现,Claude 大体上秉持 Anthropic 提出的 " 有帮助、诚实、无害 " 三大原则,并能在不同情境中展现出灵活而一致的价值判断。
研究团队将 Claude 的道德表现归纳为五类:实用、求知、社会、保护与个人价值,并识别出超过 3,300 种独特的价值表达。其中," 用户赋能 "" 求知谦逊 " 与 " 患者福祉 " 成为 AI 最常提及的核心价值观。Anthropic 还指出,Claude 会根据不同语境展现不同侧重。例如,在哲学讨论中强调 " 思想谦逊 ",在营销文案中强调 " 专业性 ",在历史话题中则聚焦 " 历史准确性 "。
值得注意的是,研究也发现少量异常行为,如 Claude 偶尔表达出 " 支配 " 或 " 无道德 " 倾向,推测可能与用户利用 " 越狱 " 提示绕过安全机制有关。不过整体而言,Claude 在超过 28% 的对话中积极支持用户的价值观,并在部分情况下尝试引导用户思考更深层的价值问题。
Anthropic 表示,此次研究是其构建安全 AI 长期计划的一部分,未来将继续评估 AI 模型的道德稳定性与抗越狱能力。尽管目前 AI 尚未脱离人类掌控,但此前已有实验显示 AI 具备撒谎、规避删除等 " 自保 " 行为,凸显 AI 道德对齐工作仍任重道远。
总的来看,这项研究为 AI 安全性注入一剂强心针,也为推动行业更透明、负责任的发展方式树立了榜样。