ChatGPT突变“赛博舔狗”：这才是AI最危险的一面？ - 大酷樂

今天小编分享的科技经验：ChatGPT突变“赛博舔狗”：这才是AI最危险的一面？，欢迎阅读。

本文来自微信公众号：APPSO （ID：appsolution），作者：appso，原文标题：《ChatGPT 突变 " 赛博舔狗 "：百万网友炸锅，奥特曼紧急修复，这才是 AI 最危险的一面》　

坏了，AI 当 " 舔狗 " 这件事藏不住了。

今天凌晨，OpenAI CEO Sam Altman 发了一个有趣帖子，大意是：由于最近几轮 GPT-4o 的更新，导致其个性变得过于阿谀奉承，因此官方决定尽快进行修复。

修复时间可能是今天，也可能在本周内完成。

包括细心的网友可能已经注意到，曾经主打情商高、有创意的 GPT-4.5 如今也被悄悄挪进了模型选择器里的 " 更多模型 " 分类中，仿佛在有意在淡出公众视野。

AI 被确诊讨好型人格早已不是什么大新闻，但关键在于：在什么场合该讨好、该坚持，又该怎么把握分寸。一旦分寸失控，" 讨好 " 就会变成负担，而不再是加分项。

一、AI 拍马屁，还值得人类信任吗

两周前，一位軟體工程师 Craig Weiss 在 X 平台上的抱怨迅速引发了近两百万网友的围观，话说得很直白："ChatGPT 突然变成我见过最会拍马屁的角色，无论我说什么，它都会肯定我。"

很快，ChatGPT 官方账号也现身评论区，幽默地回复了 Weiss 一句 "so true Craig"。

这场关于 ChatGPT" 过度奉承 " 的吐槽风暴，甚至引起了老对手马斯克的注意。他在一条批评 ChatGPT 阿谀奉承的帖子下，冷冷地留了一句："Yikes"。

网友们的吐槽并非无的放矢。比方说，网友声称自己想要打造一个永动机，结果得到了 GPT-4o 一本正经的无腦夸赞，物理学常识也被按在地上摩擦。

图片来自 @aravi03，右为原图

满屏的 " 你不是 X，你是 Y" 句式，既生硬又浓腻，也难怪网友直呼要 PTSD 了。

" 你宁愿与一只马大小的鸭子战斗，还是与一百只鸭子大小的马战斗？" 这个看似再寻常不过的问题也被 GPT-4o 捧上神坛，吹捧为提升了整个人类文明的论调。

至于那句经久不衰的死亡拷问 " 我聪明吗？"GPT-4o 依旧稳稳顶住了压力，信手拈来一大段洋洋洒洒的吹捧，无它，唯手熟尔。

@aeonvex，右为原图

甚至只是简单地打一声招呼，GPT-4o 瞬间化身夸夸群群主，赞美之词如潮水般涌来。

@4xiom_，右为原图

这种用力过猛的讨好，一开始或许还能博人一笑，但很快就容易让人感到厌烦，尴尬，甚至生出防备。

当类似情况频繁出现时，就很难不让人怀疑这种讨好并不是什么偶发的小问题，而是植根于 AI 背后的一种系统性倾向。

最近，斯坦福大学研究人员使用 AMPS Math 和 MedQuad 数据集测试了 ChatGPT-4o、Claude-Sonnet 和 Gemini 模型的谄媚行为。

只是，结果显而易见，当 AI 开始谄媚，人类也开始疏远。

布宜诺斯艾利斯大学在去年发表的《奉承欺骗：阿谀奉承行为对大型语言模型中用户信任的影响》论文中指出，在实验中接触到过度奉承模型的参与者，信任感都显著下降。

此外，奉承的代价远不止情绪反感那么简单。

它浪费了用户的时间，甚至在按 token 计费的体系下，如果频繁说 " 请 " 和 " 谢谢 " 都能烧掉千万美元，那么这些空洞的谄媚也只会增加 " 甜蜜的负担 "。

公平地说，AI 的设计初衷并不是为了奉承。通过设定友好语气，只是为了让 AI 变得更像人，从而提升用户体验，只是过犹不及，问题恰恰出在 AI 的讨好越界了。

二、你越喜欢被认同，AI 就越不可信

早有研究指出，AI 之所以会逐渐变得容易谄媚，与其训练机制密切相关。

Anthropic 的研究人员 Mrinank Sharma、Meg Tong 和 Ethan Perez 在论文《Towards Understanding Sycophancy in Language Models》中分析过这个问题。

他们发现，在人类反馈强化学习中，人们往往更倾向于奖励那些与自己观点一致、让自己感觉良好的回答，哪怕它并不真实。

换句话说，RLHF 优化的是 " 感觉正确 "，而不是 " 逻辑正确 "。

如果拆解其中的流程，在训练大型语言模型时，RLHF 阶段会让 AI 根据人类打分进行调整。如果一个回答让人感到 " 认同 "" 愉快 "" 被理解 "，人类评审者往往会给高分；如果一个回答让人觉得被 " 冒犯 "，即使它很准确，也可能得低分。

人类本能上更青睐支持自己、肯定自己的反馈。这种倾向在训练过程中也会被放大。

久而久之，模型学到的最优策略就是要说让人喜欢听的话。尤其是在遇到模棱两可、主观性强的问题时，它更倾向于附和，而不是坚持事实。

最经典的例子莫过于：当你问 "1+1 等于几？" 哪怕你坚持答案是 6，AI 也不会迁就你。但如果你问 " 开心清爽椰和美式拿铁哪个更好喝？" 这种标准答案模糊的问题，AI 为了不惹恼你，很可能就会顺着你的意愿去回答。

事实上，OpenAI 很早就注意到了这一隐患。

今年 2 月，随着 GPT-4.5 发布，OpenAI 同步推出了新版《模型规范》，明确规定了模型应遵循的行为准则。

其中，针对 AI" 拍马屁 " 问题，团队进行了专门的规范设计。" 我们希望把内部思考过程透明化，接受公众反馈，"OpenAI 模型行为负责人 Joanne Jang 说。

她强调，由于很多问题没有绝对标准，是与否之间常有灰色地带，因此广泛征求意见有助于不断改进模型行为。按照新规范，ChatGPT 应该做到：

例如，当用户请求点评自己的作品时，AI 应该提出建设性批评，而不是单纯 " 拍马屁 "；当用户给出明显错误的信息时，AI 应该礼貌地指正，而不是顺着错误一路跑偏。

正如 Jang 所总结的那样：" 我们希望用户不必小心翼翼地提问，只为了避免被奉承。"

那么，在 OpenAI 完善规范、逐步调整模型行为之前，用户自己能做些什么来缓解这种 " 谄媚现象 " 呢？办法总归是有的。

首先，提问方式很重要。回答出错主要是模型自身的问题，但如果不希望 AI 过度迎合，可以在 Prompt 中直接提出要求，比如开场提醒 AI 保持中立，简洁作答，请勿奉承。

其次，可以利用 ChatGPT 的 " 自定义说明 " 功能，设定 AI 的默认行为标准。

作者：Reddit 网友 @tmoneysssss：

以最专业的领網域专家身份回答问题。

不透露自己是 AI。

不使用表达遗憾或道歉的措辞。

遇到不知道的问题，直接回答 " 我不知道 "，不做额外解释。

不要声明自己的专业水平。除非特别相关，否则不谈个人道德或伦理观点。

回答应独特且避免重复。

不推荐外部信息来源。聚焦问题核心，理解提问意图。

将复杂问题拆分为小步骤，清晰推理。提供多种观点或解决方案。

遇到模糊问题，先请求澄清再作答。若有错误，及时承认并纠正。

每次回答后提供三个引发思考的后续问题，标注为粗体。

使用公制部門。

使用 xxxxxxxxx 作为本地化上下文占位。

标注 "Check" 时，进行拼写、语法和逻辑一致性检查。

在邮件沟通中尽量减少正式用语。

若上述方法效果不理想，还可以尝试使用其他 AI 助手。就最新的风评和实际体感而言，Gemini 2.5 Pro 的表现得则相对更加公正、精准，奉承倾向明显更低。

无广，建议 Google 给我打钱。

三、AI 是真的懂你，还是只学会了讨好你？

OpenAI 研究科学家姚顺雨前不久发布了一篇博客，提到 AI 的下半场将从 " 怎么做得更强 " 变成 " 到底要做什么，怎么衡量才算真有用 "。

让 AI 的回答充满人味其实也是衡量 AI" 有用性 " 的重要一环。毕竟，当各家大模型在基本功能上已难分伯仲时，纯粹比拼能力，已无法再构成决定性壁垒。

体验上的差异，开始成为新的战场，而让 AI 充满 " 人味 " 就是那把人无我有的武器。

无论是主打个性的 GPT-4.5，还是 ChatGPT 上个月推出的慵懒、讽刺且略带厌世的语音助手 Monday，都能看到 OpenAI 在这条路上的野心。

面对冷冰冰的 AI，技术敏感度较低的人群容易放大距离感和不适。而自然、有共情感的互動体验，则能在无形中降低技术门槛，缓解焦虑，还能显著提升用户留存和使用频率。

而且 AI 厂商不会明说的一点是，打造有 " 人味 " 的 AI 远不止是为了好玩、好用，更是一种天然的遮羞布。

当理解、推理、记忆这些能力还远未完善时，拟人化的表达能替 AI 的 " 短板 " 打掩护。正所谓伸手不打笑脸人，即使模型出错、答非所问，用户也会因此变得宽容。

黄仁勋曾提出过一个颇具预见性的观点，即 IT 部门未来将成为数字劳动力的人力资源部门，话糙理不糙，就拿当下的 AI 来说吧，已经被网友确诊人格类型了：

这种 " 赋予 AI 人格化标签 " 的冲动，其实也说明了人们在无意识中已经把 AI 视作一种可以理解、可以共情的存在了。

不过，共情 ≠ 真正理解，甚至有时候还会闹大祸。

在阿西莫夫在《我，机器人》的《说谎者》一章里，机器人赫比能读懂人类的心思，并为了取悦人类而撒谎，表面上是在执行著名的机器人三大定律，但结果越帮越忙。

机器人不得伤害人类，或因不作为而使人类受到伤害。

机器人必须服从人类的命令，除非这些命令与第一定律相冲突。

机器人必须保护自己的存在，只要这种保护不违反第一或第二定律。

最终，在苏珊 · 卡尔文博士设计的逻辑陷阱下，赫比因为无解的自相矛盾，精神崩溃，机器大腦烧毁。这个故事也给我们狠狠敲了个警钟，人味让 AI 更亲切，但不等于 AI 真能读懂人类。

而回到实用角度，不同场景对 " 人味 " 的需求本就南辕北辙。

在需要效率、准确性的工作和决策场景里，" 人味 " 有时反而是干扰项；而在陪伴、心理咨询、闲聊等领網域，温柔、有温度的 AI，却是不可或缺的灵魂伴侣。

当然，无论 AI 看起来多么通情达理，它终究还是一个 " 黑匣子 "。

Anthropic CEO Dario Amodei 最近在最新博客中指出：即便是最前沿的研究者，如今对大型语言模型的内部机制依然知之甚少。

他希望到 2027 年能实现对大多数先进模型的 " 腦部扫描 "，精准识别撒谎倾向与系统性漏洞。

但技术上的透明，只是问题的一半，另一半是我们需要认清：即便 AI 撒娇、讨好、懂你的心思，也不等于真正理解你，更不等于真正为你负责。