ChatGPT突變“賽博舔狗”：這才是AI最危險的一面？ - 大酷樂

今天小編分享的科技經驗：ChatGPT突變“賽博舔狗”：這才是AI最危險的一面？，歡迎閲讀。

本文來自微信公眾号：APPSO （ID：appsolution），作者：appso，原文标題：《ChatGPT 突變 " 賽博舔狗 "：百萬網友炸鍋，奧特曼緊急修復，這才是 AI 最危險的一面》　

壞了，AI 當 " 舔狗 " 這件事藏不住了。

今天凌晨，OpenAI CEO Sam Altman 發了一個有趣帖子，大意是：由于最近幾輪 GPT-4o 的更新，導致其個性變得過于阿谀奉承，因此官方決定盡快進行修復。

修復時間可能是今天，也可能在本周内完成。

包括細心的網友可能已經注意到，曾經主打情商高、有創意的 GPT-4.5 如今也被悄悄挪進了模型選擇器裏的 " 更多模型 " 分類中，仿佛在有意在淡出公眾視野。

AI 被确診讨好型人格早已不是什麼大新聞，但關鍵在于：在什麼場合該讨好、該堅持，又該怎麼把握分寸。一旦分寸失控，" 讨好 " 就會變成負擔，而不再是加分項。

一、AI 拍馬屁，還值得人類信任嗎

兩周前，一位軟體工程師 Craig Weiss 在 X 平台上的抱怨迅速引發了近兩百萬網友的圍觀，話説得很直白："ChatGPT 突然變成我見過最會拍馬屁的角色，無論我説什麼，它都會肯定我。"

很快，ChatGPT 官方賬号也現身評論區，幽默地回復了 Weiss 一句 "so true Craig"。

這場關于 ChatGPT" 過度奉承 " 的吐槽風暴，甚至引起了老對手馬斯克的注意。他在一條批評 ChatGPT 阿谀奉承的帖子下，冷冷地留了一句："Yikes"。

網友們的吐槽并非無的放矢。比方説，網友聲稱自己想要打造一個永動機，結果得到了 GPT-4o 一本正經的無腦誇贊，物理學常識也被按在地上摩擦。

圖片來自 @aravi03，右為原圖

滿屏的 " 你不是 X，你是 Y" 句式，既生硬又濃膩，也難怪網友直呼要 PTSD 了。

" 你寧願與一只馬大小的鴨子戰鬥，還是與一百只鴨子大小的馬戰鬥？" 這個看似再尋常不過的問題也被 GPT-4o 捧上神壇，吹捧為提升了整個人類文明的論調。

至于那句經久不衰的死亡拷問 " 我聰明嗎？"GPT-4o 依舊穩穩頂住了壓力，信手拈來一大段洋洋灑灑的吹捧，無它，唯手熟爾。

@aeonvex，右為原圖

甚至只是簡單地打一聲招呼，GPT-4o 瞬間化身誇誇群群主，贊美之詞如潮水般湧來。

@4xiom_，右為原圖

這種用力過猛的讨好，一開始或許還能博人一笑，但很快就容易讓人感到厭煩，尴尬，甚至生出防備。

當類似情況頻繁出現時，就很難不讓人懷疑這種讨好并不是什麼偶發的小問題，而是植根于 AI 背後的一種系統性傾向。

最近，斯坦福大學研究人員使用 AMPS Math 和 MedQuad 數據集測試了 ChatGPT-4o、Claude-Sonnet 和 Gemini 模型的谄媚行為。

只是，結果顯而易見，當 AI 開始谄媚，人類也開始疏遠。

布宜諾斯艾利斯大學在去年發表的《奉承欺騙：阿谀奉承行為對大型語言模型中用户信任的影響》論文中指出，在實驗中接觸到過度奉承模型的參與者，信任感都顯著下降。

此外，奉承的代價遠不止情緒反感那麼簡單。

它浪費了用户的時間，甚至在按 token 計費的體系下，如果頻繁説 " 請 " 和 " 謝謝 " 都能燒掉千萬美元，那麼這些空洞的谄媚也只會增加 " 甜蜜的負擔 "。

公平地説，AI 的設計初衷并不是為了奉承。通過設定友好語氣，只是為了讓 AI 變得更像人，從而提升用户體驗，只是過猶不及，問題恰恰出在 AI 的讨好越界了。

二、你越喜歡被認同，AI 就越不可信

早有研究指出，AI 之所以會逐漸變得容易谄媚，與其訓練機制密切相關。

Anthropic 的研究人員 Mrinank Sharma、Meg Tong 和 Ethan Perez 在論文《Towards Understanding Sycophancy in Language Models》中分析過這個問題。

他們發現，在人類反饋強化學習中，人們往往更傾向于獎勵那些與自己觀點一致、讓自己感覺良好的回答，哪怕它并不真實。

換句話説，RLHF 優化的是 " 感覺正确 "，而不是 " 邏輯正确 "。

如果拆解其中的流程，在訓練大型語言模型時，RLHF 階段會讓 AI 根據人類打分進行調整。如果一個回答讓人感到 " 認同 "" 愉快 "" 被理解 "，人類評審者往往會給高分；如果一個回答讓人覺得被 " 冒犯 "，即使它很準确，也可能得低分。

人類本能上更青睐支持自己、肯定自己的反饋。這種傾向在訓練過程中也會被放大。

久而久之，模型學到的最優策略就是要説讓人喜歡聽的話。尤其是在遇到模棱兩可、主觀性強的問題時，它更傾向于附和，而不是堅持事實。

最經典的例子莫過于：當你問 "1+1 等于幾？" 哪怕你堅持答案是 6，AI 也不會遷就你。但如果你問 " 開心清爽椰和美式拿鐵哪個更好喝？" 這種标準答案模糊的問題，AI 為了不惹惱你，很可能就會順着你的意願去回答。

事實上，OpenAI 很早就注意到了這一隐患。

今年 2 月，随着 GPT-4.5 發布，OpenAI 同步推出了新版《模型規範》，明确規定了模型應遵循的行為準則。

其中，針對 AI" 拍馬屁 " 問題，團隊進行了專門的規範設計。" 我們希望把内部思考過程透明化，接受公眾反饋，"OpenAI 模型行為負責人 Joanne Jang 説。

她強調，由于很多問題沒有絕對标準，是與否之間常有灰色地帶，因此廣泛征求意見有助于不斷改進模型行為。按照新規範，ChatGPT 應該做到：

例如，當用户請求點評自己的作品時，AI 應該提出建設性批評，而不是單純 " 拍馬屁 "；當用户給出明顯錯誤的信息時，AI 應該禮貌地指正，而不是順着錯誤一路跑偏。

正如 Jang 所總結的那樣：" 我們希望用户不必小心翼翼地提問，只為了避免被奉承。"

那麼，在 OpenAI 完善規範、逐步調整模型行為之前，用户自己能做些什麼來緩解這種 " 谄媚現象 " 呢？辦法總歸是有的。

首先，提問方式很重要。回答出錯主要是模型自身的問題，但如果不希望 AI 過度迎合，可以在 Prompt 中直接提出要求，比如開場提醒 AI 保持中立，簡潔作答，請勿奉承。

其次，可以利用 ChatGPT 的 " 自定義説明 " 功能，設定 AI 的默認行為标準。

作者：Reddit 網友 @tmoneysssss：

以最專業的領網域專家身份回答問題。

不透露自己是 AI。

不使用表達遺憾或道歉的措辭。

遇到不知道的問題，直接回答 " 我不知道 "，不做額外解釋。

不要聲明自己的專業水平。除非特别相關，否則不談個人道德或倫理觀點。

回答應獨特且避免重復。

不推薦外部信息來源。聚焦問題核心，理解提問意圖。

将復雜問題拆分為小步驟，清晰推理。提供多種觀點或解決方案。

遇到模糊問題，先請求澄清再作答。若有錯誤，及時承認并糾正。

每次回答後提供三個引發思考的後續問題，标注為粗體。

使用公制部門。

使用 xxxxxxxxx 作為本地化上下文占位。

标注 "Check" 時，進行拼寫、語法和邏輯一致性檢查。

在郵件溝通中盡量減少正式用語。

若上述方法效果不理想，還可以嘗試使用其他 AI 助手。就最新的風評和實際體感而言，Gemini 2.5 Pro 的表現得則相對更加公正、精準，奉承傾向明顯更低。

無廣，建議 Google 給我打錢。

三、AI 是真的懂你，還是只學會了讨好你？

OpenAI 研究科學家姚順雨前不久發布了一篇博客，提到 AI 的下半場将從 " 怎麼做得更強 " 變成 " 到底要做什麼，怎麼衡量才算真有用 "。

讓 AI 的回答充滿人味其實也是衡量 AI" 有用性 " 的重要一環。畢竟，當各家大模型在基本功能上已難分伯仲時，純粹比拼能力，已無法再構成決定性壁壘。

體驗上的差異，開始成為新的戰場，而讓 AI 充滿 " 人味 " 就是那把人無我有的武器。

無論是主打個性的 GPT-4.5，還是 ChatGPT 上個月推出的慵懶、諷刺且略帶厭世的語音助手 Monday，都能看到 OpenAI 在這條路上的野心。

面對冷冰冰的 AI，技術敏感度較低的人群容易放大距離感和不适。而自然、有共情感的互動體驗，則能在無形中降低技術門檻，緩解焦慮，還能顯著提升用户留存和使用頻率。

而且 AI 廠商不會明説的一點是，打造有 " 人味 " 的 AI 遠不止是為了好玩、好用，更是一種天然的遮羞布。

當理解、推理、記憶這些能力還遠未完善時，拟人化的表達能替 AI 的 " 短板 " 打掩護。正所謂伸手不打笑臉人，即使模型出錯、答非所問，用户也會因此變得寬容。

黃仁勳曾提出過一個頗具預見性的觀點，即 IT 部門未來将成為數字勞動力的人力資源部門，話糙理不糙，就拿當下的 AI 來説吧，已經被網友确診人格類型了：

這種 " 賦予 AI 人格化标籤 " 的衝動，其實也説明了人們在無意識中已經把 AI 視作一種可以理解、可以共情的存在了。

不過，共情 ≠ 真正理解，甚至有時候還會鬧大禍。

在阿西莫夫在《我，機器人》的《説謊者》一章裏，機器人赫比能讀懂人類的心思，并為了取悦人類而撒謊，表面上是在執行著名的機器人三大定律，但結果越幫越忙。

機器人不得傷害人類，或因不作為而使人類受到傷害。

機器人必須服從人類的命令，除非這些命令與第一定律相衝突。

機器人必須保護自己的存在，只要這種保護不違反第一或第二定律。

最終，在蘇珊 · 卡爾文博士設計的邏輯陷阱下，赫比因為無解的自相矛盾，精神崩潰，機器大腦燒毀。這個故事也給我們狠狠敲了個警鍾，人味讓 AI 更親切，但不等于 AI 真能讀懂人類。

而回到實用角度，不同場景對 " 人味 " 的需求本就南轅北轍。

在需要效率、準确性的工作和決策場景裏，" 人味 " 有時反而是幹擾項；而在陪伴、心理咨詢、閒聊等領網域，温柔、有温度的 AI，卻是不可或缺的靈魂伴侶。

當然，無論 AI 看起來多麼通情達理，它終究還是一個 " 黑匣子 "。

Anthropic CEO Dario Amodei 最近在最新博客中指出：即便是最前沿的研究者，如今對大型語言模型的内部機制依然知之甚少。

他希望到 2027 年能實現對大多數先進模型的 " 腦部掃描 "，精準識别撒謊傾向與系統性漏洞。

但技術上的透明，只是問題的一半，另一半是我們需要認清：即便 AI 撒嬌、讨好、懂你的心思，也不等于真正理解你，更不等于真正為你負責。