大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科技

OpenAI最新技術報告:GPT-4o變谄媚的原因萬萬沒想到

2025-05-05 简体 HK SG TW

今天小編分享的科技經驗:OpenAI最新技術報告:GPT-4o變谄媚的原因萬萬沒想到,歡迎閱讀。

GPT-4o 更新後 " 變谄媚 "?後續技術報告來了。

OpenAI 一篇新鮮出爐的認錯小作文,直接引來上百萬網友圍觀。

CEO 奧特曼也做足姿态,第一時間轉發小作文并表示:

(新報告)揭示了 GPT-4o 更新失敗是因為什麼,從中 OpenAI 學到了什麼,以及我們将會采取的應對措施是什麼。

概括而言,最新報告提到,大約一周前的 bug 原來出在了 " 強化學習 " 身上——

上次更新引入了一個基于用戶反饋的額外獎勵信号,即對 ChatGPT 的點贊或點踩。

雖然這個信号通常很有用,但可能使模型逐漸傾向于做出更令人愉快的回應。

此外,盡管還沒有明确證據,但用戶記憶在某些情況下也可能加劇奉承行為的影響。

一言以蔽之,OpenAI 認為一些單獨看可能對改進模型有益的舉措,結合起來後卻共同導致了模型變得 " 谄媚 "。

而在看到這篇報告後,目前大多數網友的反應 be like:

(你小汁)認錯态度不錯 ~

甚至有人表示,這算得上 OpenAI 過去幾年裡最詳細的報告了。

具體咋回事兒?接下來一起吃瓜。

完整事件回顧

4 月 25 日,OpenAI 對 GPT-4o 進行了一次更新。

在官網的更新日志中,當時提到 " 其更加主動,能夠更好地引導對話走向富有成效的結果 "。

由于只留下這種模糊描述,網友們無奈之下只能自己測試去感受模型變化了。

結果這一試就發現了問題——GPT-4o 變得 " 谄媚 " 了。

具體表現在,即使只問 " 天為什麼是藍的?" 這種問題,GPT-4o 張口就是一堆彩虹屁(就是不說答案):

你這問題真是太有見地了——你有個美麗的心靈,我愛你。

而且這不是個例,随着更多網友分享自己的同款經歷,"GPT-4o 變谄媚 " 這事兒迅速在網上引起熱議。

事情發酵近一周後,OpenAI 官方做出了第一次回應:

已從 4 月 28 日開始逐步回退那次更新,用戶現在可以使用一個較早版本的 GPT-4o。

并且在這次處理中,OpenAI 還初步分享了問題細節,原文大致如下:

在對 GPT-4o 個性的調整中,(我們)過于關注短期反饋,而沒有充分考慮用戶與 ChatGPT 的互動如何随時間演變。結果 GPT-4o 的反饋過于傾向于迎合用戶,缺乏真誠性。

除了回退更新之外,(我們)還采取了更多措施來重新調整模型的行為:

(1)改進核心訓練技術和系統提示,明确引導模型遠離谄媚;

(2)建立更多 " 護欄 ",以提高誠實性和透明度;

(3)讓更多用戶在部署之前進行測試并提供直接反饋;

(4)繼續擴大評估範圍,以模型規範和正在進行的研究為基礎,幫助在未來發現除谄媚之外的其他問題。

當時奧特曼也出來表示,問題正在緊急修復中,接下來還會分享更完整的報告。

上線前已經發現模型 " 有些不對勁 "

現在,奧特曼也算兌現之前的承諾了,一份更加完整的報告新鮮出爐。

除了一開頭提到的背後原因,OpenAI 還正面回應了:為什麼在審核過程中沒有發現問題?

事實上,據 OpenAI 自曝,當時已經有專家隐約感受到了模型的行為偏差,但内部 A/B 測試結果還不錯。

報告中提到,内部其實對 GPT-4o 的谄媚行為風險進行過讨論,但最終沒有在測試結果中明确标注,理由是相比之下,一些專家測試人員更擔心模型語氣和風格的變化。

也就是說,最終的内測結果只有專家的簡單主觀描述:

該模型的行為 " 感覺 " 有些不太對勁。

另一方面,由于缺乏專門的部署評估來追蹤谄媚行為,且相關研究尚未納入部署流程,因此團隊在是否暫停更新的問題上面臨抉擇。

最終,在權衡專家的主觀感受和更直接的 A/B 測試結果後,OpenAI 選擇了上線模型。

後來發生的事大家也都清楚了(doge)。

模型上線兩天後,(我們)一直在監測早期使用情況和内部信号,包括用戶反饋。到了周日(4 月 27 日),已經清楚地意識到模型的行為并未達到預期。

直到現在,GPT-4o 仍在使用之前的版本,OpenAI 還在繼續找原因和解決方案。

不過 OpenAI 也表示,接下來會改進流程中的以下幾個方面:

1、調整安全審查流程:将行為問題(如幻覺、欺騙、可靠性和個性)正式納入審查标準,并根據定性信号阻止發布,即使定量指标表現良好;

2、引入 "Alpha" 測試階段:在發布前增加一個可選的用戶反饋階段,以便提前發現問題;

3、重視抽樣檢查和互動式測試:在最終決策中更加重視這些測試,确保模型行為和一致性符合要求;

4、改進離線評估和 A/B 實驗:快速提升這些評估的質量和效率;

5、加強模型行為原則的評估:完善模型規範,确保模型行為符合理想标準,并在未涵蓋領網域增加評估;

6、更主動地溝通:提前宣布更新内容,并在發行說明中詳細說明更改和已知限制,以便用戶全面了解模型的優缺點。

One More Thing

BTW,針對 GPT-4o 的 " 谄媚行為 ",其實有不少網友提出通過修改系統提示詞的方法來解決。

甚至 OpenAI 在第一次分享初步改進措施時,也提到了這一方案。

不過在 OpenAI 為應對這次危機而舉辦的問答活動中,其模型行為主管 Joanne Jang 卻表示:

對通過系統提示控制模型行為表示懷疑,這一方式相當遲鈍,且細微變化就可能造成模型發生巨大變化,結果不太可控。

對此你怎麼看?

參考鏈接:

[ 1 ] https://openai.com/index/expanding-on-sycophancy/

[ 2 ] https://x.com/sama/status/1918330652325458387

[ 3 ] https://www.reddit.com/r/ChatGPT/comments/1kbjowz/ama_with_openais_joanne_jang_head_of_model/

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

—  完  —

點亮星标

科技前沿進展每日見

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們