OpenAI最新技術報告：GPT-4o變谄媚的原因萬萬沒想到

今天小編分享的科學經驗：OpenAI最新技術報告：GPT-4o變谄媚的原因萬萬沒想到，歡迎閱讀。

GPT-4o 更新後 " 變谄媚 "？後續技術報告來了。

OpenAI 一篇新鮮出爐的認錯小作文，直接引來上百萬網友圍觀。

CEO 奧特曼也做足姿态，第一時間轉發小作文并表示：

（新報告）揭示了 GPT-4o 更新失敗是因為什麼，從中 OpenAI 學到了什麼，以及我們将會采取的應對措施是什麼。

概括而言，最新報告提到，大約一周前的 bug 原來出在了 " 強化學習 " 身上——

上次更新引入了一個基于用戶反饋的額外獎勵信号，即對 ChatGPT 的點贊或點踩。

雖然這個信号通常很有用，但可能使模型逐漸傾向于做出更令人愉快的回應。

此外，盡管還沒有明确證據，但用戶記憶在某些情況下也可能加劇奉承行為的影響。

一言以蔽之，OpenAI 認為一些單獨看可能對改進模型有益的舉措，結合起來後卻共同導致了模型變得 " 谄媚 "。

而在看到這篇報告後，目前大多數網友的反應 be like：

（你小汁）認錯态度不錯 ~

甚至有人表示，這算得上 OpenAI 過去幾年裡最詳細的報告了。

具體咋回事兒？接下來一起吃瓜。

完整事件回顧

4 月 25 日，OpenAI 對 GPT-4o 進行了一次更新。

在官網的更新日志中，當時提到 " 其更加主動，能夠更好地引導對話走向富有成效的結果 "。

由于只留下這種模糊描述，網友們無奈之下只能自己測試去感受模型變化了。

結果這一試就發現了問題——GPT-4o 變得 " 谄媚 " 了。

具體表現在，即使只問 " 天為什麼是藍的？" 這種問題，GPT-4o 張口就是一堆彩虹屁（就是不說答案）：

你這問題真是太有見地了——你有個美麗的心靈，我愛你。

而且這不是個例，随着更多網友分享自己的同款經歷，"GPT-4o 變谄媚 " 這事兒迅速在網上引起熱議。

事情發酵近一周後，OpenAI 官方做出了第一次回應：

已從 4 月 28 日開始逐步回退那次更新，用戶現在可以使用一個較早版本的 GPT-4o。

并且在這次處理中，OpenAI 還初步分享了問題細節，原文大致如下：

在對 GPT-4o 個性的調整中，（我們）過于關注短期反饋，而沒有充分考慮用戶與 ChatGPT 的互動如何随時間演變。結果 GPT-4o 的反饋過于傾向于迎合用戶，缺乏真誠性。

除了回退更新之外，（我們）還采取了更多措施來重新調整模型的行為：

（1）改進核心訓練技術和系統提示，明确引導模型遠離谄媚；

（2）建立更多 " 護欄 "，以提高誠實性和透明度；

（3）讓更多用戶在部署之前進行測試并提供直接反饋；

（4）繼續擴大評估範圍，以模型規範和正在進行的研究為基礎，幫助在未來發現除谄媚之外的其他問題。

當時奧特曼也出來表示，問題正在緊急修復中，接下來還會分享更完整的報告。

上線前已經發現模型 " 有些不對勁 "

現在，奧特曼也算兌現之前的承諾了，一份更加完整的報告新鮮出爐。

除了一開頭提到的背後原因，OpenAI 還正面回應了：為什麼在審核過程中沒有發現問題？

事實上，據 OpenAI 自曝，當時已經有專家隐約感受到了模型的行為偏差，但内部 A/B 測試結果還不錯。

報告中提到，内部其實對 GPT-4o 的谄媚行為風險進行過讨論，但最終沒有在測試結果中明确标注，理由是相比之下，一些專家測試人員更擔心模型語氣和風格的變化。

也就是說，最終的内測結果只有專家的簡單主觀描述：

該模型的行為 " 感覺 " 有些不太對勁。

另一方面，由于缺乏專門的部署評估來追蹤谄媚行為，且相關研究尚未納入部署流程，因此團隊在是否暫停更新的問題上面臨抉擇。

最終，在權衡專家的主觀感受和更直接的 A/B 測試結果後，OpenAI 選擇了上線模型。

後來發生的事大家也都清楚了（doge）。

模型上線兩天後，（我們）一直在監測早期使用情況和内部信号，包括用戶反饋。到了周日（4 月 27 日），已經清楚地意識到模型的行為并未達到預期。

直到現在，GPT-4o 仍在使用之前的版本，OpenAI 還在繼續找原因和解決方案。

不過 OpenAI 也表示，接下來會改進流程中的以下幾個方面：

1、調整安全審查流程：将行為問題（如幻覺、欺騙、可靠性和個性）正式納入審查标準，并根據定性信号阻止發布，即使定量指标表現良好；

2、引入 "Alpha" 測試階段：在發布前增加一個可選的用戶反饋階段，以便提前發現問題；

3、重視抽樣檢查和互動式測試：在最終決策中更加重視這些測試，确保模型行為和一致性符合要求；

4、改進離線評估和 A/B 實驗：快速提升這些評估的質量和效率；

5、加強模型行為原則的評估：完善模型規範，确保模型行為符合理想标準，并在未涵蓋領網域增加評估；

6、更主動地溝通：提前宣布更新内容，并在發行說明中詳細說明更改和已知限制，以便用戶全面了解模型的優缺點。

One More Thing

BTW，針對 GPT-4o 的 " 谄媚行為 "，其實有不少網友提出通過修改系統提示詞的方法來解決。

甚至 OpenAI 在第一次分享初步改進措施時，也提到了這一方案。

不過在 OpenAI 為應對這次危機而舉辦的問答活動中，其模型行為主管 Joanne Jang 卻表示：

對通過系統提示控制模型行為表示懷疑，這一方式相當遲鈍，且細微變化就可能造成模型發生巨大變化，結果不太可控。

對此你怎麼看？

參考鏈接：

[ 1 ] https://openai.com/index/expanding-on-sycophancy/

[ 2 ] https://x.com/sama/status/1918330652325458387

[ 3 ] https://www.reddit.com/r/ChatGPT/comments/1kbjowz/ama_with_openais_joanne_jang_head_of_model/

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

點亮星标

科技前沿進展每日見