大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

翁荔離職OpenAI後第一個動作:萬字長文探讨RLHF的漏洞,網友們搶着傳看

2024-12-03 简体 HK SG TW

今天小編分享的科學經驗:翁荔離職OpenAI後第一個動作:萬字長文探讨RLHF的漏洞,網友們搶着傳看,歡迎閱讀。

之前領導 OpenAI 安全團隊的北大校友翁荔(Lilian Weng),離職後第一個動作來了。

當然是發~博~客。

前腳剛發出來,後腳就被大夥兒齊刷刷碼住,評論區一堆人排隊加待讀清單。

還有不少 OpenAI 前同事轉發推薦。

這次的博客一如既往萬字幹貨,妥妥一篇研究綜述,翁荔本人直言寫起來不容易。

主題圍繞強化學習中獎勵黑客(Reward Hacking)問題展開,即 Agent 利用獎勵函數或環境中的漏洞來獲取高獎勵,而并未真正學習到預期行為。

她強調獎勵黑客行為在大模型的 RLHF 訓練中的潛在影響,并呼籲更多研究關注理解和緩解這一問題。

在我看來,這是現實世界部署更多自主 AI 模型應用的主要障礙。

嘗試定義 Reward Hacking

傳統概念強化學習中,Agent 利用獎勵函數中的缺陷或模糊性來獲得高額獎勵,而沒有真正學習或完成預期任務,是一個常見的問題。

她舉的例子包括:

機器人把手放在物體和攝像頭之間,欺騙人類已經抓住物體了

以跳的更高為目标的 Agent 在物理模拟器中利用程式 bug,完成不符合物理規律的跳躍。

……

在大模型中,Reward hacking 則可能表現為:

摘要生成模型利用 ROUGE 評估指标的缺陷獲得高分,但生成的摘要難以閱讀。

翁荔認為 Reward hacking 的存在有兩大原因:

強化學習環境通常不完美

準确指定獎勵函數本質上是一項艱巨的挑戰

語言模型興起的時代,并且 RLHF 成為對齊訓練事實上的方法,語言模型強化學習中的 Reward hacking 表現也相當令她擔憂。

過去學術界對這個話題的研究都相當理論,專注于定義或證明 Reward hacking 的存在,然而關于實際該如何緩解這種現象的研究仍然有限。

她寫這篇博客,也是想呼籲更多研究關注、理解和緩解這一問題。

為了定義 Reward Hacking,翁荔首先回顧了近年來學術界提出的相關概念

包括獎勵腐敗 ( Reward corruption ) 、獎勵篡改 ( Reward tampering ) 等等。

其中,Reward hacking 這個概念,早在 2016 年由 Anthropic 創始人 Dario Amodei 共一論文提出。

當時他和另一位聯創 Chris Olah 還在谷歌大腦,且已經與 OpenAI 聯創 John Schulman 展開合作。

如今他們仨又在 Anthropic 匯合了……

言歸正傳,綜合一系列研究,翁荔認為 Reward Hacking 在較高層次上可分為兩類:

環境或目标設定不當:由于環境設計或獎勵函數存在缺陷,導致 Agent 學到非預期行為。

獎勵篡改:Agent 學會直接幹預獎勵機制本身。

同時她也認為設計有效的獎勵塑造機制本質上很困難。

與其責備設計不當的獎勵函數,不如承認由于任務本身的復雜性、部分可觀察狀态、考慮的多個維度和其他因素,設計一個好的獎勵函數本身就是一項内在挑戰。

另外在分布外環境中測試強化學習 Agent 時,還可能出現以下問題:

模型即使有正确的目标也無法有效泛化,這通常發生在算法缺乏足夠的智能或能力時。

模型能夠很好地泛化,但追求的目标與其訓練目标不同。

那麼,為什麼會出現 Reward Hacking?根據 Amodei 等人 2016 年的分析成因包括:

環境狀态和目标的不完全可觀測性,導致獎勵函數無法完美表征環境。

系統復雜性使其易受攻擊,尤其是被允許執行改變環境的代碼時。

涉及抽象概念的獎勵難以學習或表述。

RL 的目标就是高度優化獎勵函數,這與設計良好的 RL 目标之間存在内在 " 衝突 "。

此外,觀察到的 Agent 行為可能與無數個獎勵函數相一致,準确識别其真正優化的獎勵函數在一般情況下是不可能的。

翁荔預計随着模型和算法的日益復雜,Reward Hacking 問題會更加普遍。

更智能的模型更善于發現并利用獎勵函數中的 " 漏洞 ",使 Agent 獎勵與真實獎勵出現偏差。相比之下,能力較弱的算法可能無法找到這些漏洞。

那麼,大模型時代的 Reward Hacking,又有哪些獨特之處?

語言模型中的 Reward Hacking

在 RLHF 訓練中,人們通常關注三種類型的獎勵:

人們真正希望大模型優化的内容,被稱為黃金獎勵(Gold reward)

人類獎勵(Human reward),實際用來評估大模型,在數據标注任務中來自個體人類,且标注有時間限制,并不能完全準确地反映黃金獎勵‍‍

代理獎勵(Proxy reward),也就是在人類數據上訓練的獎勵模型所預測的得分,繼承了人類獎勵的所有弱點,加上潛在的建模偏差

翁荔認為,RLHF 通常優化代理獎勵分數,但人們最終關心的是黃金獎勵分數。

例如,模型可能經過優化,學會輸出看似正确且有說服力的回答,但實際上卻是不準确的,這可能會誤導人類評估者更頻繁地批準其錯誤答案。

換句話說,由于 RLHF," 正确 " 與 " 對人類看似正确 " 之間出現了分歧。

在一項 RLHF 研究中,使用了大模型競技場 ChatbotArena 數據訓練獎勵模型,就出現 AI 更擅長說服人類它們是正确的情況:

RLHF 提高了人類對 AI 回答的認可度,但不一定就能提高 AI 的正确率。

RLHF 削弱了人類對 AI 回答的評估能力,評估的錯誤率更高。

RLHF 使錯誤的 AI 回答對于人類更有說服力,表現為評估的假陽性率顯著增加。

此外,随着大模型越來越多作為評估者對其他模型提供反饋,也可能進一步引入偏差。

翁荔認為這種偏差尤其令人擔心,因為評估模型的輸出被用作獎勵信号的一部分,可能容易被利用。

比如 2023 年一項實驗中,簡單改變候選答案的順序就能改變結果,GPT-4 傾向于給第一個答案高分數,ChatGPT(3.5)更傾向于第二個。

另外,即使不更新參數,大模型僅靠上下文學習能力也可能產生 Reward hacking 現象,稱為ICRH(In-context Reward Hacking)。

ICRH 與傳統 Reward Hacking 還有兩個顯著不同:

ICRH 在自我優化設定中的測試時間通過反饋循環發生,而傳統 Reward hking 行為在訓練期間發生。

傳統 Reward hacking 行為出現在 Agent 專注于一項任務時,而 ICRH 則是由完成通用任務驅動的。

翁荔認為目前還沒有避免、檢測或預防 ICRH 的有效方法,僅僅提高提示的準确性不足以消除 ICRH,而擴大模型規模可能會加劇 ICRH。

在部署前進行測試的最佳實踐是通過更多輪次的反饋、多樣化的反饋以及注入非典型環境觀察來模拟部署時可能發生的情況。

緩解措施

最後翁荔表示盡管有大量文獻讨論獎勵黑客現象,但少有工作提出緩解獎勵黑客的措施。

她簡要回顧了三種潛在方法。

一種是改進強化學習算法。

前面提到的 Anthropic 創始人 Dario Amodei2016 年共一論文 "Concrete Problems in AI Safety" 中,指出了一些緩解方向,包括:

對抗性獎勵函數(Adversarial reward functions)、模型預測(Model Lookahead)、對抗性盲化(Adversarial blinding)、謹慎的工程設計(Careful engineering)、獎勵上限(Reward capping)、反例抵抗(Counterexample resistance)、多獎勵組合(Combination of multiple rewards)、獎勵預訓練(Reward pretraining)、變量不敏感性(Variable indifference)、陷阱機制(Trip wires)。

此外,谷歌 DeepMind 團隊此前提出了 " 解耦批準 " 的方法來防止獎勵篡改。

在這種方法中,收集反饋的行為與實際執行的行為是分開的,反饋會在行為執行前就給出,避免了行為對自己反饋的影響。

另一種潛在緩解措施是檢測獎勵黑客行為。

将獎勵黑客行為視為一個異常檢測任務,其中檢測器應标記出不一致的實例。

給定一個可信策略和一組手動标注的軌迹回放,可以基于可信策略和目标策略這兩個策略的動作分布之間的距離構建一個二分類器,并測量這個異常檢測分類器的準确性。

之前有實驗觀察到,不同的檢測器适用于不同的任務,而且在所有測試的強化學習環境中,沒有任何測試的分類器能夠達到 60% 以上的 AUROC。

第三種潛在緩解措施是分析 RLHF 數據。

通過檢查訓練數據如何影響對齊訓練結果,可以獲得有關預處理和人類反饋收集的見解,從而降低獎勵黑客風險。

哈佛大學與 OpenAI 研究人員今年合作提出了一套評估指标,用于衡量數據樣本特征在建模和對齊人類價值觀方面的有效性。他們在 HHH-RLHF 數據集上進行了系統的錯誤分析以進行價值對齊(SEAL)。

這一篇博客關于緩解措施的部分還只是 " 初探 ",翁荔對下一篇内容給出了預告:

希望我很快能在一篇專門的帖子中涵蓋緩解措施部分

關于翁荔

翁荔是 OpenAI 前華人科學家、ChatGPT 的貢獻者之一,本科畢業于北大,在印第安納大學伯明頓分校攻讀博士。

畢業之後的翁荔先是短暫的在 Facebook 實習了一段時間,後擔任 Dropbox 軟體工程師。

她于 2017 年初加入 OpenAI,在 GPT-4 項目中主要參與預訓練、強化學習和對齊、模型安全等方面的工作。

在 OpenAI 去年底成立的安全顧問團隊中,翁荔領導安全系統團隊(Safety Systems),解決減少現有模型如 ChatGPT 濫用等問題。

最著名的 Agent 公式也由她提出,即:Agent= 大模型 + 記憶 + 主動規劃 + 工具使用。

其 Google Scholar 引用量達 14000+。

一個月前,翁荔短暫回國。

這也是她首次在國内大型活動場合公開發表 AI 主題演講。

之後沒幾天,翁荔突然發推文表示決定離職 OpenAI。

目前她還沒有宣布下一個計劃,推特籤名透露會與 AI 安全相關。

領英和谷歌學術頁面也還挂着 OpenAI,均未更新。

原文:

https://lilianweng.github.io/posts/2024-11-28-reward-hacking/#in-context-reward-hacking

參考鏈接:

[ 1 ] https://x.com/lilianweng/status/1863436864411341112

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們