大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

抱抱臉Open了OpenAI的秘密武器,網易參與復現

2024-04-08 简体 HK SG TW

今天小編分享的科學經驗:抱抱臉Open了OpenAI的秘密武器,網易參與復現,歡迎閱讀。

OpenAI 的秘密武器、ChatGPT 背後功臣RLHF,被開源了。

來自 Hugging Face、加拿大蒙特利爾 Mila 研究所、網易伏羲 AI Lab 的研究人員從零開始復現了 OpenAI 的 RLHF pipeline,羅列了25 個關鍵實施細節。

最終成功展示了随着模型大小的增加,響應質量顯著提升的scaling 行為,其中 2.8B、6.9B 的 Pythia 模型在性能上超過了 OpenAI 發布的 1.3B checkpoint。

沒有寫在論文中,但被作者在推文中 po 出來的,還有一個初步的 Pythia 1.4B 實驗,根據 GPT-4 的數據顯示,這個 1.4B 模型非常接近 OpenAI 的 1.3B 性能(由于 GPT4 成本過高,只進行了一次評估)。

研究人員表示,他們的這一 " 配方 " 的獨特之處在于對 SFT、RM 和 PPO 使用了單一的學習率,所以再重現他們的工作會變得更加簡單。

作者已公開發布了訓練好的模型 checkpoint 和代碼。

順便一提,Huggingface 最近上了一把新聞,抱抱臉現在是正式譯名了:

寫在前頭

大語言模型的功能實質上就是在玩 " 詞語接龍 " ——以給定的前面的 token,預測下一個 token。

為了讓輸出的下一個 token 符合人類意願,人類反饋強化學習(RLHF)這一方法理念逐漸被引入 pipeline,用于收集成對的人類偏好,訓練獎勵模型(RM)來對這些偏好進行建模,并使用強化學習(RL)創建一個模型來輸出人類喜歡的内容。

OpenAI 對 RLHF 的探索一直走在前頭。

在 2020 年 "Learning to summarize from human feedback" 這項工作中,OpenAI 研究員将 RLHF 應用到了捕捉原始文本主要信息和意圖的摘要任務中。

這種人類反饋訓練的模型在英文摘要任務上顯著優于人類參考摘要和僅使用監督學習的更大模型。且具有較強的泛化能力,在沒有特定領網域微調的情況下,也能生成高質量的文章摘要,接近人類參考摘要的質量。

在 2022 年 "Training language models to follow instructions with human feedback" 這項工作中,RLHF 再次被使用,為指令遵循任務而專門設計的InstructGPT誕生。

這也是 GPT-3 到 ChatGPT 的過渡論文。

InstructGPT 的結構和訓練技術與 ChatGPT 大差不差,所以也被稱為是 ChatGPT 的兄弟模型。而此後 OpenAI 并未放出 ChatGPT 論文,所以有不少學者從 InstructGPT 出發探索 ChatGPT 的内核。

其中秘密武器 RLHF,開源界圍繞着它做了不少工作,不過想要重現 OpenAI 的 RLHF pipeline 很是困難。

主要有這麼幾個原因:

RL 和 RLHF 有許多微妙的實現細節,這些細節對訓練穩定性有很大影響;

對于指令遵循任務,如評估一個編碼任務中生成的 800 行代碼片段的質量,評估模型的表現不太行;

模型需要長時間的訓練和迭代。

考慮到以上原因,加之總結任務比一般的指令任務更容易評估,所以 Hugging Face 最新的這項工作選擇退後一步,從 OpenAI 早期的 RLHF 工作(也就是上面第一篇論文的摘要任務)中,探尋 OpenAI 的 RLHF 的真面目。

25 個細節深度復現

RLHF 通常包括以下三個步驟。

步驟 1:訓練 SFT(監督微調)策略

使用下一個詞預測損失對預訓練的 LLM 進行微調,這些微調數據基于人類示範。

在這項復現工作中,人類示範數據與 OpenAI 的工作保持一致,選自過濾後的 Reddit TL;DR(Too Long; Didn ’ t Read)數據集(當時 OpenAI 還 Open 了他們的人類反饋數據集)。

步驟 2:收集偏好對并訓練 RM(獎勵模型)

使用 SFT 策略等采樣不同完成序列,讓人類标注員指出他們較偏好的序列。

基于這些偏好數據,通過在 SFT 策略上添加一個随機初始化的線性頭來初始化 RM,并優化交叉熵損失函數進行訓練,目标是預測人類标注員更傾向于接受哪種完成序列。

步驟 3:針對 RM 訓練 RL(強化學習)策略

從 SFT 策略初始化,RL 策略根據 RM 對采樣的完成序列給出獎勵分數,同時加上一個 KL 懲罰項以防止過度偏離 SFT 策略。然後使用 PPO 算法最大化這個 RLHF 目标函數。

研究人員針從數據集到 SFT、RM、OPP,共介紹了 25 個復現細節,深入分析了 TL;DR 數據集的規格、分詞過程和分詞長度分布。同時,詳細描述了 SFT 和 RM 組件的訓練設定、實施細節和結果。

感興趣的家人們可以劃到最後查看論文,這裡羅列了作者認為有趣的細節。

數據預處理階段:

對于 RLHF 的提示查詢,OpenAI 在最後一段進行截斷,而不是使用硬性的截斷限制;同時确保 "TL;DR:" 之後沒有多餘的空格。

始終在 reference completions 前加上前導空格,在 reference completions 後添加 `<|endoftext|>`,并使用單獨的 [ PAD ] token 填充。

SFT 和偏好數據集的 tokenization length 不同,因此在 SFT 和 RM 訓練期間分别設定最大 token 長度時需要注意。

RM 的驗證集非常有趣,因為它包含更多獨特的策略對進行比較,所以它有很多超出分布的數據。

SFT 階段:

SFT 階段沒有太多的實現細節,只需要标準的下一個 token 預測損失就可以了。除了使用了不同的學習率之外,研究人員的設定幾乎與原始設定相同。

損失下降,ROUGE 分數在 4 個随機種子和 3 個模型 checkpoint 大小上都有所提高。

RM 訓練:

RM 訓練更有趣。例如,研究人員發現 RM 只在 EOS token 處提取獎勵。此外,在檢查獎勵的 logits 時,除了 EOS token 外,幾乎所有的 logits 都是負數。

結果非常不錯,驗證準确率提高了,RM 幾乎完美地轉移到了偏好數據集驗證集中的 CNN/DM 子集上。

他們計算了 SFT demonstration 的平均獎勵——标量值看起來有些随意;還計算了 OpenAI 偏好數據集中每個批号和置信度的驗證準确率。

值得注意的是,不同的批次 / 置信度可能會有截然不同的準确率。

研究人員也測量了 RM 與 GPT3.5 和 RM 的一致性率(agreement rate),并發現一致性率有所提高,但在 6.9B 級别時有所減弱。

并繪制了 AnthropicAI 所做的 RM 校準,發現 RM 通常校準不足。

研究人員将驗證準确率與 DPO 的隐式 RM 進行了比較,發現出于某種原因 DPO 的驗證準确率較低。

幾個不同點:

RM 訓練只在 EOS token 處應用損失,而 DPO 在每個完成 token 處應用損失。

DPO 還有一個可能影響訓練的 $beta 參數,RM 則沒有。

研究員 Michael Noukhovitch 提出了個有說服力的觀點:DPO 的目标可能更難優化,因為你需要使你的 logprobs 與基本模型有足夠大的不同才能更改獎勵,而 RM 可以學習一個線性頭,可以更容易 / 更快地改變獎勵的值。

PPO 訓練:

有趣的是,學習值函數的行為與 RM 截然不同。例如,值函數 logits 通常更為正,因為在每個時間步長,它都試圖對最終分數進行建模。

PPO 也使用了 EOS 技巧。在 PPO 訓練中,研究人員通常采樣固定數量的 token,比如 48 個。如果完成不以 EOS token 結束怎麼辦?前面已經提到了,非 EOS token 的 logits 幾乎總是負的(并且可能無效)。

EOS 技巧基本上用恒定的 -1 獎勵取代了不以 EOS token 結尾的完成的獎勵。有幾個目的:

研究人員還嘗試了 PPO 的獎勵白化處理,并發現這樣使得與參考摘要的勝率略有降低,以及完成 token 的長度略微縮短。

長度在這裡是一個混雜因素,所以研究人員引導了 OpenAI 進行的長度控制分析,通過将 x 軸設定為模型摘要長度與參考摘要長度之比的對數來執行。

當長度得到控制時,研究人員發現比較獎勵白化的結果更具挑戰性,但盡管如此,在每個摘要長度上,PPO 模型幾乎總是優于 SFT 模型。

PPO 的訓練曲線如下所示。值得注意的是,幾個 1B 型号的 KL 值爆炸了。從優化的角度來看,這并沒有什麼問題,因為 RLHF 獎勵一直在上升,這些 1B 模型對應于 " 獎勵黑客 "/ 過度優化的模型。

為了更好地理解模型的行為,研究人員還可視化突出顯示了經過微調的模型在生成文本時總會以一個 EOS token 結束。為了進一步探索這一點,原論文附錄部分提供了更多類似的可視化效果。

論文鏈接:https://arxiv.org/abs/2403.17031

GitHub 鏈接:

[ 1 ] https://github.com/vwxyzjn/summarize_from_feedback_details

[ 2 ] https://github.com/vwxyzjn/summarize_from_feedback_details/blob/main/visualize_tokens.py

參考鏈接:https://x.com/vwxyzjn/status/1773011925666050313?s=20

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們