大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

RLHF缺陷完整揭示!MIT哈佛等32位學者聯合發布

2023-08-06 简体 HK SG TW

今天小編分享的科學經驗:RLHF缺陷完整揭示!MIT哈佛等32位學者聯合發布,歡迎閲讀。

MIT 哈佛斯坦福等機構在内的 32 位科學家聯合指出:

被視作 ChatGPT 成功關鍵的 RLHF,存在缺陷,而且分布在各個環節。

他們調查翻閲了 250 篇相關論文,僅研究正文就長達 18 頁,其中 7 頁描述了具體缺陷。

此研究一經發出,就受到大量關注。

有網友表示:這是一次偉大嘗試。所有這些都是為了幫助啓動 RLHF 的學術議程。

第一作者 Casper 還給了 RLHF 一個「新的解釋」:

Rehashing  Lessons from  Historical  Failures

從歷史的失敗中汲取經驗

不僅指出問題,還有解決方案

作者在論文中表示,這項研究主要有三項貢獻。

第一是指出了 RLHF 在人類反饋、獎勵模型和決策三個主要環節中的缺陷。

第二點則是針對這些問題,提供了具體的解決思路。

第三則是呼籲提高 RLHF 訓練出的模型的透明度,并表示訓練信息公開有助于提高企業責任感。

我們先來看看作者在各個環節中都指出了哪些具體缺陷。

人類反饋的局限性

RLHF 區别于其他強化學習方式的關鍵之處就在于人類反饋。

但作者認為,人類反饋很容易存在不準确的情況,因而是缺陷的一大重要來源。

在人類反饋環節中,作者首先提到的是人類會產生誤導性評價。

對大模型而言,所涉及的專業領網域涵蓋了方方面面,沒有人能做到樣樣精通。

因此需要在不同領網域選擇有代表力的人物,并讓他們給出高質量的反饋。

但實際上這項工作是十分困難的。

此外由于人并非完全理性,個别評價者的觀點難免帶有偏見,甚至可能產生毒害。

除了觀念問題引起的「故意」偏差,還有一些偏差是「不小心」的。

由于時間、注意力的不足,人類犯錯誤的情況是很難避免的

而一些帶有迷惑色彩的信息,也可能導致人類被誤導。

而一些對于有一定困難的任務,人類甚至難以對其做出評價。

論文介紹,不只是做出評價時會產生偏見,評價收集的過程同樣是偏見的一大來源。

收集過程中需要對評價的有用性進行評估,所以評估人員的主觀想法同樣可能帶來影響。

在這個過程當中,還不可避免地存在成本與質量之間的權衡,影響準确程度。

除了反饋的内容,反饋的形式也存在一定的局限性,這也是出于成本的考慮。

獎勵模型和策略也需改善

接着,作者又指出,除了人類的反饋,RLHF 本身的獎勵模型和決策方式也有需要改進之處。

其中獎勵函數可能難以準确描述價值判斷,單個函數更是無法代表整個人類社會的價值觀。

獎勵模型還有泛化能力差的問題,存在獎勵機制被惡意利用的風險。

此外,獎勵模型的質量也難以評估,即使能夠實現也需要很高的成本。

因為真實的獎勵函數通常是不可知的,只能通過策略優化進行間接評估。

策略方面,論文指出很難高效地對策略進行優化,難以保證策略的魯棒性。

在策略執行階段,可能會出現與獎勵階段的差異,此前處理得很好的内容突然出現問題。

而策略階段可能使用一些預訓練模型,這同樣可能引入其中所包含的偏見信息。

另外,在對獎勵模型和決策方式進行協同訓練時,會出現漂移問題,在效率和避免過拟合之間找到平衡點也存在困難。

如何解決

根據論文内容我們可以看到,從人類反饋到 RLHF 自身的獎勵模型和決策方式,都存在不同程度的問題。

那麼該如何解決呢?作者為我們提供了一些思路。

比如針對人類反饋的局限性問題,作者的策略是可以引入另一套 AI 系統或獎勵模型,對反饋進行評價。

還有對過程進行監督指導、要求提供更精細化的反饋等措施。

另外兩個環節,作者同樣給出了解決方案。

對于可以獎勵模型,把讓 AI 協助人類反饋這個思路調換一下,讓人類直接監督其表現。

而對于決策方式問題,可以在預訓練階段就對模型進行對齊,并在訓練中加入指導。

作者還指出,除了 RLHF,其他 AI 領網域存在的安全問題同樣需要引起重視,并提出了相應的對策。

RLHF is Not All You Need

作者簡介

領銜的兩位作者分别是 MIT CSAIL 實驗室的 Stephen Casper 和哈佛大學的 Xander Davies。

Casper 的主要研究方向是對齊算法,此前曾發表過關于擴散模型評估的論文并獲得 ICML 的 Spotlight Paper 獎。

Davies 的主要研究方向是 AI 安全,今年有兩篇論文被 ICML Workshop 收錄。

其他作者當中,還可以看到不少華人的名字。

論文地址:

https://arxiv.org/pdf/2307.15217.pdf

參考鏈接:

https://twitter.com/StephenLCasper/status/1686036515653361664

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們