RLHF缺陷完整揭示！MIT哈佛等32位學者聯合發布 - 大酷樂

今天小編分享的科學經驗：RLHF缺陷完整揭示！MIT哈佛等32位學者聯合發布，歡迎閲讀。

MIT 哈佛斯坦福等機構在内的 32 位科學家聯合指出：

被視作 ChatGPT 成功關鍵的 RLHF，存在缺陷，而且分布在各個環節。

他們調查翻閲了 250 篇相關論文，僅研究正文就長達 18 頁，其中 7 頁描述了具體缺陷。

此研究一經發出，就受到大量關注。

有網友表示：這是一次偉大嘗試。所有這些都是為了幫助啓動 RLHF 的學術議程。

第一作者 Casper 還給了 RLHF 一個「新的解釋」：

Rehashing Lessons from Historical Failures

從歷史的失敗中汲取經驗

不僅指出問題，還有解決方案

作者在論文中表示，這項研究主要有三項貢獻。

第一是指出了 RLHF 在人類反饋、獎勵模型和決策三個主要環節中的缺陷。

第二點則是針對這些問題，提供了具體的解決思路。

第三則是呼籲提高 RLHF 訓練出的模型的透明度，并表示訓練信息公開有助于提高企業責任感。

我們先來看看作者在各個環節中都指出了哪些具體缺陷。

人類反饋的局限性

RLHF 區别于其他強化學習方式的關鍵之處就在于人類反饋。

但作者認為，人類反饋很容易存在不準确的情況，因而是缺陷的一大重要來源。

在人類反饋環節中，作者首先提到的是人類會產生誤導性評價。

對大模型而言，所涉及的專業領網域涵蓋了方方面面，沒有人能做到樣樣精通。

因此需要在不同領網域選擇有代表力的人物，并讓他們給出高質量的反饋。

但實際上這項工作是十分困難的。

此外由于人并非完全理性，個别評價者的觀點難免帶有偏見，甚至可能產生毒害。

除了觀念問題引起的「故意」偏差，還有一些偏差是「不小心」的。

由于時間、注意力的不足，人類犯錯誤的情況是很難避免的

而一些帶有迷惑色彩的信息，也可能導致人類被誤導。

而一些對于有一定困難的任務，人類甚至難以對其做出評價。

論文介紹，不只是做出評價時會產生偏見，評價收集的過程同樣是偏見的一大來源。

收集過程中需要對評價的有用性進行評估，所以評估人員的主觀想法同樣可能帶來影響。

在這個過程當中，還不可避免地存在成本與質量之間的權衡，影響準确程度。

除了反饋的内容，反饋的形式也存在一定的局限性，這也是出于成本的考慮。

獎勵模型和策略也需改善

接着，作者又指出，除了人類的反饋，RLHF 本身的獎勵模型和決策方式也有需要改進之處。

其中獎勵函數可能難以準确描述價值判斷，單個函數更是無法代表整個人類社會的價值觀。

獎勵模型還有泛化能力差的問題，存在獎勵機制被惡意利用的風險。

此外，獎勵模型的質量也難以評估，即使能夠實現也需要很高的成本。

因為真實的獎勵函數通常是不可知的，只能通過策略優化進行間接評估。

策略方面，論文指出很難高效地對策略進行優化，難以保證策略的魯棒性。

在策略執行階段，可能會出現與獎勵階段的差異，此前處理得很好的内容突然出現問題。

而策略階段可能使用一些預訓練模型，這同樣可能引入其中所包含的偏見信息。

另外，在對獎勵模型和決策方式進行協同訓練時，會出現漂移問題，在效率和避免過拟合之間找到平衡點也存在困難。

如何解決

根據論文内容我們可以看到，從人類反饋到 RLHF 自身的獎勵模型和決策方式，都存在不同程度的問題。

那麼該如何解決呢？作者為我們提供了一些思路。

比如針對人類反饋的局限性問題，作者的策略是可以引入另一套 AI 系統或獎勵模型，對反饋進行評價。

還有對過程進行監督指導、要求提供更精細化的反饋等措施。

另外兩個環節，作者同樣給出了解決方案。

對于可以獎勵模型，把讓 AI 協助人類反饋這個思路調換一下，讓人類直接監督其表現。

而對于決策方式問題，可以在預訓練階段就對模型進行對齊，并在訓練中加入指導。

作者還指出，除了 RLHF，其他 AI 領網域存在的安全問題同樣需要引起重視，并提出了相應的對策。

RLHF is Not All You Need

作者簡介

領銜的兩位作者分别是 MIT CSAIL 實驗室的 Stephen Casper 和哈佛大學的 Xander Davies。

Casper 的主要研究方向是對齊算法，此前曾發表過關于擴散模型評估的論文并獲得 ICML 的 Spotlight Paper 獎。

Davies 的主要研究方向是 AI 安全，今年有兩篇論文被 ICML Workshop 收錄。

其他作者當中，還可以看到不少華人的名字。

論文地址：

https://arxiv.org/pdf/2307.15217.pdf

參考鏈接：

https://twitter.com/StephenLCasper/status/1686036515653361664