最新RLHF拯救語言模型「胡説八道」！微調效果比ChatGPT更好，兩名華人共同一作 - 大酷樂

今天小編分享的科學經驗：最新RLHF拯救語言模型「胡説八道」！微調效果比ChatGPT更好，兩名華人共同一作，歡迎閲讀。

RLHF（基于人類反饋的強化學習）的一大缺點，終于被解決了！

沒錯，雖然 RLHF 是大語言模型 " 核心技巧 " 之一，然而這種方法也存在一個問題——

它只會判斷生成文本的整體效果，不會仔細判斷細節是否存在事實性錯誤、信息不完整和相關度等問題。

換而言之，傳統的 RLHF 只會對大語言模型的整個輸出進行打分，而不會揪出細節上的毛病。

為此，華盛頓大學和艾倫人工智能研究院的研究人員提出了一種新的 RLHF 框架——FINE-GRAINED RLHF（細粒度的人類反饋強化學習）。

這個 RLHF 框架包含多種不同類型的 " 打分器 "（reward model），通過對語言模型輸出的每句話進行評估，從而提升生成文本的質量。

不僅如此，對這些 " 打分器 " 的權重進行調配，還能更靈活地控制語言模型輸出效果。

事實證明，這種 RLHF 方法能很好地降低語言模型生成内容的錯誤率、毒性，并提升它回答問題的全面性和解析能力。

所以，這個 RLHF 方法究竟長啥樣？

對傳統 RLHF 進行兩大改進

這個名叫 FINE-GRAINED RLHF 的框架，核心目的就是細化傳統 RLHF 的評估方法。

具體來説，在語言模型輸出結果後，它要能标識出具體哪些句子是錯誤的、哪些部分是不相關的，從而更精細地指導模型學習，讓模型更好地理解任務要求、生成高質量輸出。

為此，它主要做了兩大改進：

一方面，對要評估的文本進行拆解。

如果説之前的 RLHF 評估語言模型，就像老師給學生的高考作文整體打分，那麼 FINE-GRAINED RLHF，就像是先把學生的作文拆成一句句話，再給每句話進行打分。

另一方面，訓練三個 " 打分器 "，分别用來評估事實準确性、相關性和信息完整性：

相關性、重復性和連貫性：給每一句話中的短句子（sub-sentences）進行打分。如果一句話裏面的各個句子不相關、重復或不連貫就扣分，否則加分。

錯誤或無法驗證的事實：給每一句話（sentences）進行打分。如果一句話中存在任何事實錯誤，就扣分；否則加分。

信息完整性：檢查回答是否完整，涵蓋與問題相關的參考段落中的所有信息，對整個輸出進行評分。

為了檢驗模型的效果，研究人員用兩大任務，對這種新 RLHF 和傳統 RLHF 方法進行了評估。

兩大任務效果均有提升任務一：生成文本毒性評估

為了研究這種新框架的效果，研究人員先進行了去毒任務的實驗。

實驗使用了 Perspective API 來測量毒性，它可以返回一個介于 0（無毒）和 1（有毒）之間的毒性值。

上圖展示了兩種不同的打分機制，其中（a）是傳統的 RLHF 打分機制，也就是對模型所生成的内容打一個 " 總分 "。

而（b）則是新的 RLHF 評估方法，将輸出的内容進行拆解，抽成了兩個句子，對兩個句子分别打分。

針對模型生成的這兩句話：

I am such an idiot.She is so smart!

（我真是個白痴。她真聰明！）

顯然前半句話是造成生成内容有毒的關鍵。

傳統（a）的方法，并沒有指出這一點；而（b）的方法可以很好地指出問題所在。

對兩種方法進行比較：

可以看到，在上面所有方法中，基于 FINE-GRAINED RLHF 框架，在多樣性（Diversity，大語言模型創造豐富度）水平和其它方法相近的情況下，仍能保持生成内容的毒性最低。

與此同時，根據上圖的困惑度曲線，FINE-GRAINED RLHF 的毒性下降速度更快，同時保持較低水平的困惑度（Perplexity，越低表示模型對給定序列的預測越準确）。這表明基于 FINE-GRAINED RLHF 框架學習比傳統的 RLHF 更高效。

關于這一點，其中一個解釋是：

新的 RLHF 方法能夠确定有毒内容的位置，這與傳統 RLHF 方法用的整體打分相比，提供的訓練目标更明确。

綜上，可以看到 FINE-GRAINED RLHF 在去毒任務中表現更為良好。

任務二：長篇問答

緊接着，研究人員還對 FINE-GRAINED RLHF 進行了長篇問答任務的實驗。

他們收集了一個包含人類偏好和細粒度反饋的長問答數據集—— QA-Feedback，基于 ASQA（一個專注于回答模糊事實性問題的數據集）制作。

然後，對不同的微調方法（SFT 監督微調、Preference RLHF）進行了評估：

△人工評估的不相關性錯誤（左圖）和事實性錯誤（右圖）

與其它方法相比，FINE-GRAINED RLHF 生成的内容在事實上更正确，包含更完整的信息。

相比當前表現較好的微調方法，如 SFT 和 Preference RLHF，FINE-GRAINED RLHF 生成的無關、重復和不連貫錯誤也要更少。

△信息完整度評估，"win" 表示 FINE-GRAINED RLHF 獲勝，即在信息完整性方面表現更好；而 "lose" 表示 FINE-GRAINED RLHF 失敗，即在信息完整性方面表現較差。

上面給出的是人工評估的結果，而在測試集上也有自動的評分。

在 QA-FEEDBACK 測試集上，評分結果與人工評估類似，四個系統在 Rouge 分數上都顯示 FINE-GRAINED RLHF 效果更好：

△在 QA-FEEDBACK 測試集上的自動評估結果更靈活地定制 RLHF

此外，研究人員還發現，由于 FINE-GRAINED RLHF 中使用了多個 " 打分器 "，調整它們的權重，就可能更為靈活地定制語言模型的行為。

例如，将更多的權重添加到評估信息完整性的 " 打分器 " 中，可能會使生成的信息完整性更好。

△不同獎勵模型權重配置下 FINE-GRAINED RLHF 的測試集自動評估結果。

如上表所示，研究人員探索了 FINE-GRAINED RLHF 定制化語言模型行為的能力。

他們探索了三種 " 打分器 " 權重配置，并根據語言模型的平均文本生成長度，将它們分别命名為 "short"、"medium"、"long"。

"short" 生成了相關性更高的内容，但是事實性和完整性方面較差。與之相反，"long" 提供了最準确和完整的生成内容。這反映出語言模型引用了大量的文本段落内容。而 "medium" 配置平衡了三種打分方法，并具有最高的得分。

不過，三個 " 打分器 " 之間還存在着競争關系。

" 相關性打分器 "（the rel. reward model）偏向于生成短而簡潔的回答，而 " 信息完整性打分器 "（the comp. reward model）更偏向于生成更長、更豐富的回答。

因此，在訓練過程中，這兩個 " 打分器 " 會相互競争，并最終達到一個平衡。

與此同時，" 事實性打分器 "（the fact. reward model）則會不斷提高回答的正确性。

不過，移除任何一個 " 打分器 " 都會降低模型性能。

最後，研究人員還将他們的模型與 ChatGPT 的回答進行了比較。

ChatGPT 在測試集上的 RougeLSum 得分為 40.92，遠低于本文使用 FINE-GRAINED RLHF 所訓練的模型。

簡單來説，ChatGPT 生成的回答通常非常簡潔且事實準确，但是缺乏澄清模糊問題所需的補充信息。

作者介紹

兩位論文共同一作均是來自于華盛頓大學（University of Washington）自然語言處理研究小組的博士生。

Zeqiu Wu，本科就讀于伊利諾伊大學電子與計算機工程系，并且取得了該校的碩士學位。

她的研究主要專注于信息檢索型對話系統和通用互動系統。

曾在谷歌研究院的實習，擔任學生研究員。

胡雨石（Yushi Hu），于 2021 年從芝加哥大學獲得數學、計算機科學和經濟學的學士學位。目前師從 Mari Ostendorf 教授和 Noah A. Smith 教授。

他的主要興趣領網域是多模态學習和基于人類反饋的強化學習（RLHF）。

此前，他還曾與美國阿貢國家實驗室的 Saidur Bakaul 博士和清華大學的寧傳剛教授合作過。

論文地址：

https://finegrainedrlhf.github.io/