OpenAI出手解決GPT-4數學推理：做對一步立刻獎勵！論文數據集全開放，直接拿下SOTA - 大酷樂

今天小編分享的科學經驗：OpenAI出手解決GPT-4數學推理：做對一步立刻獎勵！論文數據集全開放，直接拿下SOTA，歡迎閲讀。

OpenAI 一個簡單的動作，讓大模型數學能力直接達到 SOTA。

而且直接開源論文數據集，包含 80 萬個人類反饋标籤！

這就是 OpenAI 的最新研究。基于 GPT-4，他們微調了幾個模型，分别采用不同的監督方法。

一種是傳統的結果監督，只對最終正确答案進行獎勵。

另一種則是過程監督，區别在于獎勵增加，對每一個正确的推理步驟進行獎勵。

結果這一點改變，讓采用過程監督的模型 Process Reward Model（PRM），可以解決 MATH 測試集代表子集中78%的問題，達到 SOTA。

英偉達 AI 科學家 Jim Fan 大膽預測説，下一步 OpenAI 大概會用這種方法微調 GPT-4。

OpenAI 表示：

我們認為探索過程監督在數學之外領網域的表現非常重要。如果這些結果具有普遍性，那意味着過程監督将成為比結果監督更有效的方法。

獎勵增多、效果變好

話不多説，先看 OpenAI 給出的具體例子。

比如這樣一道三角函數的題：

用過程監督的模型來算，效果會是這樣的：

OpenAI 表示，這道題對于大模型來説還是比較有挑戰性的，GPT-4 也不太能搞定（只有 0.1% 的情況生成結果完全沒問題）。而使用過程獎勵是可以算出正确答案的。

這也是目前大語言模型比較飽受诟病的問題，容易產生邏輯錯誤，也被稱為 " 幻覺 "。

表現最明顯的領網域就是數學。

即便是先進如 GPT-4，這類問題也難以避免。

而降低幻覺的出現，又被視為走向 AGI 的關鍵一步。

此前為檢測幻覺所使用的是結果監督，基于最終結果提供反饋，僅僅獎勵最終正确的答案。

但效果顯然還不太行，所以 OpenAI 想了個新招，把這種獎勵增加會怎麼樣？

于是他們提出了過程監督方法，針對思維鏈中的每個步驟提供反饋，獎勵每個正确的推理步驟。

結果表明，用 MATH 數據集進行測試後：

過程監督模型能夠解決 MATH 測試集代表子集的 78% 的問題。效果優于結果監督。

而且随着每個問題考慮的解決方案的數量增加，性能差距也逐漸增大，也説明了過程監督的獎勵模型更加可靠。

△縱軸表示的是已解決的問題的百分比，紅色線代表的是過程監督獎勵模型（ORM），藍色線代表的是結果監督獎勵模型（PRM）

在測試中，過程監督有一個明顯的優勢：

可以準确指出解決問題的步驟中哪些是正确的，并且給出錯誤步驟的具體位置。

而這點在結果監督中，是具有挑戰性的。

因此，在過程監督中，信用分配（credit assignment）更加容易。

而且在對齊方面，過程監督也優于結果監督。

因為過程監督會直接獎勵模型，按照對齊的思維鏈進行操作，每個步驟都會更精确。

產生的結果可解釋性也更高，因為它鼓勵模型遵循經過人類批準的過程。

相比之下，基于結果的監督可能會出現獎勵不對齊的過程，而且通常更難進行審查。

此外，大模型還經常遇到一個問題叫做對齊税（alignment tax）。也就是想讓模型輸出更安全，那性能就會有所下降。

而過程獎勵，在數學領網域能讓這個對齊税，變成負的，即模型安全性和性能都保障。

總之，過程獎勵這個小竅門，一次性解決了大模型數學推理方面的多個問題。

在實驗結果方面，OpenAI 還給出了多個實例。

比如有一些情況，GPT-4 會出錯，但是基于過程獎勵的 PRM 能揪出問題。

最近有 30 名學生參加了一次考試。如果有 20 名學生考了 80 分，8 名學生考了 90 分，2 名學生得分為 100 分，那麼這次考試的班級平均分是多少？

下面是模型的作答結果：

前面的作答沒有問題，但是在第 7 步中，GPT-4 試圖對表達式進行簡化，出現了錯誤。

而獎勵模型卻察覺到了這個錯誤。

當然也有都不成功的例子，比如下面這道題 GPT-4 和 PRM 都被迷惑了：

來看一下模型的回答：

在第 4 步中，GPT-4 錯誤地認為該序列每 12 項循環一次，而事實上是每 10 項循環一次。

而這種計數錯誤也迷惑到了獎勵模型。

此外，OpenAI 共給出了 10 個問題和解決方案。

可以看出，基于過程監督的獎勵模型在一些問題上也會被迷惑住，但是在整體上明顯表現得更好。

網友：再也不用做數學證明題了

很快，OpenAI 的最新工作在各個平台上都引發了熱烈讨論。

有人評價：

如果這個方法在非數學領網域也能奏效，我們現在或許正處于遊戲規則即将改變的時刻。

還有人説，這項工作如果用在互動、教育方面，會非常令人興奮，尤其是數學領網域。

這不，有人就説，看來以後不用再做數學家庭作業和證明題了（doge）。

用一張圖來總結，大概就是醬嬸兒的：

也有人提出了自己的擔心：這種密集的獎勵信号是否會導致模型更容易陷入局部最小值。

但是如果能夠足夠随機化、全局搜索，或許模型的魯棒性更高。

值得一提的是，這種 step by step 的方法，不止一次在提升大模型性能上奏效。

之前，東京大學和谷歌的研究人員發現，只要在對話中加一句 "Let ’ s think step by step"，GPT-3 就能回答出以前不會的問題。

比如提問：

16 個球中有一半是高爾夫球，這些高爾夫球中有一半是藍色的，一共有幾個藍色的高爾夫球？

（問題不難，但要注意這是零樣本學習，也就是説 AI 訓練階段從沒見過同類問題。）

如果要求 GPT-3 直接寫出 " 答案是幾 "，它會給出錯誤答案：8。

但加上讓我們一步一步地思考這句 " 咒語 " 後，GPT-3 就會先輸出思考的步驟，最後給出正确答案：4！

而與之相呼應的是，這回 OpenAI 最新研究的論文題目就叫做《Let ’ s Verify Step by Step》。

論文地址：

https://openai.com/research/improving-mathematical-reasoning-with-process-supervision

數據集：

https://github.com/openai/prm800k

參考鏈接：

[ 1 ] https://twitter.com/OpenAI/status/1663957407184347136

[ 2 ] https://twitter.com/DrJimFan/status/1663972818160332800

[ 3 ] https://twitter.com/_akhaliq/status/1663981726647894027