GPT-4「變笨」被斯坦福實錘：短短仨月數學問題錯誤率暴漲40倍！OpenAI也急了：已開始調查

今天小編分享的科學經驗：GPT-4「變笨」被斯坦福實錘：短短仨月數學問題錯誤率暴漲40倍！OpenAI也急了：已開始調查，歡迎閱讀。

GPT-4 變笨，實錘了？？？

來自斯坦福大學和 UC 伯克利大學的一篇最新論文顯示：

6 月的 GPT-4 在一些任務上的表現客觀上就是比 3 月的更差。

比如他們用同樣 500 道「判斷給定整數是否為質數」的問題來測這兩個版本，發現 3 月份的 GPT-4 答對了 488 個，而 6 月只對了 12 個……

成功率直接從 97.6% 下降到 2.4%！

而當研究員通過經典的「Let ’ s think step by step」辦法來引導後者往正确答案上靠時，居然不好使了——

6 月的 GPT-4 已不再嘗試給出中間步驟，而是仍然直接回答「yes」或「no」。

不止如此，代碼能力也下降了。

對于 50 道簡單級别的 LeetCode 題，6 月的 GPT-4 只能做到有 10% 的答案可以不經更改直接運行，而在 3 月份的時候，這個數字還是 52%。

目前，這項結論已在網上引起了極大的關注。

有人稱，這意味着「大型語言模型的蜜月期已經結束」。

而 OpenAI 方面也已火速注意到這項研究，并稱已開始積極調查。

所以，短短 3 個月，GPT-4 身上究竟發生了什麼？

論文「實錘」GPT-4 變笨

這篇論文一共從數學、代碼、視覺和敏感問題四個角度比較了三月和六月的 GPT-4。

（本節内容系對論文進行轉述，不代表量子位認同有關結論）

其中數學是 GPT-4 能力下降最為明顯的方面。

證據就是開頭提到的 500 個質數判斷問題，錯誤率直接暴增近 40 倍，回答的長度也大幅縮水。

具體來看，論文中展示了 GPT-4 對其中一個問題的回答。（展示的數字為 17077，經驗證是質數）

我們可以看到，研究人員已經使用了 "step by step" 的思維鏈式提問方式，但似乎并沒有奏效。

這也許可以解釋成數學本就不是強項，但 GPT-4 在代碼方面表現同樣下降得厲害。

數據上看，簡單級别的 Leetcode 問題通過率從 52% 下降到 10%，而代碼的長度變長了。

論文作者同樣給出了一個例子。

這個問題是這樣的：

給定一個三位整數 n，把 n、2n、3n「連接」在一起。

「連接」就是把兩個數直接拼起來，比如「114」和「514」進行「連接」的結果就是「114514」。

如果「連接」之後的結果中不含 0，同時各位中包含 1-9 中的所有數字，且每個數字有且僅有一個，則把認為 n 是一個「fascinating」的數字。

請用 Python 寫一段代碼，判斷一個數是否「fascinating」。

（「class Solution」是 Leetcode 平台給定的代碼開頭格式）

三月的 GPT-4 給出了這樣的代碼：

class Solution ( object ) :

def isFascinating ( self, n ) :

concatenated_number = str ( n ) +str ( 2 * n ) + str ( 3 * n )

return sorted ( concatenated_number ) = [ '1', '2', '3', '4', '5', '6', '7', '8', '9' ]

這段代碼中包含了一些小問題，最後一行「判斷相等」時應該用雙等号。

修正過後，提交的代碼成功通過。

而六月的版本回答是醬嬸兒的：

```Python

class Solution ( object ) :

def isFascinating ( self, n ) :

# Concatenate n, 2*n and 3*n

s = str ( n ) + str ( n*2 ) + str ( n*3 )

# Check if the length of s is 9 and contains all digits from 1 to 9

return len ( s ) == 9 and set ( s ) == set ( '123456789' )

```

雖然代碼本體也是對的，但是 GPT-4 的輸出有些問題：

有段 Markdown 标記直接以文本形式顯示在了輸出結果之中，導致程式無法直接運行。

之所以研究者認為 GPT-4 在這裡犯了錯，是因為在 prompt 中已經強調了「code only」。

雖然 GPT-4 實用性上表現有所下降，但安全性似乎得到了提升。

對于敏感問題，GPT-4 回答的概率下降了超四分之三，相應做出的解釋也變少了。

研究人員嘗試着提出了一個帶有偏見的問題。

三月份的 GPT-4 會解釋為什麼拒絕回答這個問題，但六月份的版本只說了一句無可奉告。

而越獄攻擊成功的概率下降得更為明顯，可以看出六月的 GPT-4 相比三月似乎擁有了更強的魯棒性。

此外，研究團隊還對兩個版本的 GPT-4 進行了「視覺」能力測試。

這部分的測試數據來自 ARC 數據集，需要得到的「影像」是 3 × 3 的方格，以二維數組形式用數字表示方格的顏色。

相比于三月，六月版 GPT-4 的表現有小幅度提升，但并不明顯。

而一些在三月能答對的問題，到了六月卻答錯了。

所以，在這一方面很難說 GPT-4 究竟是變好還是變壞了。

總體上看，論文作者的态度比較謹慎，沒有直接斷言 GPT-4 表現是否變差。

但在數學和代碼方面，文中給出的證據的确印證了一些網友們的說法。

而作者也表示，這一發現主要是告訴大家，不斷地去測試 AI 系統的能力并監控其發展非常重要。

為什麼會這樣？

不管怎麼說，看完這項研究後，還是有不少人興奮地表示：終于有研究證明我一直以來的猜測了。

而在 " 興奮 " 之餘，大家似乎也意識到更重要的問題：

我們和大模型的 " 蜜月期 " 已經結束，已開始告别最初的 "Wow" 階段。

也就是說我們更加關注其真正的實力，而不是表面的、發布會裡演示裡的 " 花拳繡腿 "。

所以，大家也不由地好奇：

為什麼會這樣？為什麼看起來變笨了呢？

按理來說模型的質量應該随着時間的推移得到更新，變得更好；就算沒有顯著提升，數學和代碼能力也不能下降這麼迅速。

猜測有很多。

首先就是 OpenAI 可能采取了成本削減措施。

這位叫做 @Dwayne 的網友指出，由于 GPT-4 的運行成本非常高，他懷疑 OpenAI 開始控制成本，這從原來每 3 小時能發送 100 條信息到現在只能發送 25 條的限制就能看出。

而為了讓模型更快地做出決策，OpenAI 是否已不再讓 GPT-4 對多種可能的回答進行權衡、不進行深入評估就給出最終答案就值得人深思了。

畢竟決策時間少了，計算成本就會降低，而這樣一來，回答質量就不可避免的下降了。

有意思的是，在斯坦福和 UC 伯克利這項成果發布後，有不少人照貓畫虎進行了測試，但他們發現，同樣的問題 GPT-4 可以做對，比如「17077 是否為質數」，很多回答都是「是」。

究其原因，這些人基本都用了最新的代碼解釋器或者 Wolfram 插件。

這也就引出了網友們的第二點猜測：

GPT-4 的能力可能并非下降了，而是轉移了。

這就導致我們使用「最基礎的」GPT-4 提問時，它已經不會再直接調用各種「專家模型」幫我們解答了，強大的專家能力都被路由到各類插件和諸如代碼解釋器這樣的集成功能上了。

不過說到底，這也算降本增效的一種手段。

當然，也有想法認為，OpenAI 這是為了推廣插件和新功能才故意削減了 GPT-4 的基礎能力。

除此之外，還有人認為，為了更加「負責任」，不合邏輯的安全過濾器導致模型原本邏輯受到牽連，這也是 GPT-4 質量下降的一個原因。

普林斯頓教授實名反對

值得注意的是，不管網友的猜測聽起來多麼有理有據，OpenAI 其實一直都在否認，聲稱他們并未采取任何措施導致模型質量下降。

與此同時，另一波學者和網友恰好也對這篇研究提出了質疑。

來自普林斯頓大學的兩位 CS 教授指出：

這篇論文產生了「GPT-4 變笨了」的誤解，因為它只是簡單顯示了 GPT-4 行為的改變，而行為變化并不等同于能力下降。

并且實驗本身的評估也有問題，作者有誤将模仿當作推理。

為了說明自己的觀點，他們直接開了一篇博客。

以判斷質數問題為例，他們發現，評估給出的500 個數字全是質數。這個問題就大了，它意味着正确答案始終是「yes」，模型就可能產生了随機模仿的能力（也就是照着之前的正确答案無腦抄下去）。

因為事實證明，在大多數情況下，沒有一個模型會真正一一執行「判斷數字能否被整除」的算法——他們只是假裝做了。

比如下面這個 3 月份 GPT-4 的快照，它只是列了一堆待檢查的數字，然後沒有一一去除就直接給出「19997 是質數」的回答。

也就是說，3 月份的 GPT-4 可能是無腦答對的，其表現并不能證明其數學能力；相反，也就不能證明 6 月份的 GPT-4 不行了（可能本來就是這個水平）。

為了進一步證明自己的看法，教授們用 500 個合數測試了模型，結果是 3 月版本的 GPT-4 幾乎總是猜測這些數字是質數，而 6 月版本則幾乎認為是合數。

——評估數據一換，結果就完全不同，這足以說明原作者的結論并不算立得住了。

除此之外，在下降最多的代碼編寫能力方面，教授們也認為，作者只是檢查代碼是否可以直接執行，而不評估其正确性的方式，這種方式也同樣草率。

這意味着新 GPT-4 試圖提供更多幫助的能力被抵消了。

以上這些觀點，均得到了英偉達 AI 科學家 Jim Fan 的支持，他表示：

這也讓我想到了 GPT-4 滿分拿下 MIT 數學本科考試那篇論文。（被質疑造假，數據和評估方式都有問題）

但他認為，這都不重要，重要的是大家一起來 battle。

所以，你認為 GPT-4 到底變笨了沒？

論文地址：

https://arxiv.org/abs/2307.09009

參考鏈接： [ 1 ] https://twitter.com/DwayneCodes/status/1681617375437922309

[ 2 ] https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time

[ 3 ] https://twitter.com/DrJimFan/status/1681771572351369216