今天小編分享的科學經驗:GPT-4滿分通過MIT本科數學考試!這套提示詞火了,歡迎閲讀。
萬萬想不到啊,MIT 數學考試,被 GPT-4 攻破了?!
突然有人在最新論文工作中高調宣布:
GPT-4 在 MIT 的數學和 EECS(電氣工程和計算機科學系)本科學位考試中,表現出的能力完全滿足畢業要求。
而且妥妥地拿下滿分!
要知道,測出這個結果的不是别人,正是來自 MIT 和波士頓大學、康奈爾大學的研究團隊。
而且強如上一代王者 GPT-3.5,在同樣的測試中,只成功搞定了三分之一。
△GPT-3.5 考試成績
論文一出,無數目光迅速被吸引過來。
GPT-4 這樣看似開挂的行為,自然引發了不少網友的感慨。
比 GPT-3.5 強好多,好耶!
咱就是説,有沒有可能以後不需要比 GPT-4 更強的模型,來解決學術問題了?
還有網友展現了自己網上衝浪的 " 前沿性 ",玩了個這兩天 Yann LeCun 吐槽 "GPT-4 智商不如狗 " 的梗:
GPT-4 開挂 MIT 考試
具體來説,GPT-4 這次是參與了這樣一場測試:
研究團隊策劃了一個數據集,其中包含 4550 個問題和解決方案。
這 4550 個問題和解決方案,來自 MIT 數學系和 EECS 的學生獲得本科學位,需要學習的課程問題集、期中考試和期末考試。
包括:
6-1:電氣科學與工程;
6-2:電氣工程與計算機科學;
6-3:計算機科學與工程;
6-4:人工智能與決策;
18-1:普通數學;
18-2:應用數學;
18-3:純數學;
18-C:數學與計算機科學。
△每個專業的詳細分類總結
題目統統出自 MIT 的數據集,從中随機生成 228 個問題,不涉及影像和已有解決方案的問題。
題目的難度等級由易到難依次為:練習、習題、 期中考試、期末考試、實驗和專題。
按答案類型排序,題目的難度由易到難依次為:編程、開放、選擇題、數值、表達式和影像。
這一次,參與考試的不只有 GPT-4 和 GPT-3.5,還有 StableVicuna-13B、LLaMA-30B 和 LLaMA-60B。
選擇讓這 4 個大模型作為考試參賽選手,原因是它們是 " 最先進的大語言模型 "。
△最終考試成績
通過表格裏的數據可以看到,得分最高的是經過調優後的 GPT-4,得分率 100%;表現最一般的是 LLaMA-30B,只拿下了 30% 的分數。
值得關注的是,原始版本的 GPT-4 開箱即用,完全不經過調優,在本次 MIT 考試中也拿到了 90% 的分數。
調優流程,包括 Few-Shot+CoT+Self-critique+Experts。
從最終考試成績的表格數據可以看到,從左到右每增加一個環節,調優後的 GPT-4 得分都會更上一層樓。
此外,研究團隊還在提示框裏進行了工程優化,具體的 " 咒語 "如下:
等等,評分人是 GPT-4 自己?
看到這樣的結果,不少網友心生感慨,LLM 在數學考試上的進步,未免有些神速了哈。
2 年前,AI 還在苦苦掙扎小學數學問題。
類似" 小明種了 5 棵檸檬樹,每年從每棵樹上得到 6 個檸檬,10 年間他總共得到多少檸檬 "這種。
去年年初,MIT+ 哈佛 + 哥倫比亞大學 + 滑鐵盧大學的聯合研究表示,把數學問題轉換成等價的編程問題,就可以讓 GPT-3 的同門師兄弟—— OpenAI 的 Codex 掌握高數,達到MIT 本科水平。
學了 6 門 MIT 本科基礎數學課裏随機抽取的例題,6 門課程每門随機出 25 道題,再加上一個 ACT 水平(美國高考)的數據集裏的 60 道題。
總計 210 道題,AI 全部答對。
不過有人提出,AI 達到的 "MIT 本科水平 ",實際是 Codex 在做語言題而非數學題——
因為當時的評測中,Codex 負責讀寫,并不包括求解。
所以,這一回 GPT-4 表現奇佳,怎一個妙字了得~
好了,知道你很着急誇它,但你先别着急誇它,因為很快有人發現了一些 " 詭異 "。
主要有2 大槽點。
第一個值得質疑一番的,就是 OpenAI 的訓練數據集沒有完全公布。
這也就意味着,無法證明數據集中的 4550 個問題和解決方案,在 GPT-4 的訓練集中不存在。
換句話説,如果 GPT-4 在預訓練階段已經接觸到了這次的考題們,那最終拿下完美得分,就沒什麼好驚喜的了。
也難怪乎有網友毫不客氣地 yygq,認定 GPT-4 拿到這樣的結果,一定是數據集已經包含在訓練數據裏了。
第二個槽點,就是 GPT-4 最後 100% 的得分率,似乎哪裏不對勁???
定睛一看,在論文的第 2.6 節有一句很關鍵的點:
團隊在數據集上微調開源大模型," 給定問題 Q、基本事實解 S 和 LLM 答案 A,我們使用 GPT-4 自動對模型響應進行評分 "。
實際操作上,就是每個大模型生成這次考試的答案,然後派出 GPT-4 打分,分值在 0-5 之間。
所以給 GPT-4 打出滿分的,實際上是 GPT-4 自己。
啊這……很難説沒有王婆賣瓜自賣自誇的嫌疑。
此外,關于要給 GPT-4 提供 " 好的提示 ",才能讓它達到滿抽成績,也讓許多人抱有微詞。
到底什麼算 " 好的提示 " 呢?似乎無法定義。
甚至有人喊着,應該把這些題丢給 MIT 數學和 EECS 的學生去做,并不斷給他們 " 好的提示 ",這樣人類學生也能拿下 100% 的吧……
One More Thing
一個小小的彩蛋:
整個測試中,基本上可以在筆記型電腦上部署運行的StableVicuna-13B,也有 48% 的得分率。
這個成績,不僅比模型更大的 LLaMA-65B 高出近 10 個百分點,就連 MIT fine-tuing 過後的 LLaMA-30B,還要高。
讓人不得不陷入一些關于模型規模與能力相關性的思考。
參考鏈接:
[ 1 ] https://arxiv.org/abs/2306.08997
[ 2 ] https://twitter.com/johnjnay/status/1669687958960586753
[ 3 ] https://twitter.com/arankomatsuzaki/status/1669528841629601792
[ 4 ] https://twitter.com/emollick/status/1669742473097228292
— 聯系作者 —
>