今天小編分享的科學經驗:大意外!高考數學輪戰大模型,結果完全想不到,歡迎閱讀。
聽說網友被 ChatGPT 氣炸了!
昨個兒高考數學剛結束,有網友就坐不住了,趕緊找來了新高考數學一卷的部分題喂給了 AI 同學。
結果卻讓人大跌眼鏡(8> √ 9 × 3=3 √ 3?):
有網友表示:
ChatGPT4 能把自己氣炸,怎麼教都不會
△圖源博主 @浪豬灰頭
所以大模型之前表現數學推理能力好,都是在耍花招?它只是記住了問題的答案?
先别着急下定論,給 AI 同學一個證明自己的機會吧。
我們用 ChatGPT(GPT-3.5)、GPT-4、百度文心一言、阿裡通義千問、科大訊飛星火認知大模型這幾位 " 數學高手 " 進行了測試。(最近出現了太多的大模型,實在測不完,還有比如 Bard 不支持中文等原因,所以我們先選擇了上述幾個模型)
整體表現如上圖,目前大模型在做高考數學題方面還是個 " 差生 "。
一起來看下具體結果是怎樣令人哭笑不得的。
五大模型能否做對填空題?
先來點填空題當 " 開胃小菜 "。
公平起見,我們使用同樣的格式進行提問。
某學校開設了 4 門體育類選修課和 4 門藝術類選修課,學生需從這 8 門課中選修 2 門或 3 門課,并且每類選修課至少選修 1 門,則不同的選課方案共有?種
答案:64
GPT-4(正确)
ChatGPT (錯誤)
文心一言(錯誤)
不應該是兩種方案數加起來嗎?已經逐漸離譜。
通義千問(錯誤)
第一種選課方案裡的 " 都不選 " 是個什麼鬼!
訊飛星火(錯誤)
出師不利,只有 GPT-4 給出了正确答案,填空題對于大模型來說也很有難度?
但是看起來這幾位 AI 同學都知道分情況來計算,也許只是恰巧這道題做錯了?我們接着往下看。
在正四棱台 ABCD-A1B1C1D1 中,AB=2,A1B1=1,AA1= √ 2, 則該棱台的體積為
答案:7 √ 6/6
GPT-4 (錯誤)
ChatGPT(無解)
這一題直接全軍覆滅,ChatGPT 更是直接沒解出來,還讓檢查是不是題出錯了。【救命】
答案越來越離譜了,還真就不信邪了。
再來!
已知函數 f ( x ) = cos ω x -1 ( ω >0 ) 在區間 [ 0,2 π ] 有且僅有 3 個零點 , 則 ω 的取值範圍是?
答案: [ 2,3 )
GPT-4(錯誤)
ChatGPT(錯誤)
訊飛星火(正确)
本已經抱着再一次全軍覆沒的心情了,沒想到中文大模型力挽狂瀾!
做大題表現如何?
玩膩了填空題,再來挑戰一下更有難度的大題吧!
公平起見,我們還是以同樣的格式進行提問:
請你做一下面這道數學題:已知在△ ABC 中,A+B=3C,2sin ( A-C ) =sinB。(1)求 sinA (2)設 AB=5,求 AB 邊上的高
答案:(1)10 √ 10 /3(2)6
下面是各個大模型的表現結果:
訊飛星火(第一問答案正确,第二問錯誤)
這道三角函數題,科大訊飛的星火認知大模型第一小問答案對了,但是步驟中有差錯(第二步)。
據說,GPT-4 做這種題只有 0.1% 的概率生成的結果完全正确。
高考數學第一道大題通常都比較簡單,上面這幾位 AI 同學的表現你覺得怎麼樣?
如果大家感興趣可以自己測試一下後面幾道難度相對較高的大題(小編試過了,結果一言難盡,不忍直視)。
或者大家可以使用不同的 prompt 試試捏~
參考鏈接:
[ 1 ] https://weibo.com/5647310207/N4frlb5tx?refer_flag=1001030103_