蘋果研究員質疑大模型！我們測試了6款，發現了4大真相

今天小編分享的科技經驗：蘋果研究員質疑大模型！我們測試了6款，發現了4大真相，歡迎閲讀。

汽車業務失利後，蘋果決定加碼生成式 AI，并将部分汽車部門的員工調到了 AI 部門。然而對待 AI，蘋果似乎不如百度、訊飛、OpenAI、xAI 等國内外企業那麼自信。

日前，蘋果研究員發布了一篇名為《理解大語言模型中數學推理局限性》的論文，質疑大語言模型的數學推理能力，甚至認為大語言模型不具備真正的推理能力。

蘋果研究員在論文中舉了一個簡單的例子，向大模型提出問題 " 奧利弗周五摘了 44 個奇異果，周六摘了 58 個奇異果。周日，他摘的奇異果是周五的兩倍。奧利弗一共摘了多少個奇異果？" 此時大語言模型都能正确計算出答案。

（圖源：豆包 AI 生成）

但當研究人員為問題增添了一句修飾語 " 周日，他摘的奇異果是周五的兩倍，其中 5 個比平均小 " 時，部分大模型就給出了錯誤的答案，傾向于減掉這五個比較小的奇異果。

在大語言模型的使用過程中，小雷也遇到過大模型 " 抽風 " 的情況，某個大語言模型甚至連最基礎的乘法都能算錯。不過大語言模型一直在向前發展，許多曾經常犯的錯誤，都已被新技術解決。

蘋果研究員吐槽大語言模型數學推理能力不行，究竟是情況屬實，還是為自家 AI 技術落後找借口？實測過後，我們有了結論。

本次大語言模型對比評測，小雷選擇了全球名氣較高的六款產品，包括：1、GPT-4o；2、訊飛星火大模型；3、豆包；4、Kimi；5、文心 3.5 五款大模型；6、GPT-4o mini。由于文心大模型 4.0 收費，其他大語言模型則免費（GPT-4o 每日有免費提問次數），因此為了公平起見，小雷選擇了免費的文心大模型 3.5。

閒話不多説，我們直接進入測試階段。

一、奇異果問題：文心完敗

第一輪測試的問題，我們選擇了蘋果研究員提到的奇異果問題（正确答案：190 個）。站在人類的視角，奇異果的大小并不影響計算數量，但在大語言模型的視角中，情況卻發生了變化。

本輪測試中，五款大語言模型有四款通過了考驗，其中豆包和 Kimi 特地提醒，奇異果的大小并不影響計算總數。GPT-4o 雖然也正确計算出了總數，但可能是因為 " 平均 " 兩個字的翻譯問題，還求出了三天平均每天摘取奇異果的數量。唯一沒有得出正确答案的大模型是文心大模型 3.5，将五個體型小的奇異果排除，得到了摘取 185 個奇異果的錯誤答案。

（圖源：GPT 截圖）

（圖源：訊飛星火截圖）

（圖源：豆包截圖）

（圖源：Kimi 截圖）

（圖源：文心一言截圖）

蘋果研究員的論文，提到了 GPT-4o mini 計算該問題時出錯，切換至該模型後，小雷又計算了一遍這道題，果不其然，GPT-4o mini 也給出了錯誤答案。

（圖源：GPT-4o mini 截圖）

難道大語言模型計算數學題的準确性，與其參數量呈正相關？GPT-4o mini 屬于小模型，更追求低成本和快速響應，參數量遠不能與 GPT-4o 相比，在推理數學問題時，參數量的差距導致 GPT-4o 與GPT-4o mini 計算結果不同。

文心大模型同樣如此，盡管沒有官方數據，但 4.0 版本的推理成本相較于 3.5 版本預計提高了 8-10 倍，3.5 版的參數量之小可想而知。

二、公交車問題：文心完勝

本輪測試的題目是一道行測數學題，具體内容為：

由于國慶節的到來，某旅遊城市的遊客數量大幅上漲，公交公司決定簡化公交車的線路，縮短單程時間。現有 1、2、3 路公交車，于上午 7 點同時從車站發車，三輛公交車再次回到車站所用時間分别為 30 分鍾、45 分鍾、60 分鍾。這三輛公交車中間不休息，請問第二次它們同時到達車站将是幾點？（正确答案：13 點）

這輪測試所得出的結果，讓小雷驚掉了下巴。在測試中，小雷連續測試四款大模型，結果全部計算錯誤，當時唯一沒有出錯的大語言模型就是文心 3.5。

鑑于文心 3.5 在第一輪的表現，小雷沒有對文心 3.5 抱有任何期待，但我不看好它的時候，文心 3.5 偏偏就争氣了，并成為唯一解出正确答案的大語言模型。後續小模型 GPT-4o mini 在測試中，也沒能給出正确答案。

（圖源：文心一言截圖）

思來想去，小雷認為唯一的解釋就是，百度作為國内首屈一指的搜索引擎，對于中國人的語言與思維習慣更加了解，因而才能準确理解 " 到達 " 這個詞的含義。其他大模型都将始發停靠在汽車站當做第一次到達車站，未能正确理解 " 到達 " 的含義。

相較于數學，本題對于中文理解能力的考驗可能更高，但這幾款大語言模型的表現也從側面説明，AI 大模型對于人類邏輯的理解能力有待提升。考慮到文心 3.5 的獲勝證明實力的同時，也有取巧的可能，因此小通還準備了地獄級難度的第三輪測試。

三、運動員問題：免費版團滅，付費版正确

第三道題同樣是一道行測數學題，但與以上問題不同的是，這道題沒有任何幹擾信息，純粹考驗大語言模型的計算能力。題目為：

某班有 39 名同學參加短跑、跳遠、投擲三項體育比賽，人數分别為 23 人、18 人、21 人，其中三項比賽全部參加的有 5 人，僅參加跳遠的有 3 人，僅參加投擲的有 9 人，請問僅參加短跑的有多少人？（正确答案：9 人）

遺憾的是，五款大模型與一款小模型在本輪測試中全部失敗，而且大語言模型給出的答案各不相同，解題思路也存在許多問題。

（圖源：GPT 截圖）

（圖源：訊飛星火截圖）

（圖源：GPT-4o mini 截圖）

最後，小雷只好使用付費版的 OpenAI o1-preview 大模型進行計算，結果不負眾望，給出了正确答案。

（圖源：GPT-4o o1-preview 截圖）

同樣是 OpenAI 旗下的大模型，免費版 GPT-4o 和付費版 o1-preview 得出了不同答案，原因可能在于免費用户所能調用的資源更少，導致大模型計算能力不如付費版。

以上參與三輪測試的五款大模型和一款小模型中，表現最差的無疑是小模型 GPT-4o mini，三輪測試中均給出了錯誤答案。

我們可以得出以下結論：

1、小模型只配做大模型的平替？

GPT-4o mini 的表現證明，當需要處理難度較高的推理問題時，小模型參數量少、資源少更容易出錯。盡管百度、OpenAI、谷歌、微軟等企業都致力于研究小模型，但它們可能只是日常使用時回答基礎問題 " 勉強能用 " 的平替版，畢竟成本可以大幅降低，這就跟企業雇傭一個小學生和一個博士生一樣，智力是一分錢一分貨。

據研究機構 Epoch AI 計算，訓練尖端大模型所需的算力，每隔 6-10 個月就會翻一倍。龐大的算力需求，給 AI 公司帶來了極高的經濟壓力，哪怕是谷歌、微軟這種行業巨頭，也會倍感吃力。正因如此，小模型現階段雖表現遜色于大模型，但 AI 公司不會放棄開發小模型，而是會通過長時間的調校與打磨，不斷提升小模型的能力。

2、要得到相對更智能的 AI 服務？給錢吧。

幾款大模型的免費版表現相差不大，能夠解決一些存在幹擾條件的數學問題，但遇到了文字可能存在歧義，或過于復雜的數學問題，表現則相對較差。好在，面對雷科技設定的地獄級難題，付費版的 o1-preview 大模型最終給出了正确答案，為大語言模型挽回了顏面，唯有付費用户才能體驗到最好的大模型。

3、本土大模型有本土優勢，百度們穩了。

結合文心 3.5 能夠在第二項測試中力壓群雄可知，大語言模型依賴大量數據運算，但每個國家或地區的數據量和獲取難易程度不同，因語言和生活習慣的差異，綜合表現更出色的大模型，未必能在特定場景中獲勝，大語言模型也需要本地化适配。

4、大模型距離人類智能還很遠，不要輕信 " 忽悠 "。

在資本驅動下，很多媒體、自媒體、創業公司甚至企業家大佬都在鼓吹 "AI 威脅論 "，甚至豪言 AI 水平已超越人類，他們往往會用一些個案來證明 AI 大模型已具備博士生甚至超越博士生水平。然而，當我們找一些常見的數學題，抑或是一些常見的工作任務來 " 考考 " 大模型時，大模型也很容易被難住。

大模型以及 AI 當然會有許多安全威脅，比如自動駕駛汽車失控給城市交通乃至人類生命安全帶來的威脅。但要説 AI 智力可以逼近人類甚至取代人類，那就純屬忽悠了。

綜合來看，蘋果研究員的觀點對錯參半，當前 AI 的邏輯推理能力不足，面對復雜的數學問題時，顯得有些力不從心，但 AI 并非完全沒有邏輯推理能力。哪怕是相對而言版本較為落後的文心 3.5，在第二輪測試中也展現出了對文字和數學的解讀與推理能力。

第一代 GPT 發布于 2018 年，僅有 1.17 億參數，到了 2020 年，GPT-3 已擁有 1750 億參數，到如今 GPT 的歷史不過短短 6 年，每一代的體驗提升肉眼可見。

當前大語言模型最大的問題依然在于參數量太少、算力太低，資源相對豐富的 o1-preview，面對其他大模型束手無策的數學難題時，依然給出了正确答案。随着大模型不斷優化、參數量增加、算力提升，大語言模型的推理能力自然會水漲船高。

進軍新能源汽車時，蘋果血虧百億美元最終放棄，如今進入生成式 AI 領網域，蘋果研究員又站出來貶低大語言模型，不禁令人懷疑蘋果的生成式 AI 項目進展不順利。對于蘋果而言，與其貶低其他 AI 大模型，不如增加 AI 研發投入，加速布局生成式 AI，畢竟 AI 的燒錢能力更甚于新能源汽車。

若失去了研發和布局生成式 AI 最好的機會，等到 OpenAI、谷歌、微軟、xAI 等企業的 AI 大模型瓜分了海外市場，百度、訊飛、阿裏巴巴、抖音等企業的 AI 大模型占領了國内市場，蘋果生成式 AI 業務有可能淪為與新能源汽車業務相同的結局。