測試“天下最聰明”的Grok3，就這？

今天小編分享的科技經驗：測試“天下最聰明”的Grok3，就這？，歡迎閱讀。

北京時間 2 月 18 日，馬斯克與 xAI 團隊，在直播中正式發布了 Grok 最新版本 Grok3。

早在本次發布會之前，依靠着種種相關信息的抛出，加上馬斯克本人 24/7 不間斷的預熱炒作，讓全球對 Grok3 的期待值被拉到了空前的程度。在一周前，馬斯克在直播中評論 DeepSeek R1 時，還信心滿滿地表示 "xAI 即将推出更優秀的 AI 模型 "。

從現場展示的數據來看，Grok3 在數學、科學與編程的基準測試上已經超越了目前所有的主流模型，馬斯克甚至宣稱 Grok 3 未來将用于 SpaceX 火星任務計算，并預測 " 三年内将實現諾貝爾獎級别突破 "。

但這些目前都只是馬斯克的一家之言。筆者在發布後，就測試了最新的 Beta 版 Grok3，并提出了那個經典的用來刁難大模型的問題："9.11 與 9.9 哪個大？"

遺憾的是，在不加任何定語以及标注的情況下，号稱目前最聰明的 Grok3，仍然無法正确回答這個問題。

Grok3 并沒準确識别出這個問題的含義 | 圖片來源：極客公園

在這個測試發出之後，很短的時間内迅速引發了不少朋友的關注，無獨有偶，在海外也有很多類似問題的測試，例如 " 比薩斜塔上兩個球哪個先落下 " 這些基礎物理 / 數學問題，Grok3 也被發現仍然無法應對。因此被戲稱為 " 天才不願意回答簡單問題 "。

Grok3 在實際測試中的許多常識問題上出現 " 翻車 "| 圖片來源：X

除了網友自發測試的這些基礎知識上 Grok3 出現了翻車，在 xAI 發布會直播中，馬斯克演示使用 Grok3 來分析他号稱經常玩的 Path of Exile 2 對應的職業與升華效果，但實際上 Grok3 給出的對應答案絕大部分都是錯誤的。直播中的馬斯克并沒有看出這個明顯的問題。

Grok3 在直播中也出現給出數據大量錯誤的情況 | 圖片來源：X

因此這個失誤不僅成為了海外網友再次嘲諷馬斯克打遊戲 " 找代練 " 的實錘證據，同時也為 Grok3 在實際應用中的可靠性，再次打上了一個大大的問号。

對于這樣的 " 天才 "，無論實際能力幾何，未來被用于火星探索任務這樣的極度復雜的應用場景，其可靠性都要打上一個大大的問号。

目前，眾多在幾周前獲得 Grok3 測試資格、以及昨天剛剛用上幾個小時的模型能力測試者，對于 Grok3 當前的表現，都指向了一個相同的結論：

"Grok3 是很好，但它并不比 R1 或 o1-Pro 更好。"

"Grok3 是很好，但它并不比 R1 或 o1-Pro 更好 "| 圖片來源：X

Grok3 在發布中官方的 PPT 中，在大模型競技場 Chatbot Arena 中實現 " 遙遙領先 "，但這其實也應用了一些小小的作圖技巧：榜單的縱軸僅列出了 1400-1300 分段的排名，讓原本 1% 的測試結果差距，在這個 PPT 展示中都變得異常明顯。

官方發布 PPT 中的 " 遙遙領先 " 效果 | 圖片來源：X

而實際的模型跑分結果，Grok3 其實也只比 DeepSeek R1 以及 GPT4.0 實現了不到 1%~2% 的差距：這對應了不少用戶在實際測試中 " 并無明顯差别 " 的體感效果。

實際上的 Grok3，只比後來者高了 1%-2%| 圖片來源：X

此外雖然在分數上，Grok3 超過了目前公開測試的所有模型，但這一點并不被很多人買賬：畢竟 xAI 在 Grok2 時代就有在這個榜單中 " 刷分 "，随着榜單對回答長度風格做降權處理而大幅降低分數的情況，因此經常被業内人士诟病 " 高分低能 "。

無論是榜單 " 刷分 "，還是配圖設計上的 " 小技巧 "，都展示出的是 xAI 以及馬斯克本人對于模型能力 " 遙遙領先 " 這件事的執念。

而為了這些差距，馬斯克所付出的代價堪稱高昂：在發布會中，馬斯克用近乎炫耀的口吻表示，用了 20 萬張 H100 訓練 Grok3，總訓練小時數達到兩億小時。這讓一部分人覺得這是對 GPU 行業的又一個重大利好，并認為 DeepSeek 給行業帶來的震動是 " 愚蠢 " 的。

不少人認為堆砌算力将會是模型訓練的未來 | 圖片來源：X

但實際上，有網友對比了使用 2000 張 H800 訓練兩個月得出的 DeepSeek V3，計算出 Grok3 其實際的訓練算力消耗是 V3 的 263 倍。而 DeeSeek V3 在大模型競技場榜單上與得分 1402 分的 Grok3 的差距，甚至還不到 100 分而已。

從這些數據出爐之後，就有不少人快速意識到，在 Grok3 登頂 " 世界最強 " 的背後，其實是模型越大，性能越強的邏輯，已經出現了明顯的邊際效應。

即使是 " 高分低能 " 的 Grok2，其背後也有着 X 平台内海量的高質量第一方數據作為支撐來使用。而到了 Grok3 的訓練中，xAI 自然也會遇到 OpenAI 當前同樣遇到的 " 天花板 " ——優質訓練數據的不足，讓模型能力的邊際效應迅速曝光。

對于這些事實，最早意識到并且也是最深刻理解的人，肯定是 Grok3 的開發團隊與馬斯克，因此馬斯克也在社交媒體上不斷表示當前用戶體驗到的版本 " 還僅僅只是測試版 "" 完整版将在未來幾個月推出 "。馬斯克本人更是化身 Grok3 產品經理，建議用戶直接在評論區反饋使用時所遇到的各種問題。

他大概是地球上粉絲數量最多的產品經理 | 圖片來源：X

但不到一天之内，Grok3 的表現，無疑給寄希望依靠 " 大力飛磚 " 訓練出能力更強的大模型的後來者敲響了警鍾：根據微軟公開的信息推測，OpenAI GPT4 參數體積為 1.8 萬億參數，相比 GPT3 已經提升了超過 10 倍，而傳聞中的 GPT4.5 的參數體積甚至還會更大。

模型參數體積飛漲的同時訓練成本也在飙升 | 圖片來源：X

有 Grok3 在前，GPT4.5 以及更多想要繼續 " 燒錢 "，以參數體積來獲得更好模型性能的選手，都不得不考慮到已經近在眼前的天花板，應該怎樣突破。

此時此刻，OpenAI 的前首席科學家 Ilya Sutskever 在去年 12 月曾表示 " 我們所熟悉的預訓練将會結束 "，又被人重新記起來，并試圖從中找到大模型訓練的真正出路。

Ilya 的觀點，已經為行業敲響了警鍾 | 圖片來源：X

彼時，Ilya 準确預見到了可用的新數據接近枯竭，模型難以再繼續通過獲取數據來提升性能的情況，并這種情況形容為化石燃料的消耗，表示 " 正如石油是有限資源一樣，互聯網中由人類生成的内容也是有限的 "。

在 Sutskever 預測中，預訓練模型之後的下一代模型将會有 " 真正的自主性 "，同時将具備 " 類似人腦 " 的推理能力。

與如今預訓練模型主要依賴的内容匹配不同，未來的 AI 系統将能夠以類似于人腦 " 思維 " 的方式，來逐步學習并建立起解決問題的方法論。

人類對某一個學科做到基本的精通，只需要基本專業書籍即可實現，但 AI 大模型卻需要學習數以百萬計的數據才能實現最基礎的入門效果，甚至當你換了個問法之後，這些基礎的問題也無法正确理解，模型在真正的智能上并沒有得到提升：文章開頭提到的那些基礎但 Grok3 仍然無法正确回答的問題，就是這種現象的直觀體現。

但在 " 力大飛磚 " 之外，Grok3 如果真的能向行業揭示 " 預訓練模型即将走到盡頭 " 這個事實，那它對行業仍然稱得上有着重要的啟發意義。

或許，在 Grok3 的狂潮逐漸褪去之後，我們也能看到，更多類似李飛飛 " 在特定數據集的基礎上 50 美元微調出高性能模型 " 的案例出現。并在這些探索中，最終找到真正通向 AGI 的道路。