今天小編分享的科技經驗:測試“天下最聰明”的Grok3,就這?,歡迎閱讀。
北京時間 2 月 18 日,馬斯克與 xAI 團隊,在直播中正式發布了 Grok 最新版本 Grok3。
早在本次發布會之前,依靠着種種相關信息的抛出,加上馬斯克本人 24/7 不間斷的預熱炒作,讓全球對 Grok3 的期待值被拉到了空前的程度。在一周前,馬斯克在直播中評論 DeepSeek R1 時,還信心滿滿地表示 "xAI 即将推出更優秀的 AI 模型 "。
從現場展示的數據來看,Grok3 在數學、科學與編程的基準測試上已經超越了目前所有的主流模型,馬斯克甚至宣稱 Grok 3 未來将用于 SpaceX 火星任務計算,并預測 " 三年内将實現諾貝爾獎級别突破 "。
但這些目前都只是馬斯克的一家之言。筆者在發布後,就測試了最新的 Beta 版 Grok3,并提出了那個經典的用來刁難大模型的問題:"9.11 與 9.9 哪個大?"
遺憾的是,在不加任何定語以及标注的情況下,号稱目前最聰明的 Grok3,仍然無法正确回答這個問題。
Grok3 并沒準确識别出這個問題的含義 | 圖片來源:極客公園
在這個測試發出之後,很短的時間内迅速引發了不少朋友的關注,無獨有偶,在海外也有很多類似問題的測試,例如 " 比薩斜塔上兩個球哪個先落下 " 這些基礎物理 / 數學問題,Grok3 也被發現仍然無法應對。因此被戲稱為 " 天才不願意回答簡單問題 "。
Grok3 在實際測試中的許多常識問題上出現 " 翻車 "| 圖片來源:X
除了網友自發測試的這些基礎知識上 Grok3 出現了翻車,在 xAI 發布會直播中,馬斯克演示使用 Grok3 來分析他号稱經常玩的 Path of Exile 2 對應的職業與升華效果,但實際上 Grok3 給出的對應答案絕大部分都是錯誤的。直播中的馬斯克并沒有看出這個明顯的問題。
Grok3 在直播中也出現給出數據大量錯誤的情況 | 圖片來源:X
因此這個失誤不僅成為了海外網友再次嘲諷馬斯克打遊戲 " 找代練 " 的實錘證據,同時也為 Grok3 在實際應用中的可靠性,再次打上了一個大大的問号。
對于這樣的 " 天才 ",無論實際能力幾何,未來被用于火星探索任務這樣的極度復雜的應用場景,其可靠性都要打上一個大大的問号。
目前,眾多在幾周前獲得 Grok3 測試資格、以及昨天剛剛用上幾個小時的模型能力測試者,對于 Grok3 當前的表現,都指向了一個相同的結論:
"Grok3 是很好,但它并不比 R1 或 o1-Pro 更好。"
"Grok3 是很好,但它并不比 R1 或 o1-Pro 更好 "| 圖片來源:X
Grok3 在發布中官方的 PPT 中,在大模型競技場 Chatbot Arena 中實現 " 遙遙領先 ",但這其實也應用了一些小小的作圖技巧:榜單的縱軸僅列出了 1400-1300 分段的排名,讓原本 1% 的測試結果差距,在這個 PPT 展示中都變得異常明顯。
官方發布 PPT 中的 " 遙遙領先 " 效果 | 圖片來源:X
而實際的模型跑分結果,Grok3 其實也只比 DeepSeek R1 以及 GPT4.0 實現了不到 1%~2% 的差距:這對應了不少用戶在實際測試中 " 并無明顯差别 " 的體感效果。
實際上的 Grok3,只比後來者高了 1%-2%| 圖片來源:X
此外雖然在分數上,Grok3 超過了目前公開測試的所有模型,但這一點并不被很多人買賬:畢竟 xAI 在 Grok2 時代就有在這個榜單中 " 刷分 ",随着榜單對回答長度風格做降權處理而大幅降低分數的情況,因此經常被業内人士诟病 " 高分低能 "。
無論是榜單 " 刷分 ",還是配圖設計上的 " 小技巧 ",都展示出的是 xAI 以及馬斯克本人對于模型能力 " 遙遙領先 " 這件事的執念。
而為了這些差距,馬斯克所付出的代價堪稱高昂:在發布會中,馬斯克用近乎炫耀的口吻表示,用了 20 萬張 H100 訓練 Grok3,總訓練小時數達到兩億小時。這讓一部分人覺得這是對 GPU 行業的又一個重大利好,并認為 DeepSeek 給行業帶來的震動是 " 愚蠢 " 的。
不少人認為堆砌算力将會是模型訓練的未來 | 圖片來源:X
但實際上,有網友對比了使用 2000 張 H800 訓練兩個月得出的 DeepSeek V3,計算出 Grok3 其實際的訓練算力消耗是 V3 的 263 倍。而 DeeSeek V3 在大模型競技場榜單上與得分 1402 分的 Grok3 的差距,甚至還不到 100 分而已。
從這些數據出爐之後,就有不少人快速意識到,在 Grok3 登頂 " 世界最強 " 的背後,其實是模型越大,性能越強的邏輯,已經出現了明顯的邊際效應。
即使是 " 高分低能 " 的 Grok2,其背後也有着 X 平台内海量的高質量第一方數據作為支撐來使用。而到了 Grok3 的訓練中,xAI 自然也會遇到 OpenAI 當前同樣遇到的 " 天花板 " ——優質訓練數據的不足,讓模型能力的邊際效應迅速曝光。
對于這些事實,最早意識到并且也是最深刻理解的人,肯定是 Grok3 的開發團隊與馬斯克,因此馬斯克也在社交媒體上不斷表示當前用戶體驗到的版本 " 還僅僅只是測試版 "" 完整版将在未來幾個月推出 "。馬斯克本人更是化身 Grok3 產品經理,建議用戶直接在評論區反饋使用時所遇到的各種問題。
他大概是地球上粉絲數量最多的產品經理 | 圖片來源:X
但不到一天之内,Grok3 的表現,無疑給寄希望依靠 " 大力飛磚 " 訓練出能力更強的大模型的後來者敲響了警鍾:根據微軟公開的信息推測,OpenAI GPT4 參數體積為 1.8 萬億參數,相比 GPT3 已經提升了超過 10 倍,而傳聞中的 GPT4.5 的參數體積甚至還會更大。
模型參數體積飛漲的同時訓練成本也在飙升 | 圖片來源:X
有 Grok3 在前,GPT4.5 以及更多想要繼續 " 燒錢 ",以參數體積來獲得更好模型性能的選手,都不得不考慮到已經近在眼前的天花板,應該怎樣突破。
此時此刻,OpenAI 的前首席科學家 Ilya Sutskever 在去年 12 月曾表示 " 我們所熟悉的預訓練将會結束 ",又被人重新記起來,并試圖從中找到大模型訓練的真正出路。
Ilya 的觀點,已經為行業敲響了警鍾 | 圖片來源:X
彼時,Ilya 準确預見到了可用的新數據接近枯竭,模型難以再繼續通過獲取數據來提升性能的情況,并這種情況形容為化石燃料的消耗,表示 " 正如石油是有限資源一樣,互聯網中由人類生成的内容也是有限的 "。
在 Sutskever 預測中,預訓練模型之後的下一代模型将會有 " 真正的自主性 ",同時将具備 " 類似人腦 " 的推理能力。
與如今預訓練模型主要依賴的内容匹配不同,未來的 AI 系統将能夠以類似于人腦 " 思維 " 的方式,來逐步學習并建立起解決問題的方法論。
人類對某一個學科做到基本的精通,只需要基本專業書籍即可實現,但 AI 大模型卻需要學習數以百萬計的數據才能實現最基礎的入門效果,甚至當你換了個問法之後,這些基礎的問題也無法正确理解,模型在真正的智能上并沒有得到提升:文章開頭提到的那些基礎但 Grok3 仍然無法正确回答的問題,就是這種現象的直觀體現。
但在 " 力大飛磚 " 之外,Grok3 如果真的能向行業揭示 " 預訓練模型即将走到盡頭 " 這個事實,那它對行業仍然稱得上有着重要的啟發意義。
或許,在 Grok3 的狂潮逐漸褪去之後,我們也能看到,更多類似李飛飛 " 在特定數據集的基礎上 50 美元微調出高性能模型 " 的案例出現。并在這些探索中,最終找到真正通向 AGI 的道路。