大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科技

測試「天下最聰明」的 Grok3:它真的是模型邊際效應的終點嗎?

2025-02-24 简体 HK SG TW

今天小編分享的科技經驗:測試「天下最聰明」的 Grok3:它真的是模型邊際效應的終點嗎?,歡迎閱讀。

北京時間 2 月 18 日,馬斯克與 xAI 團隊,在直播中正式發布了 Grok 最新版本 Grok3。

早在本次發布會之前,依靠着種種相關信息的抛出,加上馬斯克本人 24/7 不間斷的預熱炒作,讓全球對 Grok3 的期待值被拉到了空前的程度。在一周前,馬斯克在直播中評論 DeepSeek R1 時,還信心滿滿地表示「xAI 即将推出更優秀的 AI 模型」。

從現場展示的數據來看,Grok3 在數學、科學與編程的基準測試上已經超越了目前所有的主流模型,馬斯克甚至宣稱 Grok 3 未來将用于 SpaceX 火星任務計算,并預測「三年内将實現諾貝爾獎級别突破」。

但這些目前都只是馬斯克的一家之言。筆者在發布後,就測試了最新的 Beta 版 Grok3,并提出了那個經典的用來刁難大模型的問題:「9.11 與 9.9 哪個大?」

遺憾的是,在不加任何定語以及标注的情況下,号稱目前最聰明的 Grok3,仍然無法正确回答這個問題。

Grok3 并沒準确識别出這個問題的含義 | 圖片來源:極客公園

在這個測試發出之後,很短的時間内迅速引發了不少朋友的關注,無獨有偶,在海外也有很多類似問題的測試,例如「比薩斜塔上兩個球哪個先落下」這些基礎物理 / 數學問題,Grok3 也被發現仍然無法應對。因此被戲稱為「天才不願意回答簡單問題」。

Grok3 在實際測試中的許多常識問題上出現「翻車」  | 圖片來源:X

除了網友自發測試的這些基礎知識上 Grok3 出現了翻車,在 xAI 發布會直播中,馬斯克演示使用 Grok3 來分析他号稱經常玩的 Path of Exile 2 ( 流放之路 2 ) 對應的職業與升華效果,但實際上 Grok3 給出的對應答案絕大部分都是錯誤的。直播中的馬斯克并沒有看出這個明顯的問題。

Grok3 在直播中也出現給出數據大量錯誤的情況   | 圖片來源:X

因此這個失誤不僅成為了海外網友再次嘲諷馬斯克打遊戲「找代練」的實錘證據,同時也為 Grok3 在實際應用中的可靠性,再次打上了一個大大的問号。

對于這樣的「天才」,無論實際能力幾何,未來被用于火星探索任務這樣的極度復雜的應用場景,其可靠性都要打上一個大大的問号。

目前,眾多在幾周前獲得 Grok3 測試資格、以及昨天剛剛用上幾個小時的模型能力測試者,對于 Grok3 當前的表現,都指向了一個相同的結論:

「Grok3 是很好,但它并不比 R1 或 o1-Pro 更好」

「Grok3 是很好,但它并不比 R1 或 o1-Pro 更好」  | 圖片來源:X

Grok3 在發布中官方的 PPT 中,在大模型競技場 Chatbot Arena 中實現「遙遙領先」,但這其實也應用了一些小小的作圖技巧:榜單的縱軸僅列出了 1400-1300 分段的排名,讓原本 1% 的測試結果差距,在這個 PPT 展示中都變得異常明顯。

官方發布 PPT 中的「遙遙領先」效果 | 圖片來源:X

而實際的模型跑分結果,Grok3 其實也只比 DeepSeek R1 以及 GPT4.0 實現了不到 1-2% 的差距:這對應了不少用戶在實際測試中「并無明顯差别」的體感效果。

實際上的 Grok3,只比後來者高了 1%-2%   | 圖片來源:X

此外雖然在分數上,Grok3 超過了目前公開測試的所有模型,但這一點并不被很多人買賬:畢竟 xAI 在 Grok2 時代就有在這個榜單中「刷分」,随着榜單對回答長度風格做降權處理而大幅降低分數的情況,因此經常被業内人士诟病「高分低能」。

無論是榜單「刷分」,還是配圖設計上的「小技巧」,都展示出的是 xAI 以及馬斯克本人對于模型能力「遙遙領先」這件事的執念。

而為了這些差距,馬斯克所付出的代價堪稱高昂:在發布會中,馬斯克用近乎炫耀的口吻表示,用了 20 萬張 H100(馬斯克直播中表示使用「超過 10 萬」張 ) 訓練 Grok3,總訓練小時數達到兩億小時。這讓一部分人覺得這是對 GPU 行業的又一個重大利好,并認為 DeepSeek 給行業帶來的震動是「愚蠢」的。

不少人認為堆砌算力将會是模型訓練的未來   | 圖片來源:X

但實際上,有網友對比了使用 2000 張 H800 訓練兩個月得出的 DeepSeek V3,計算出 Grok3 其實際的訓練算力消耗是 V3 的 263 倍。而 DeeSeek V3 在大模型競技場榜單上與得分 1402 分的 Grok3 的差距,甚至還不到 100 分而已。

從這些數據出爐之後,就有不少人快速意識到,在 Grok3 登頂「世界最強」的背後,其實是模型越大,性能越強的邏輯,已經出現了明顯的邊際效應。

即使是「高分低能」的 Grok2,其背後也有着 X(Twitter)平台内海量的高質量第一方數據作為支撐來使用。而到了 Grok3 的訓練中,xAI 自然也會遇到 OpenAI 當前同樣遇到的「天花板」——優質訓練數據的不足,讓模型能力的邊際效應迅速曝光。

對于這些事實,最早意識到并且也是最深刻理解的人,肯定是 Grok3 的開發團隊與馬斯克,因此馬斯克也在社交媒體上不斷表示當前用戶體驗到的版本「還僅僅只是測試版」「完整版将在未來幾個月推出」。馬斯克本人更是化身 Grok3 產品經理,建議用戶直接在評論區反饋使用時所遇到的各種問題。

他大概是地球上粉絲數量最多的產品經理   | 圖片來源:X

但不到一天之内,Grok3 的表現,無疑給寄希望依靠「大力飛磚」訓練出能力更強的大模型的後來者敲響了警鍾:根據微軟公開的信息推測,OpenAI GPT4 參數體積為 1.8 萬億參數,相比 GPT3 已經提升了超過 10 倍,而傳聞中的 GPT4.5 的參數體積甚至還會更大。

模型參數體積飛漲的同時訓練成本也在飙升   | 圖片來源:X

有 Grok3 在前,GPT4.5 以及更多想要繼續「燒錢」,以參數體積來獲得更好模型性能的選手,都不得不考慮到已經近在眼前的天花板,應該怎樣突破。

此時此刻,OpenAI 的前首席科學家 Ilya Sutskever 在去年 12 月曾表示「我們所熟悉的預訓練将會結束」,又被人重新記起來,并試圖從中找到大模型訓練的真正出路。

  Ilya 的觀點,已經為行業敲響了警鍾   | 圖片來源:X

彼時,Ilya 準确預見到了可用的新數據接近枯竭,模型難以再繼續通過獲取數據來提升性能的情況,并這種情況形容為化石燃料的消耗,表示「正如石油是有限資源一樣,互聯網中由人類生成的内容也是有限的」。

在 Sutskever 預測中,預訓練模型之後的下一代模型将會有「真正的自主性」。同時将具備「類似人腦」的推理能力。

與如今預訓練模型主要依賴的内容匹配(基于模型此前學習的内容)不同,未來的 AI 系統将能夠以類似于人腦「思維」的方式,來逐步學習并建立起解決問題的方法論。

人類對某一個學科做到基本的精通,只需要基本專業書籍即可實現,但 AI 大模型卻需要學習數以百萬計的數據才能實現最基礎的入門效果,甚至當你換了個問法之後,這些基礎的問題也無法正确理解,模型在真正的智能上并沒有得到提升:文章開頭提到的那些基礎但 Grok3 仍然無法正确回答的問題,就是這種現象的直觀體現。

但在「力大飛磚」之外,Grok3 如果真的能向行業揭示「預訓練模型即将走到盡頭」這個事實,那它對行業仍然稱得上有着重要的啟發意義。

或許,在 Grok3 的狂潮逐漸褪去之後,我們也能看到,更多類似李飛飛「在特定數據集的基礎上 50 美元微調出高性能模型」的案例出現。并在這些探索中,最終找到真正通向 AGI 的道路。

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們