大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科技

馬斯克用20萬卡集群,做出了比DeepSeek還強的模型?

2025-02-19 简体 HK SG TW

今天小編分享的科技經驗:馬斯克用20萬卡集群,做出了比DeepSeek還強的模型?,歡迎閱讀。

今年才剛剛過去兩個月, AI 模型競技場的火熱程度,堪比年底衝業績。

就在今天中午,馬斯克預告的那個号稱 " 地球上最聰明的人工智能 " Grok 3 ,終于來了。

發布會還是馬斯克慣有的風格,說好的十二點準時開始,結果還是晾了大家快二十分鍾。

一個小時的直播,馬斯克攜 xAI 天團( 四個人裡就有兩位華人 ),從各個方面介紹了 Grok 3 究竟有多厲害。一看紙面數據,又是吊打諸如谷歌、 OpenAI 和 DeepSeek 等一眾明星公司的招牌模型。

反正直播剛一結束, X 上就不淡定了,有人已經提前體驗上了 Grok 3 , Andrej Karpathy 說它的推理能力跟 o1-pro 差不多,而且還要略優于 DeepSeek R1 和 Gemini 的推理模型。

還有老哥用 AI 生成了一個奧特曼看到 Grok 3 發布後的視頻。。。

國内外關于 Grok 3 的報道也是滿天飛, " 首個突破 1400 分(模型在 Imarena.ai 競技場的得分 )的模型 " " 首個十萬卡集群訓練出來的模型 " 。。。各種 title 看着就唬人。

而世超在第一時間,也觀看了這場發布會,不能說炸裂,但至少從直播内容來看, Grok 3 确實又一次延續了AI 領網域大力出奇迹的神話。

目前, Grok 3 只對部分 X 的 Premium+ 會員開放,所以咱就簡單從發布會的内容給大夥兒介紹,這個 Grok 3 究竟是啥水平。

一上來,就拿 Grok 和 GPT 的模型迭代速度進行了對比。

圖上明明标着 Others ,但 GPT 是卷卷有爺名,針對性很強。

而在模型性能方面, Grok 3 這次也是鐵了心要跟其他模型争個高低。

需要注意,根據官方的介紹,這次的 Grok 3 事實上是一個模型家族,大致可以分為非推理模型和推理模型兩種。

咱先來看非推理模型,也就是 Grok 3 和 Grok 3 mini 。

還是熟悉的 Benchmark 基準測試, xAI 拉來了 Gemini 2.0 pro 、 DeepSeek V3 、 Claude 3.5 Sonnet 還有 GPT-4o 四個模型,跟自家孩子進行對比。

在 AIME ’ 24 數學競賽、 GPQA ( 研究生水平科學知識問答能力的基準測試 )和代碼三項測試中, Grok 3 的成績肉眼可見高出了其他模型一大截。

Grok 3 mini 的水平雖然跟其他模型大差不差,但直播中也提到了, mini 版本可以通過犧牲一定程度的準确性,來換取更快速度的回答。

另外,在 Chatbot Arena 的盲測中, Grok 3 代号叫 " 巧克力 " 的早期版本也登上了榜一,分數更是史無前例破了 1400 分。

具體來看,巧克力在整體風格控制、編碼、數學還有創意寫作等多個方面,全都拿了第一。

主要巧克力還只是早期版本的 Grok 3 ,今天的最新版 Grok 3 性能或許還會更強。。。

再來看 Grok 3 的推理模型。

推理模型大家應該不陌生,畢竟 OpenAI 的 o1 系列、 o3 mini 還有 DeepSeek R1 ,都已經殺紅眼了,思維鏈也不是什麼新鮮玩意兒。現在各家上新的模型裡,如果不是推理模型,可能都不好意思拿出來。

所以這次, Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 也代表 xAI 出戰了。

同樣還是紙面實力,表面一看還是吊打的姿态。

但有個需要注意的地方,這個測試中,加了 Test-Time Compute 。

簡單理解就是給了模型更多的時間去思考,同一個橫坐标上顏色淺一點的部分,就是加時賽的成績。

可以看到,如果不算上加時賽, Grok 3 兩個推理模型跟其他模型的差距,并沒有那麼大。一旦加了時長,這差距馬上就體現出來了。

換句話說, Grok 3 的推理模型思考的時間越久,表現越好。

在現場,馬斯克他們還展示了 Grok 3 推理模型,在 2025 年 AIME 數學競賽上的測試結果。

說實在的,如果不算上 Test-Time Compute ,好像還是 o3-mini ( high )的推理能力更強。。。

為了證明自己不是說說而已,馬斯克他們在現場直接進行了效果演示。

讓 Grok 3 生成 3D 動畫代碼,可以看到模型一步步的思考過程。但他們也提到,這個思考過程是被模糊處理過的,理由跟奧特曼的差不多,都說是為了防止模型被抄襲。

另外,現場還讓 Grok 3 生成一個,結合了俄羅斯方塊和寶石迷陣兩種遊戲規則的新遊戲。

這很難不讓人聯想到,馬斯克昨天實錘了 xAI 要成立一家 AI 遊戲工作室的事情,如果 Grok 3 的遊戲制作能力,真的跟現場演示的一樣甚至更強,這對于整個遊戲圈的影響都将是巨大的。

而且根據馬斯克的說法, Grok 3 在未來的兩到三年内,還可能參與到特斯拉的生產還有火箭發射的過程當中。

最後,就是基于 Grok 3 構建的 Agent , Deepsearch 。

這玩意兒其實就是個智能搜索引擎,有點像 Perplexity 的 Deep Research 和 OpenAI 的 Deep Research 。

當你問 Grok 3 下一次星艦發射是啥時候,左邊會顯示一個總體的進度條,右邊則是展示浏覽了哪些網頁、對哪些信源進行了驗證。。。

最後得出了下一次發射的時間,是 2 月 24 日。

當然了,這次 Grok 3 之所以看上去如此強大,抛不開馬斯克老早就在念叨的,只花了 122 天就搭建起來的 10 萬卡集群。

在此之後,他們又花了 92 天擴展到了 20 萬卡集群,一招大力出奇迹,在不到一年的時間裡,供出了 Grok 3 。

這段時間大家都在争論的技術路線問題,但 Grok 3 的出現似乎再一次證明了,算力的絕對力量。

就是,把 20 萬卡供出來的 Grok 3 和 DeepSeek 的模型放在一起比較,多少有點刻意了。。。

除此之外,馬斯克在前幾天的迪拜峰會上也提到, Grok 3 經過了合成數據的訓練,能夠通過檢查、驗證信息來反思自己的錯誤。

總而言之,這次的 Grok 3 的确算是拿出了點真家夥。

不過世超也注意到,在 Grok3 搶先體驗的用戶分享當中,有不少跟宣傳不符的實際測試案例。

就比如這位老哥用同一組 prompt 測試了 Grok 3 、 o3 mini 還有 Claude 3.5 Sonnet ,結果 Grok 3 翻得有點徹底。。。

在另外一組測試中, o3 mini 的表現也要優于 Grok 3 和 DeepSeek R1 。

還有放大鏡選手,直接指出了發布會演示的案例裡,有明顯錯誤。

雖然世超這次沒能實際上手測試,但從外部的一些實測案例來看, Grok 3 似乎也沒有營銷的這麼神。

而且這次 Grok 3 上線後,很多人的注意力都放在了模型是否開源上。

根據馬斯克的說法, xAI 一般是新模型發布後再開源舊模型,也就是說,就算開源也是老版的 Grok 2 。

看樣子,來自開源陣營的壓力還是不夠大,馬斯克想狙的還是老對手奧特曼。

就是不知道,已經在 X 上預告了的 GPT 4.5 ,能不能打一場翻身仗了,大家就等着看吧。

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們