今天小編分享的科技經驗:剛剛,黃仁勳甩出三代核彈 AI 芯片!個人超算每秒運算 1000 萬億次,DeepSeek 成最大赢家,歡迎閲讀。
英偉達 GTC 大會已經成了 AI 界超級碗,沒有劇本也沒有提詞器,中途黃仁勳被線纜卡住,反而是這場高濃度 AI 發布會裏最有人味的片段,在當今提前基本提前彩排或錄播的科技發布會裏已經很稀缺了。
剛剛,黃仁勳再次發布了全新一代核彈級 AI 芯片,不過這場發布會的還有個隐藏主角—— DeepSeek。
由于智能體 AI(Agentic AI)和推理能力的提升,現在所需的計算量至少是去年此時預估的 100 倍。
推理成本效率給 AI 行業帶來影響,而不是簡單地堆積計算能力,成為貫穿這場發布會的主線。英偉達要變成 AI 工廠,讓 AI 以超越人類的速度學習和推理。
推理本質上是一座工廠在生產 token,而工廠的價值取決于能否創造收入和利潤。因此,這座工廠必須以極致的效率打造。
黃仁勳掏出的英偉達新「核彈」也在告訴我們,未來的人工智能競争不在于誰的模型更大,而在于誰的模型具有最低的推理成本和更高推理的效率。
除了全新 Blackwell 芯片,還有兩款「真 · AI PC」
全新的 Blackwell 芯片代号為「Ultra」,也就是 GB300 AI 芯片,接棒去年的「全球最強 AI 芯片」B200,再一次實現性能上的突破 .
Blackwell Ultra 将包括英偉達 GB300 NVL72 機架級解決方案,以及英偉達 HGX B300 NVL16 系統。
Blackwell Ultra GB300 NVL72 将于今年下半年發布,參數細節如下:
1.1 EF FP4 Inference:在進行 FP4 精度的推理任務時,能夠達到 1.1 ExaFLOPS(每秒百億億次浮點運算)。
0.36 EF FP8 Training:在進行 FP8 精度的訓練任務時,性能為 1.2 ExaFLOPS。
1.5X GB300 NVL72:與 GB200 NVL72 相比,性能為 1.5 倍。
20 TB HBM3:配備了 20TB HBM 内存,是前代的 1.5 倍
40 TB Fast Memory:擁有 40TB 的快速内存,是前代的 1.5 倍。
14.4 TB/s CX8:支持 CX8,帶寬為 14.4 TB/s,是前代的 2 倍。
單個 Blackwell Ultra 芯片将和前代一樣提供相同的 20 petaflops(每秒千萬億次浮點運算) AI 性能,但配備更多的 288GB 的 HBM3e 内存。
如果説 H100 更适合大規模模型訓練,B200 在推理任務中表現出色,那麼 B300 則是一個多功能平台,預訓練、後訓練和 AI 推理都不在話下。
英偉達還特别指出,Blackwell Ultra 也适用于 AI 智能體,以及用于訓練機器人和汽車自動駕駛的「物理 AI」。
為了進一步增強系統性能,Blackwell Ultra 還将與英偉達的 Spectrum-X 以太網和英偉達 Quantum-X800 InfiniBand 平台集成,為系統中的每個 GPU 提供 800Gb/s 的數量吞吐量,幫助 AI 工廠和雲數據中心能夠更快處理 AI 推理模型。
除了 NVL72 機架,英偉達還推出了包含單個 GB300 Blackwell Ultra 芯片的台式電腦 DGX Station。Blackwell Ultra 之外,這個主機還将配備 784GB 的同一系統内存,内置 800Gbps 英偉達 ConnectX-8 SuperNIC 網絡,能夠支持 20 petaflops 的 AI 性能。
而之前在 CES 2025 展示的「迷你主機」Project DIGITS 也正式被命名為 DGX Spark,搭載專為桌面優化的 GB10 Grace Blackwell 超級芯片,每秒可提供高達 1000 萬億次 AI 計算操作,用于最新 AI 推理模型的微調和推理,包括 NVIDIA Cosmos Reason 世界基礎模型和 NVIDIA GR00T N1 機器人基礎模型。
黃仁勳表示,借助 DGX Station 和 DGX Spark,用户可以在本地運行大模型,或者将其部署在 NVIDIA DGX Cloud 等其他加速雲或者數據中心基礎設施上。
這是 AI 時代的計算機。
DGX Spark 系統現已開放預訂,而 DGX Station 預計将由華碩、戴爾、惠普等合作夥伴于今年晚些時候推出。
下一代 AI 芯片 Rubin 官宣,2026 年下半年推出
英偉達一直以科學家的名字為其架構命名,這種命名方式已成為英偉達文化的一部分。這一次,英偉達延續了這一慣例,将下一代 AI 芯片平台命名為「Vera Rubin」,以紀念美國著名天文學家薇拉 · 魯賓(Vera Rubin)。
黃仁勳表示,Rubin 的性能将達到 Hopper 的 900 倍,而 Blackwell 相較 Hopper 已實現了 68 倍的提升。
其中,Vera Rubin NVL144 預計将在 2026 年下半年發布。參數信息省流不看版:
3.6 EF FP4 Inference:在進行 FP4 精度的推理任務時,能夠達到 3.6 ExaFLOPS(每秒百億億次浮點運算)。
1.2 EF FP8 Training:在進行 FP8 精度的訓練任務時,性能為 1.2 ExaFLOPS。
3.3X GB300 NVL72:與 GB300 NVL72 相比,性能提升了 3.3 倍。
13 TB/s HBM4:配備了 HBM4,帶寬為 13TB/s。
75 TB Fast Memory:擁有 75 TB 的快速内存,是前代的 1.6 倍。
260 TB/s NVLink6:支持 NVLink 6,帶寬為 260 TB/s,是前代的 2 倍。
28.8 TB/s CX9:支持 CX9,帶寬為 28.8 TB/s,是前代的 2 倍。
标準版 Rubin 将配備 HBM4,性能比當前的 Hopper H100 芯片大幅提升。
Rubin 引入名為 Grace CPU 的繼任者—— Veru,包含 88 個定制的 Arm 核心,每個核心支持 176 個線程,并通過 NVLink-C2C 實現 1.8 TB/s 的高帶寬連接。
英偉達表示,定制的 Vera 設計将比去年 Grace Blackwell 芯片中使用的 CPU 速度提升一倍。
與 Vera CPU 搭配時,Rubin 在推理任務中的算力可達 50 petaflops,是 Blackwell 20 petaflops 的兩倍以上。此外,Rubin 還支持高達 288GB 的 HBM4 内存,這也是 AI 開發者關注的核心規格之一。
實際上,Rubin 由兩個 GPU 組成,而這一設計理念與當前市場上的 Blackwell GPU 類似——後者也是通過将兩個獨立芯片組裝為一個整體運行。
從 Rubin 開始,英偉達将不再像對待 Blackwell 那樣把多 GPU 組件稱為單一 GPU,而是更準确地按照實際的 GPU 芯 片裸片數量來計數。
互聯技術也更新了,Rubin 配備第六代 NVLink,以及支持 1600 Gb/s 的 CX9 網卡,能夠加速數據傳輸并提升連接性。
除了标準版 Rubin,英偉達還計劃推出 Rubin Ultra 版本。
Rubin Ultra NVL576 則将于 2027 年下半年推出。參數細節如下:
15 EF FP4 Inference:在 FP4 精度下進行推理任務時,性能達到 15 ExaFLOPS。
5 EF FP8 Training:在 FP8 精度下進行訓練任務時,性能為 5 ExaFLOPS。
14X GB300 NVL72:相比 GB300 NVL72,性能提升 14 倍。
4.6 PB/s HBM4e:配備 HBM4e 内存,帶寬為 4.6 PB/s。
365 TB Fast Memory:系統擁有 365 TB 的快速内存,是前代的 8 倍。
1.5 PB/s NVLink7:支持 NVLink 7,帶寬為 1.5 PB/s,是前代的 12 倍。
115.2 TB/s CX9:支持 CX9,帶寬為 115.2 TB/s,是前代的 8 倍。
在硬體配置上,Rubin Ultra 的 Veras 系統延續了 88 個定制 Arm 核心的設計,每個核心支持 176 個線程,并通過 NVLink-C2C 提供 1.8 TB/s 的帶寬。
而 GPU 方面,Rubin Ultra 集成了 4 個 Reticle-Sized GPU,每顆 GPU 提供 100 petaflops 的 FP4 計算能力,并配備 1TB 的 HBM4e 内存,在性能和内存容量上都達到了新的高度。
為了在瞬息萬變的市場競争中站穩腳跟,英偉達的產品發布節奏已經縮短至一年一更。發布會上,老黃也正式揭曉下一代 AI 芯片的命名——物理學家費曼 ( Feynman ) 。
随着 AI 工廠的規模不斷擴大,網絡基礎設施的重要性愈發凸顯。
為此,英偉達推出了 Spectrum-X ™ 和 Quantum-X 硅光網絡交換機,旨在幫助 AI 工廠實現跨站點連接數百萬 GPU,同時顯著降低能耗和運營成本。
Spectrum-X Photonics 交換機具有多種配置,包括:
128 端口 800Gb/s 或 512 端口 200Gb/s 配置,總帶寬達 100Tb/s
512 端口 800Gb/s 或 2048 端口 200Gb/s 配置,總吞吐量達 400Tb/s
與之配套的 Quantum-X Photonics 交換機則基于 200Gb/s SerDes 技術,提供 144 端口 800Gb/s 的 InfiniBand 連接,并采用液冷設計高效冷卻板載硅光子組件
與上一代產品相比,Quantum-X Photonics 交換機為 AI 計算架構提供 2 倍速度和 5 倍可擴展性。
Quantum-X Photonics InfiniBand 交換機預計于今年晚些時候上市,而 Spectrum-X Photonics 以太網交換機預計将于 2026 年推出。
随着 AI 的快速發展,對數據中心的帶寬、低延遲和高能效需求也急劇增加。
英偉達 Spectrum-X Photonics 交換機采用了一種名為 CPO 的光電子集成技術。其核心是将光引擎(就是能處理光信号的芯片)和普通的電子芯片(比如交換芯片或 ASIC 芯片)放在同一個封裝裏。
這種技術的好處很多:
傳輸效率更高:因為距離縮短,信号傳輸更快。
功耗更低:距離短了,傳輸信号需要的能量也少了。
體積更小:把光和電的部件集成在一起,整體體積也變小了,空間利用率更高。
AI 工廠的「作業系統」Dynamo
未來将沒有數據中心,只有 AI 工廠。
黃仁勳表示,未來,每個行業、每家公司擁有工廠時,都将有兩個工廠:一個是他們實際生產的工廠,另一個是 AI 工廠,而 Dynamo 則是專門為「AI 工廠」打造的作業系統。
Dynamo 是一款分布式推理服務庫,為需要 token 但又無法獲得足夠 token 的問題提供開源解決方案。
簡單來説,Dynamo 有四個方面的優勢:
GPU 規劃引擎,動态調度 GPU 資源以适應用户需求
智能路由器,減少 GPU 對重復和重疊請求的重新計算,釋放更多算力應對新的傳入請求
低延遲通信庫,加速數據傳輸
内存管理器,智能在低成本内存和存儲設備中的推理數據
人形機器人的露臉環節,永遠不會缺席
人形機器人再一次成為了 GTC 大會的壓軸節目,這次英偉達帶來了 Isaac GR00T N1,全球首款開源人形機器人功能模型。
黃仁勳表示,通用機器人技術的時代已經到來,借助 Isaac GR00T N1 核心的數據生成以及機器人學習框架,全球各地的機器人開發人員将進入 AI 時代的下一個前沿領網域。
這個模型采用「雙系統」架構,模仿人類的認知原理:
系統 1:快速思考的動作模型,模仿人類的反應或直覺
系統 2:慢思考的模型,用于深思熟慮的決策。
在視覺語言模型的支持下,系統 2 對環境和指令進行推理,然後規劃動作,系統 1 将這些規劃轉化為機器人的的動作。
GR00T N1 的基礎模型采用廣義類人推理和技能進行了預訓練,而開發人員可以通過真實或合成數據進行後訓練,滿足特定的需求:既可以完成工廠的特定任務,也可以在家裏自主完成家務。
黃仁勳還宣布了與 Google DeepMind 和 Disney Research 合作開發的開源物理引擎 Newton。
一台搭載 Newton 平台的機器人也登上了舞台,黃仁勳稱之為「Blue」,外觀神似《星球大戰》中的 BDX 機器人,能夠用聲音和動作和黃仁勳互動。
8 塊 GPU,DeepSeek-R1 推理速度創全球之最
英偉達實現了全球最快的 DeepSeek-R1 推理。
官網顯示,一台搭載 8 個 Blackwell GPU 的 DGX 系統,在運行 6710 億參數的 DeepSeek-R1 模型時,可實現每用户每秒超過 250 個 token 的速度,或達到最高吞吐量每秒超過 30000 個 token。
通過硬體和軟體的結合,自今年 1 月以來,英偉達在 DeepSeek-R1 671B 模型上的吞吐量提升了約 36 倍,每 token 的成本效率提高了約 32 倍。
為了實現這一成就,英偉達完整的推理生态系統已針對 Blackwell 架構進行了深度優化,不僅整合 TensorRT-LLM、TensorRT Model Optimizer 等先進工具,還無縫支持 PyTorch、JAX 和 TensorFlow 等主流框架。
在 DeepSeek-R1、Llama 3.1 405B 和 Llama 3.3 70B 等模型上,采用 FP4 精度的 DGX B200 平台相較于 DGX H200 平台,推理吞吐量提升超過 3 倍。
值得注意的是,此次發布會的主題演講并未提及量子計算,但英偉達特意在這屆 GTC 大會設定了量子日,邀請了多家當紅量子計算公司的 CEO 出席。
要知道黃仁勳年初一句「量子計算還需 20 年才實用」的論斷猶在耳畔。
一改口風的背後,離不開微軟耗時 17 年研發的拓撲量子芯片 Majorana 1 實現 8 個拓撲量子比特集成,離不開 Google Willow 芯片宣稱用 5 分鍾完成經典計算機需 10^25 年處理的任務,推動了量子計算的熱潮。
芯片無疑是重頭戲,但一些軟體的亮相同樣值得關注。
硅谷著名投資人馬克 · 安德森曾提出軟體正在吞噬世界(Software is eating the world)的論斷,其核心邏輯在于軟體通過虛拟化、抽象化和标準化,正在成為控制物理世界的基礎設施。
不滿足于做「賣鏟人」,英偉達的野心是打造 AI 時代的「生產力作業系統」。從汽車智能駕駛,到制造業的數字孿生工廠,這些貫穿整場發布會的案例都是将 GPU 算力轉化為行業生產力的具象化表達。
實際上,無論是發布會上亮相的最新核彈芯片,還是押注戰未來的量子計算,黃仁勳在這場發布會上對 AI 未來發展的洞察和布局,都比當下的技術參數與性能指标更具看點。
在介紹 Blackwell 與 Hopper 架構的對比時,黃仁勳還不忘幽默一把。
他以一個 100MW 工廠的對比數據為例,指出采用 Hopper 架構需要 45,000 顆芯片和 400 個機架,而 Blackwell 架構憑借更高的效率顯著減少了硬體需求。
于是,黃仁勳那句經典的總結再次抛出,「the more you buy, the more you save」(買得越多,省得越多)。」随後話鋒一轉,他又補充説,「the more you buy, the more you make」(買得越多,賺得越多)。
随着 AI 領網域的重心從訓練轉向推理,英偉達更需要證明其軟硬體生态在推理場景的不可替代性。
一方面,Meta、Google 等巨頭自研 AI 芯片,可能分流 GPU 市場需求。
另一方面,英偉達最新 AI 芯片的适時亮相,回應如 DeepSeek 的開源模型對 GPU 需求的衝擊,并展示推理領網域技術優勢,也是為了對衝市場對訓練需求見頂的擔憂。
最近估值跌至 10 年低位的英偉達,比以往任何時候都需要一場酣暢淋漓的勝利。