今天小編分享的互聯網經驗:推理和機器人,哪一個才是英偉達「AI工廠」的增長故事?,歡迎閱讀。
雷峰網消息,北京時間 3 月 19 日凌晨,英偉達公司創始人兼 CEO 黃仁勳在 GTC 會議上發表主題演講。
DeepSeek 爆火後,英偉達被推上風口浪尖,對于 AI 發展是否會帶來更大數量級的算力需求,市場生出隐憂。演講開場,黃仁勳便做出回答:" 全世界都錯了,Scaling law 有更強的韌性,現在的計算量是去年同期的 100 倍。"
推理讓 AI 具備 " 思維鏈 ",模型響應需求時會對問題進行拆解,而不是直接給出答案,對每個步驟進行推理勢必讓產生的 Token 數量增加。模型變得更加復雜,為了保證原有的推理速度以及響應能力,便對算力提出了更高的要求。
Token 是 AI 的基本單元,推理模型本質上是一座生產 Token 的工廠,提高 Token 的生產速度就是提高工廠的生產效率,效率越高,利益越大,算力要做的就是探索生產效率的邊界。
而具備自主推理能力的 Agentic AI 發展趨勢之下,勢必帶動物理 AI 的發展。GTC 會議上,英偉達帶來 Blackwell Ultra、推理系統 Dynamo、Blackwell NVLink 72、下一代 AI 芯片 Rubin 等全新發布,用性能回應需求。
AI 芯片将「年更」,Rubin 性能達 Hopper「900 倍」
AI 的發展讓數據中心的資本支出不斷攀升,數據顯示,2028 年數據中心資本支出将達到 1 萬億美元,黃仁勳稱:" 這其中的大部分增長可能還會加速。"資本支出增加、盈利能力提升,帶來的是英偉達在數據中心領網域的營收增加。
為了讓計算機成為更強的 "Token 生成器 ",英偉達發布新一代 " 最強 AI 芯片 " Blackwell Ultra。
單從硬體上看,Blackwell Ultra 相較于 GB200 帶來的最大更新是采用 12 層堆疊的 HBM3e 内存,成為全球首個顯存達到 288GB 的 GPU。對此,有消息稱,SK 海力士将獨家供應 Blackwell Ultra。
高效響應推理模型,對算力、内存及帶寬提出更高的要求。英偉達推出 Blackwell Ultra GB300 NVL72 機架級解決方案,集成72 個 Blackwell Ultra GPU 和 36 個 Grace CPU,滿足 AI 推理工作負載對算力和内存的要求。
Blackwell Ultra GB300 NVL72 将于 2025 年下半年發布,其性能為 GB200 NVL72 的 1.5 倍、40TB 快速閃存為前代 1.5 倍,14.4TB/s 帶寬為前代 2 倍。
要更好釋放硬體的算力,軟硬體協同變得更加重要,為此,英偉達推出分布式推理服務庫 NVIDIA Dynamo,通過協調并加速數千個 GPU 之間的推理通信,為部署推理 AI 模型的 AI 工廠最大化其 token 收益。
在 GPU 數量相同的情況下,Dynamo 可以實現 Hopper 平台上運行 Llama 模型的 AI 工廠性能和收益翻倍,在由 GB200 NVL72 機架組成的集群上運行 DeepSeek-R1 模型時,Dynamo 的智能推理優化能将每個 GPU 生成的 Token 數量提高 30 倍以上,并讓 Blackwell 的性能相較于 Hopper 提升了 25 倍。
黃仁勳表示,Dynamo 将完全開源并支持 PyTorch、SGLang、NVIDIA TensorRT-LLM 和 vLLM,使企業、初創公司和研究人員能夠開發和優化在分離推理時部署 AI 模型的方法。
在推理模型中,Dynamo 則讓 Blackwell 的性能達到 Hopper 的 40 倍,黃仁勳笑稱:" 當 Blackwell 批量發貨時,就不要再拿 Hopper 去送人了。"
以功率為 100 兆瓦的 AI 工廠為例,其能供能 45000 個 H100 芯片,共計 1400 個 H100 NVL8 機架,生產力為 3 億個 Token。同等功率下,其能供能 85000 個 GB200 芯片,共計 600 個機架,生產力為 120 億個 Token。相較于 H100 NVL8,GB200 NVL72 不僅帶來更強的算力,而且在功耗和空間占用上更有優勢。
" 買得越多,省得越多。" 黃仁勳又說出了他的帶貨名言,這次還補充道," 買得越多,賺得越多。"
旗艦版 AI 芯片作為 GTC 的" 最大看點 ",僅僅宣布 Blackwell Ultra 很難滿足外界預期。對此,黃仁勳公布了英偉達旗艦芯片的全新路線圖,芯片架構的更新周期正在加速,由每兩年推出新的產品線調整為 " 每年一更 " 的產品節奏。
每代產品更新均基于全棧解決方案、依托統一架構,并秉持 "CUDA 無處不在 " 的理念推進。按照路線圖規劃,黃仁勳提前預告了下一代 AI 芯片 "Rubin",遵循以往采用科學家名字命名架構的慣例,本次新架構以美國天文學家 "Vera Rubin" 的姓氏命名,以紀念其證實了暗物質存在的卓越貢獻。
Vera Rubin NVL144 預計将在 2026 年下半年發布,在進行 FP4 精度的推理任務時,性能達到 3.6ExaFLOPS,進行 FP8 精度的訓練任務時,性能為 1.2ExaFLOPS,與 GB300 NVL72 相比,性能提升了 3.3 倍。
Vera Rubin NVL144 配備 HBM4,帶寬達到 13TB/s,擁有達到前代 1.6 倍的 75TB 快速閃存。支持 NVLink6 和 CX9,帶寬均達到前代 2 倍,實現數據傳輸效率的提升。
黃仁勳表示,Blackwell 的性能相較于 Hopper 提升了 68 倍,而 Rubin 的性能将達到 Hopper 的 900 倍。
與 Blackwell 一樣,除了标準版本,英偉達還計劃于 2027 年下半年推出 Rubin Ultra NVL576,在進行 FP4 精度的推理任務時,其性能達到 15ExaFLOPS,進行 FP8 精度的訓練任務時,性能為 5ExaFLOPS,與 GB300 NVL72 相比,性能提升了 14 倍。
Vera Rubin NVL144 将配備 HBM4e,帶寬達到 4.6PB/s,擁有達到前代 8 倍的 365TB 快速内存。支持 NVLink7,帶寬 1.5PB/s,為前代 12 倍。支持 CX9,帶寬 115.2TB/s,為前代 8 倍。
CPU 部分,Vera 芯片搭載 88 個定制 Arm 核心,支持 176 線程,具備 1.8TB/s 的 NVLink - C2C(芯片到芯片)帶寬,在多芯片互聯等場景下能高效傳輸數據。GPU 方面,Rubin Ultra 集成 4 個 Reticle-Sized GPU,每顆 GPU 擁有 100PF 的 FP4 算力,搭配 1TB HBM4e 顯存,在性能和内存容量上達到新高。
在訓練、推理及應用部署等關鍵環節,AI 芯片平台都需要網絡為其提供高速穩定的數據傳輸。英偉達推出 Spectrum-X 和 Quantum-X 矽光網絡交換機,為全球最先進的 AI 雲及 AI 工廠提供支持。
Spectrum-X 網絡交換機有多種配置,最高配置 512 端口 800Gb/s 或 2048 端口 200Gb/s,總吞吐量達 400Tb/s。與之配套的 Quantum - X 網絡交換機基于 200Gb/s SerDes 技術,提供 144 端口 800Gb/s 的 InfiniBand 連接,與上一代相比,速度提升 2 倍、可擴展性提升 5 倍。
不止 AI 工廠,DGX Spark 和 DGX Station 打造「AI 桌面」
為了支持 AI 開發者、研究人員、數據科學家和學生等群體,英偉達推出 " 全球最小 AI 超級計算機 "DGX Spark,其支持在台式電腦上對大模型進行原型設計、微調和推理,用戶可以在本地、雲或數據中心基礎設施中運行這些模型。
DGX Spark 是基于 GB10 Grace Blackwell 打造的個人 AI 超級計算機系列產品,根據台式電腦外形規格進行了針對性優化,其支持第五代 Tensor Core 和 FP4,每秒計算次數達到 1000 萬億次。GB10 采用 NVIDIA NVLink-C2C 互連技術,帶寬是第五代 PCIe 的五倍,并且能夠訪問 GPU 和 CPU 之間的數據,為内存密集型 AI 開發者工作負載優化性能。
英偉達的全棧 AI 平台支持 DGX Spark 用戶将其模型從台式機遷移到 DGX Cloud、其他加速雲及數據中心基礎設施中,并且無需修改代碼,簡化了對其工作流進行原型設計、微調和迭代的要求。
黃仁勳表示:"AI 改變了每一層計算堆棧。我們有理由相信将出現一類專為 AI 原生開發者而設計并用于運行 AI 原生應用的新型計算機。借助全新的 DGX 個人 AI 計算機,AI 能夠從雲服務擴展到台式電腦和邊緣應用。"
DGX Station 是 Ultra 平台的高性能桌面超級計算機,定位為面向企業和科研機構的高性能 AI 計算站,能夠幫助企業構建私有 AI 推理系統,相較于 DGX Spark,适用于更大規模的 AI 開發領網域。
DGX Station 是第一款采用英偉達 GB300 Grace Blackwell Ultra桌面超級芯片構建的台式機系統,擁有 784GB 統一系統内存,支持 800Gb/s 網絡連接的 ConnectX-8 SuperNIC,AI 性能達到 20PFLOPS。
從數據、模型到算力,英偉達「全面驅動」人形機器人
" 機器人時代已經到來,其能夠與物理世界互動并執行數字信息無法完成的任務。"黃仁勳說," 世界正面臨嚴重的勞動力短缺,到 2030 年,全世界将短缺 5000 萬名工人,我們可能不得不每年支付 5 萬美元薪水給機器人。"
物理 AI 正在改變規模 50 萬億美元的產業。英偉達推出全新 Cosmos 世界基礎模型,引入開放式、可完全定制的物理 AI 開發推理模型,包含各種模型尺寸并适用于多種輸入數據格式,幫助生成大型數據集,能将影像從 3D 擴展到真實場景,縮小仿真與現實之間的差距。
1X、Agility Robotics、Figure AI、Foretellix、Skild AI 和 Uber 是首批采用 Cosmos 的企業,可更快、更大規模地為物理 AI 生成更豐富的訓練數據。
" 正如大語言模型改變了生成式和代理式 AI,Cosmos 世界基礎模型是物理 AI 的一項重大突破。"黃仁勳表示, "Cosmos 為物理 AI 帶來了一個開放式、可完全定制的推理模型,為機器人和物理工業領網域的突破性發展帶來了機遇。"
滿足數據需求之外,英偉達推出人形機器人基礎模型 Isaac GR00T N1,采用 " 快速反應 " 的系統 1 以及 " 深度推理 " 的系統 2 雙架構,黃仁勳表示,Isaac GR00T N1 将開源,機器人開發者可以用真實或合成數據進行後訓練。
Isaac GR00T N1 基礎模型采用廣義類人推理和技能進行了預訓練,開發者可以通過進行後訓練,使其滿足特定的需求,例如完成不同工廠生產線的特定任務以及自主完成不同的家務。
英偉達、谷歌 DeepMind 及迪士尼合作開發了開源物理引擎 Newton,采用 Isaac GR00T N1 作為底座驅動了迪士尼 BDX 機器人。
人形機器人是 AI 時代下一個增長點,從數據生成、基礎大模型到算力,英偉達為開發者提供了全面支持。