今天小编分享的科技经验:黄仁勋 2 个半小时演讲,英伟达已经进入「Agentic AI」时代,欢迎阅读。
「AI 届春晚」过去以来一直是 GTC 的外号之一,但在 GTC 2025 的开幕主题演讲中,这个梗被英伟达创始人、爱穿皮衣的老黄「偷了」。 「我觉得 GTC 已经变成了 AI 界的超级碗」
黄仁勋这样介绍 GTC 的盛况。「但在这里,AI 会让我们每个人都成为赢家」。
在 GTC,没有输家好吗|图片来源:英伟达
但面对近期股价的数次暴跌,尤其是以 DeepSeek-R1 为代表的、对业内「我们真的需要这么多 GPU 吗」的质疑,GTC 作为「AI 春晚」,英伟达就必须拿出更多真的能镇住场子的「硬货」出来。
虽然不知是否也是受到股价影响,今天老黄的口条,相比以往明显要「磕巴」了不少,但他在 150 分钟内,接连给从 AI Agent 到数据中心的 AI 芯片、再到具身智能的多个行业生态,再次指明了未来。
再一次地,英伟达看到了 AI 的未来,现在,他们需要让全世界一起相信。
Agentic 拯救英伟达
「It's all about Tokens」。
不同往届 GTC 上来先介绍英伟达的硬通货,今天的开场,老黄用 40 分钟解读了:Agentic AI 时代,英伟达的立身之本——越来越高效地处理 tokens(词元)。部門时间内能处理的 tokens 百倍万倍增长,同时部門算力成本和能耗下降。
在他看来,英伟达踩中 AI 风口的十几年,AI 已经经历了三代技术范式的转移。最早是判别式 AI(语音识别、影像识别),接着是生成式 AI,然后就是当下我们身处的 Agentic AI,未来会是影响物理世界的 Physical AI。
黄仁勋秀出了 AI 技术发展的路径|图片来源:英伟达
每一代 AI 技术迁移,计算的方式都会发生改变。
从 AlexNet 到 ChatGPT,是从检索的计算方式转变为生成的计算方式。
而当 AI 从 ChatGPT 那种靠预测下一个 tokens、大概率出现幻觉的生成式 AI,迈向 Deep Research、Manus 这样的 agentic AI 应用时,每一层计算都不同,所需要的 tokens 比想象的多 100 倍。因为在 Agentic AI 应用中,上一个 token 是下一个 token 生成时输入的上下文、是感知、规划、行动的一步步推理。
此刻,Agentic AI 就是我们现在所处的时代,AI 正在经历一个新的拐点,它变得越来越智能、应用越来越广泛,同时也需要更多的算力来支持它。
老黄用同一段提示词下,代表两种技术范式的开源模型—— Llama3.3 和 Deepseek-R1 所消耗的 tokens 举例说明,以强化学习为主导的推理类应用,消耗了越来越多的 tokens、同时也让 AI 应用也变得越来越可用。
这段提示词是:「在我的婚宴上,需要 7 个人围着一张桌子坐,我的父母和岳父岳母不应该坐在一起。而且,我媳妇坚持说她坐在我左边照相时会更好看,但同时我需要坐在伴郎旁边。我们这一轮怎么坐?如果我们邀请牧师和我们坐在一起呢?」
DeepSeek-R1 的 Reasoning 模型给出了近 20 倍于传统大模型的 Token 量|图片来源:英伟达
如上图左边,Llama3.3 作为大语言模型,用不到 500 个 tokens 快速回答,但安排的客人座位并不满足要求。对比之下,右边的 R1 作为推理模型,用掉 8000 多个 tokens 得出了正确答案。
差别在于,左边的大语言模型只尝试了一次,右边的推理模型尝试了所有不同的可能性,然后反思、验证了自己的答案。而且推理模型需要更多的计算,因为模型更复杂。R1 的尺寸是 6800 亿个参数,它的下一代版本可能有数万亿个参数。
更进一步,Agentic AI 应用是无数次调用类似 DeepSeek-R1 做推理的过程,需要的计算只会更多。这也是为什么 ChatGPT 可以免费、Deep Research 和 Operator 这种 agent 免费不起的原因(当前 OpenAI 分别以 20 美元、200 美元的价格提供服务)。
用预训练放缓来审判英伟达还是太早了,因为,Scaling Law(缩放定律)的故事还没有讲完。
长思考的模型对于 Token 的需求有数倍提升|图片来源:英伟达
老黄表示,除了预训练和后训练(微调),测试时的 Scaling Law 才刚刚开始。(指模型推理阶段,动态分配计算资源以提升性能。例如,根据问题复杂度自动延长「思考时间」,或通过多次推理生成多个候选答案并择优输出)
在英伟达 GTC 的一篇官方博文中,Tokens(词元)被视为 AI 的语言与货币。它是 AI 在训练和推理过程中处理的数据部門,用在预测、生成和推理的每一个场景。
在老黄看来,加速 AI 工作负载的新型数据中心「AI 工厂」,就是要高效地处理这些 tokens,将其从 AI 语言转换为 AI 货币——即智能。通过软硬一体优化,以更低的计算成本处理更多 tokens。
如此一来,当更复杂、智能的推理模型,需要更快、更多地吞吐 tokens 时,如何能够有一套软硬兼施的计算系统让它更加高效,就成为 AI 应用能不能赚钱的关键。
这就是 Agentic AI下,新黄氏定律曲线。
在性能、Token 和收入的多维度曲线下,厂商依然有盈利的机会|图片来源:英伟达
而要想达到「Revenue」那个切面、让 AI 应用实现商业化闭环,还得买英伟达,依旧是「买得多省得多」——不,现在是「买得多,赚得多」。
「AI 工厂」的作業系統—— Dynamo
不久前,最了解英伟达的「DeepSeek 靠软硬一体优化实现了 550% 的理论利润率」新闻刷屏。别忘了,了解英伟达的,也包括他自己。DeepSeek 在 Infra 上的弹药,老黄也给你配齐了!
英伟达此次推出了一个新的「AI 工厂」引擎的作業系統,Dynamo。有了它,tokens 的吞吐和延迟还能大幅优化!
黄仁勋讲解 Dynamo 如何实现 pd 分离 | 图片来源:英伟达
为了让一个更大的模型,更高效地产出更多 tokens,本身已经成为了一个工程学问题。如何合理利用流水线并行、张量并行、专家并行、在途批量化、pd 分离、工作负载管理,如何管理 KV cache,各家都拿出了不同的方案。
英伟达此次也推出了自己的方案,Dynamo。黄仁勋把这个推理服务库比作新时代的 VMware,能够自动编排如何让 AI 在推理时代跑的更好——每秒能产生更多 tokens。
接下来黄仁勋简直在直接对需要采购英伟达的数据中心喊话了:未来的每一个数据中心都会受到功耗的限制。你的营收也会受到功耗的限制,你能使用的电力就能推算出潜在营收。
采用 Blackwell,你在同样电力下,能收获更好的性能;再加上Dynamo,Blackwell 将能进一步优化—— Hopper 也能优化,但是没那么多。
按照英伟达的说法,使用 Dynamo 优化推理,能让 Blackwell 上的 DeepSeek-R1 的吞吐量提升 30 倍。Dynamo 也完全开源。
引入 FP4 和 Dynamo 后 Blackwell 与 Hopper 系列芯片性能的对比 |图片来源:英伟达
黄仁勋直接帮企业算起了账:在同等功耗下,Blackwell 的性能比 Hopper 高出 4 — 5 倍的幅度。在「推理模型」的测试里,Blackwell 的性能大约是 Hopper 的 40 倍。
同样的 100 兆瓦数据中心,使用 H100 需要 1400 个机架,每秒可以生产 3 亿个 token,使用 GB200,只需要 600 个机架,每秒可以产生 120 亿个 token。
老黄:你买的越多,省的越多!
100 兆瓦数据中心算账题|图片来源:英伟达
不只有 Blackwell「超大杯」,还有光芯片落地
在硬體领網域,老黄还宣布了其 Blackwell AI 工厂平台的下一个演进版本———— Blackwell Ultra,旨在进一步提升 AI 推理能力。
与现存的 Blackwell 不同,据老黄介绍,Blackwell Ultra 专为 AI 推理而设计的:在 DeepSeek R1 发布之后,目前 OpenAI o1 与 Google Gemini 2.0 Flash Thinking 都是已经上市的推理模型产品。
Blackwell Ultra 具体包含 GB300 NVL72 和 HGX B300 NVL16 系统,其 AI 性能比其前代产品高出 1.5 倍。GB300 NVL72 在一个机架规模设计中连接了 72 个 Blackwell Ultra GPU 和 36 个基于 Arm Neoverse 的 NVIDIA Grace CPU。与 Hopper 一代相比,HGX B300 NVL16 在大型语言模型上提供了快 11 倍的推理速度,多 7 倍的计算能力和 4 倍的内存。同样支持一道发布的 NVIDIA Dynamo 推理框架。
Blackwell Ultra 作为「超大杯」登场 | 图片来源:英伟达
包括 AWS、谷歌云和微软 Azure 在内的主要科技公司和云服务提供商,将从 2025 年下半年开始提供由 Blackwell Ultra 驱动的实例。
除了 Blackwell Ultra,英伟达还公布了其 2026 年和 2027 年数据中心路线图的更新,其中就包括即将推出的下一代 AI 芯片 Rubin(以天文学家 Vera Rubin 命名)与 Rubin Ultra 的计划配置。
下一代 AI 芯片代号为 Rubin | 图片来源:英伟达
Rubin NVL144 机架,将与现有的 Blackwell NVL72 基础设施直接兼容。而 Rubin Ultra 的整个机架将被新的布局 NVL576 取代。一个机架最多可容纳 576 个 GPU。
除了这些相对枯燥的芯片迭代,英伟达还第一次公开了其光芯片在 AI 计算领網域的进展,老黄将其称之为:
「下一代人工智能的基础设施」
硅光芯片具有高运算速度、低功耗、低时延等特点,且不必追求工艺尺寸的极限缩小,在制造工艺上,也不必像电子芯片那样严苛,必须使用极紫外光刻机,也就是因为「芯片战争」,被大众所熟知的 EUV。
目前,英伟达并未直接将光芯片技术用户 AI 芯片上,而是与台积电(TSMC)合作,采用台积电的硅光子平台 Compact Universal Photonic Engine ( COUPE ) ,该平台使用台积电的 SoIC-X 封装技术,同时结合了电子集成电路(EIC)与光子集成电路(PIC)。打造出两款名为 Spectrum-X 和 Quantum-X 采用硅光子技术的交换机。
随着「人工智能工厂」在世界各地兴建,能耗与运营成本,已经成为困扰巨型数据中心继续拓展的关键问题;因此英伟达也在用硅光子技术,来尝试进一步优化现有的巨型数据中心。
这些也正是硅光子技术大显身手的场景,硅光子芯片有潜力彻底改变数据处理速度,同时加快推动量子计算技术的发展。同时新光子技术还将为数据中心的 GPU 集群节省数兆瓦的能源。
「人工智能工厂是一种具有极端规模的新型数据中心,网络基础设施必须进行改造以跟上步伐。」黄仁勋这样介绍硅光子芯片在数据中心的应用前景。
Quantum-X InfiniBand 交换机采用特殊的线缆来加速运行 | 图片来源:英伟达
据英伟达公开的信息,Spectrum-X 提供 100Tb/s 的总带宽,总吞吐量为 400Tb/s,并且提供每端口最高 1.6Tb/s 的速度——是目前顶级铜缆传输最快速度的两倍),连老黄自己都吐槽「这段介绍里实在是太多 TB 了」。
Quantum-X 光子 InfiniBand 交换机将于 2025 年晚些时候上市,而 Spectrum-X 光子以太网交换机计划于 2026 年发布。
最后,老黄还宣布了在 Rubin 之后的下一代 AI 芯片的架构命名 Feynman;这个名称源自对量子计算领網域有着重要贡献的科学家 Richard Phillips Feynman,他同时也是现代量子计算机概念的奠基人,于 20 世纪 80 年代提出了量子计算机的概念。
直到 2028 年的英伟达 AI 芯片硬體路线图 | 图片来源:英伟达
根据老黄公布的路线图,Feynman 架构将于 2028 年登场——或许到那个时候,我们真的能看到量子计算技术出现重大突破了。
英伟达机器人生态完整成型
去年老黄在 GTC 上,伸出手臂,和一排人形机器人站在一起,已经成为经典一幕,
而今年,仿真数据和机器人,仍然出现在 GTC 的各个角落中。甚至在演讲的一开始,老黄的讲稿中,直接就把物理 AI 放在了 AI 发展的最高点上。
AI 发展的阶段:后三个阶段分别为生成式 AI、Agentic AI、物理 AI | 图片来源:英伟达
不过,在整个 GTC 中,单就时长而言,涉及到物理 AI 的比重,并没有想象中的高。自动驾驶部分和机器人部分的介绍加在一起,可能不足半个小时。
虽然时长不长,英伟达此次的发布,却仍然让人看到了英伟达的野心。
对于所有 AI 而言,数据、算法和算力,都是最重要的要素。
我们熟悉的生成式 AI,是在海量的互联网文字和视频数据中训练出来的,英伟达的贡献,更多的在算力方面。
而走到物理 AI,英伟达却是想在数据、算法、算力上全方面发力,一个产业地图已经呼之欲出。
在算力上,英伟达有之前发布的 Orin 和 Thor 芯片。
在数据上,英伟达也是重要的贡献者。物理 AI 强调让 AI 能够理解物理世界,而世界在过去并没有像积累文字和视频数据一样,积累足够多的 3D 环境数据。要大量产生数据,还得看英伟达推动的仿真数据的进展。
而通过几届 GTC 下来,英伟达已经全面补齐了数据的生产流程:
Omniverse 数字孪生环境,相当于一个超强的 3D 编辑器,能够生成逼真的场景和物品。开发者可以根据不同的领網域、机器人类型和任务,整合真实世界的传感器数据或示范数据。
Cosmos 模型训练平台,相当于一个专门为汽车和机器人搭建的虚拟世界,利用 Omniverse 训练 Cosmos,能够让 Cosmos 生成无限多样的虚拟环境,创建既受控、又具备系统性无限扩展能力的数据。
两者结合,就能产出无限多各种各样环境、光线、布景的虚拟仿真数据。正如下图所示,Omniverse 中的机器人呈糖果色,主打与现实呈现数字孪生,而 Cosmos 中的布景则可以完全变换,生成不同的布景。
Omniverse 和 Cosmos 的机器人数据效果 | 图片来源:英伟达
而针对人形机器人,英伟达还特别推出了一系列其他的工具,比如今年主推的蓝图(blueprint)工具中的 Mega,就可以测试大规模的机器人部署的效果。
英伟达希望人形机器人的开发者能够先采集一部分现实世界的数据,导入 Omniverse 里面,然后利用 Cosmos,将这部分现实世界的数据转换成多样化的虚拟数据,直接导入英伟达的 Issac Lab 中进行后期训练——或者模仿学习复制行为,或者强化学习在试错中学习新技能。
在落地更快的自动驾驶领網域,这种 Ominiverse 和 Cosmos 相互依仗的数据能力已经初见成效。此次的 GTC,英伟达宣布通用汽车(GM)已选择与英伟达合作,共同打造未来的自动驾驶车队。除了对利用仿真环境对工厂和汽车的设计进行改进之外,英伟达还将帮助通用汽车改进智驾体验。
其中,通用汽车重点看中的,应该就是 Cosmos 的整套端到端的 AI 训练体系。3D 合成数据生成(3D Synthetic Data Generation)能够通过 Omniverse,将日志数据转化为高精度 4D 驾驶环境,结合地图和影像生成真实世界的数字孪生,包括像素级的语义分割。Cosmos 再通过这些数据扩展训练集,生成更多准确且多样化的驾驶场景,缩小仿真与现实(sim-to-real)的差距。
同时 Cosmos 为模型训练也做了专门的优化,可以进行模型蒸馏和闭环训练。
而落地更慢的人形机器人领網域,在去年到今年的 GTC 之间,我们甚至看到英伟达在算法上,也在发力。
在去年发布了 GR00T 模型之后,今年英伟达发布了 GR00T N1 模型。英伟达宣布这是全球首个开放的、完全可定制的通用人形机器人推理与技能基础模型。
Groot N1 基于合成数据生成与仿真学习的技术基础,采用了「快思考与慢思考」的双系统架构。其中,「慢思考」系统让机器人能够感知环境、理解指令,并规划正确的行动,而「快思考」系统则将规划转换为精准、连续的机器人动作。
Groot N1 架构 | 图片来源:英伟达
Groot N1 本身并不是一个重大的技术突破——之前 FigureAI 的 Helix 等模型,都是采取了类似的双系统架构。
英伟达很明显,希望的是通过将一套先进的模型开源,再加上完整的合成数据生成与机器人学习管道,人形机器人开发者可以在全球各个行业的不同环境和任务场景中对 Groot N1 进行后期训练——正如 DeepSeek 对人工智能产业的带动一样。
英伟达在机器人领網域的进展似乎一直没有停歇,一直在不断补齐产业链上的每一个空缺,速度惊人。似乎要让机器人开发,变得像目前的 AI 应用开发一样容易,才能停歇。
专门针对机器人的研发,今年英伟达还与 DeepMind、迪士尼研究院(Disney Research)共同合作,联合推出了一款新的物理引擎 Newton。
黄仁勋与迪士尼机器人互动 | 图片来源:英伟达
当前的大多数物理引擎都是针对特定需求设计的,例如大型机械模拟、虚拟世界或电子游戏等,而机器人需要的,是能够精确模拟刚体、软体材料,支持触觉反馈、时间序列技能学习、执行器控制,基于 GPU 加速,从而在超实时的虚拟世界中,以惊人的速度训练 AI 模型的物理引擎。
在演讲的结束,一款小小的 Blue 机器人登台亮相了。Blue 机器人内置了两个英伟达芯片,而它的训练,则是完全是在英伟达的建设的训练体系和 Newton 引擎中,通过实时模拟完成的。
英伟达对于机器人的投入看来不会停止,机器人演示不断出现小故障,抢走老黄的风头,似乎也将成为接下来几年英伟达 GTC 经常性的看点了。
演讲结束前的经典画面|图片来源:光轮智能创始人 &CEO 谢晨
在 GTC 主演讲结束之前,老黄在视频播放的间隙,摆了一个 Pose。你可以说是随性,但从某种意义上来看,这个经典画面——明显是名画「创造亚当」的一个镜像——可能会在以后 AI 科技的历史中不断出现。