今天小编分享的科技经验:英伟达的GPU已经讲不出“花儿”了,欢迎阅读。
出品|虎嗅科技组
作者|齐健
编辑|王一鹏
头图|视觉中国
" 我们需要更大的 GPU。"
当地时间 3 月 18 日,黄仁勋在英伟达 2024 GTC 大会上,宣布了英伟达新一代加速计算平台 NVIDIA Blackwell,以及基于 Blackwell GPU 架构的双芯片 GPU B200 和超级芯片 GB200。
Blackwell 架构单 GPU AI 性能达到 20 PFLOPS,性能比上一代提高了 5 倍,而成本和能耗下降降低 25 倍。黄仁勋以训练 1.8 万亿参数的 GPT 模型为例(可能 GPT-4 的参数量)。同样以 90 天为训练周期,上一代 Hopper 架构的 GPU 至少要用 8000 个,功耗 15MW,而使用 Blackwell 架构的 GPU,只需要 2000 颗,功耗约 4 MW。
Blackwell
作为全球加速计算市场的 " 老大 ",英伟达今天的一切成功都建立在 GPU 上。
不过,从黄仁勋在 GTC 大会上的主题演讲来看,英伟达似乎并不希望外界只看到他们的 GPU。在黄仁勋 2 个小时的主题演讲中,虽然 Blackwell 平台的发布是绝对主角,但他也把超过一半的演讲时间放在了 GPU" 周围 " 的技术上,包括:芯片设计、生产技术,生成式 AI 模型训练,数字孪生,以及具身智能等。
一直以来,英伟达都在强调自己是 " 人工智能时代领先的计算公司 ",而不只是一家芯片或是硬體公司。在 GTC 上宣布的軟體技术、AI 训练技术、机器人技术等,也无不透露着 " 源于 GPU,高于 GPU" 的味道。
軟體是 GPU 的护城河
加速计算市场上并不乏性能与英伟达接近的 GPU 产品,然而英伟达真正的护城河其实来自 GPU 軟體开发工具。
在 Blackwell 之外,英伟达公布了一系列与 AI、GPU、机器人相关的创新軟體应用,包括:
AI 模型和工作流微服务产品 NVIDIA NIM(NVIDIA AI Microservices);企业级的 AI 軟體平台 NVIDIA AI Enterprise 5.0;用于机器人开发的仿真环境 NVIDIA Isaac Sim;GPU 加速、性能优化的轻量级应用 NVIDIA Isaac Lab;用于计算编排服务的工具 NVIDIA OSMO;用于药物研发的微服务 NVIDIA BioNeMo;用于基因组学分析的軟體套件 NVIDIA Parabricks;用于视频分析和智能视频管理的軟體平台 NVIDIA Metropolis 等。
其中,NVIDIA NIM(NVIDIA AI Microservices)最为突出。
NIM 是一系列集成 AI 模型和工作流的微服务,专为企业和开发者提供在生物、化学、影像及医疗数据领網域构建和部署 AI 应用的高效、灵活方式。NIM 的关键优势是其符合行业标准的 API,便于开发者创建云原生应用。
目前,NIM 微服务以及开始在医疗影像领網域推广。通过利用 NVIDIA 的 AI 技术,NIM 微服务可以帮助医疗专业人员更快速、更准确地分析和解释医疗影像数据,从而提高诊断的质量和效率。此外,NIM 微服务还可以用于药物研发,通过生成式化学模型和蛋白质结构预测模型,加速新药的发现和开发过程。
事实上,軟體应用生态除了在 AI 等开发端支撑英伟达的 GPU 业务,在未来也有可能为英伟达走出一条新的增长曲线。
SaaS 行业是公认的毛利更高、赚钱快,且軟體、应用研发资产轻,不会像硬體生产那样受到供应链的制约,也没有生产、库存压力。
虽然英伟达的 GPU 借着 AI 的东风也能赚得盆满钵满,但增长速度相比不如爆发增长的 OpenAI。而且如果只做 GPU 和算力生意,未来的发展空间,也难免会受到制造业自身增长缓慢属性的影响。
已经垄断了 GPU 生意的英伟达,自然不希望像 AMD、Intel、高通那样," 躬耕 " 于芯片行业卷生卷死。对于英伟达来说,基于 AI 大模型、軟體等向上再迈一层,不仅能巩固自己当下的行业地位,也能拓宽未来的赛道。
算力怪兽的关注点在通信
专为 AI 而生的 Blackwell 可以处理万亿参数规模的大语言模型(LLM)。每块 GPU 拥有 2080 亿个晶体管,采用专门定制的双倍光刻极限尺寸 4 纳米 TSMC 工艺制造,通过 10 TB/s 的片间互联,将 GPU 裸片连接成一块统一的 GPU。
与 Blackwell 平台一同推出的还有采用双芯片设计的新一代 GPU B200,单 GPU AI 性能达到 20 PFLOPS。B200 配备 192GB 内存。以及基于 B200 的超级芯片 GB200 ,通过 900GB/s 超低功耗的片间互联,将两个 NVIDIA B200 Tensor Core GPU 与 NVIDIA Grace CPU 相连。
虽然 Blackwell 的性能提升巨大,但今天的超大规模 AI 模型多数都需要多 GPU 并联计算。由此,GPU 的连接性能,才真正体现了 GPU 在 AI 大模型训练和应用过程中的价值。
第五代 NVIDIA NVLink提供 1.8TB/s 双向吞吐量,可以使 576 块 GPU 之间实现无缝高速通信,满足更为复杂的大语言模型训练需求。
在云端模型部署方面,英伟达还推出了NVIDIA Quantum-X800 InfiniBand 和 Spectrum-X800 以太网网络平台,提供了高达 800Gb/s 的端到端吞吐量,大幅提高了 AI 和 HPC 分布式计算的可用性。
此外,英伟达还推出了6G 研究云平台,以推动 AI 在无线接入网络 ( RAN ) 技术的应用。保证了端侧设备到云基础设施之间的链接,从而推动自动驾驶汽车、智能空间和沉浸式教育体验的发展。
英伟达全新网络交换机 - X800 系列。
与 Blackwell 架构一同宣布的,还有英伟达与主流伺服器、云计算厂商的合作。AWS、戴尔、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉和 XAI 等预计都会在未来将加速计算伺服器更新到 Blackwell 架构。
促进落地是英伟达的当务之急
在 GPU 硬體方面,英伟达在全球 GPU 市场中持续保持领先。Blackwell 的性能比 2 年前的 Hopper 架构提升了 5 倍,比 8 年前的 Pascal 架构提升了 1000 倍。
黄仁勋在演讲中自豪地说:" 摩尔定律是每 10 年提升 100 倍性能,过去 8 年里,我们提升了 1000 倍,我们还少用了 2 年。"
英伟达 GPU 性能八年提升 1000 倍
Blackwell 一出,业界一片欢腾,很多人直呼:新摩尔定律诞生了。
相对于英伟达的用户,华尔街对英伟达的看法相对冷静。
刚刚过去的 3 月前几周,英伟达遭市场逼空,3 月 8 日股价下跌 5.55%。虽然华尔街对英伟达本届 GTC 表现乐观,市场普遍预测此次大会将帮助英伟达股票结束近期震荡走势。但是黄仁勋的主题演讲结束后,英伟达夜盘表现不佳,次日开盘股价亦未见起色。
这主要是因为 GTC 上公布重磅新品,对于市场来说基本都在预期之内。其实对于英伟达来说,不管是 8 年前的 Pascal 还是今天的 Blackwell。1-2 年一次的 GPU 架构的更新早已经是顺理成章的技术迭代,时至 2024 年,推出 Blackwell 在英伟达来说是一个 " 渐进式创新 " 的必然结果。
另一方面,对于如今的市场来说,随着 GPU 技术的迭代,算力快速增长很可能会大幅压缩英伟达的增长空间。
方舟投资首席执行官、知名投资人 " 木头姐 " 凯西 · 伍德(Cathie Wood)在 3 月 7 日致股东的一封信中对英伟达未来可能面临的竞争压力发出警告,并将其与思科在 1997 至 2000 年期间股价经历的 " 抛物线 " 进行比较。
伍德认为,如果 AI 公司、軟體公司在应用层面一直见不到收益的话,很可能会停止增加在 GPU 建设方面的投入。
只是循序渐进地提升 GPU 性能,显然不能保证英伟达业务的长期增长。英伟达需要给客户提供更多围绕 GPU 构建业务能力的工具。英伟达大概也早就认识到了这一点。
在传统的 GPU 图形渲染方面,英伟达重点向客户推广工业数字孪生应用和工作流创建平台 Omniverse。本次 GTC,也宣布了最新的 NVIDIA Omniverse Cloud API,用以帮助开发者将 Omniverse 技术集成到他们的设计和仿真工具中。
英伟达还宣布了与西门子、达索系统、Ansys、楷登軟體、新思科技等主流工业軟體厂商的进一步合作。
在 AI 方面,本次 GTC 上英伟达公布了一款人形机器人基础模型 NVIDIA Project GR00T。可以支持通过语言、视频和人类演示来学习动作和技能,为机器人技术的 AI 应用提供了新的可能。Project GR00T 与前段时间 Figure 推出的使用 OpenAI 大腦控制的机器人有些异曲同工。Project GR00T 是一个多模态的人形机器人通用基础模型,可以使机器人通过观察人类行为来模仿动作,从而快速学习协调、灵活性等技能。
除此之外,英伟达一直着力打造的机器人开发和仿真环境 Isaac 平台此次也更新加入了生成式 AI 基础模型和仿真工具,以及针对机器人学习和操作的优化工具。