今天小编分享的财经经验:英伟达,再次展示了自己对于AI的“主权”,欢迎阅读。
作者丨李赓
头图丨视觉中国
英伟达,再次证明了自己独一无二的存在。
作为全球 AI 行业毫无疑问的 " 卖铲人 " 和 " 铺路人 ",英伟达在今天凌晨召开的年度技术峰会 GTC 上再次展示了自己对于 AI 发展的 " 主权 "。
简单概括下来,主要包括三点:再次跃升的性能;强悍的生态控制力;迫近兑现时刻的创新潜力。三者相互结合,再次巩固了英伟达在 AI 时代的统治力。
再次刷新天花板的无敌性能
左侧为全新的 B200 GPU,右侧为 H200 GPU
先说性能,在上一代 Hopper 架构发布两年之后,英伟达终于在这次 GTC 上发布了全新的
Blackwell 架构。
从目前种种信息,包括黄仁勋自己的发言来看,Blackwell 架构在计算模块上并没有和 Hopper 存在很大差异,最大的不同在于英伟达采用了类似苹果 M 系列处理器 Ultra 的双芯并联设计,用新增加的超高速链路将两颗芯片 die 通过芯片封装的手段 " 组合 " 成了一颗大 GPU,从而让全新的 B200 GPU 实现了单颗 GPU 2080 亿晶体管的超大规模,再配合多达 192GB 的 HBM3e 显存,让 B200 GPU 直接成为了目前全球最强劲的 GPU 芯片。
GB200 和上一代计算模块的性能曲线差距
但在参数之外,其实际性能的提升却要明显的多:就拿大语言模型推理的实际应用场景来说,将两个 Blackwell GPU 和一个 Grace CPU 结合在一起的 GB200 模块,能够比上一代 H200 GPU 性能高足足 30 倍。
性能的提升,直接转化为了功耗的下降,根据英伟达官方给出的参考:同样是在 90 天内训练出 GPT
-MoE 1.8 万亿参数模型,Hopper 架构的超级计算机需要 8000 个 GPU 和 15 兆瓦的电力,而 Blackwell 只需要 2000 个 GPU 和 4 兆瓦的电力。
GB200 NVL72 机架
在明显更集中的规模和更低的耗能之外,英伟达还再次提升了他们芯片部署的解决方案:不仅将 GB200 模块设计为极其紧凑的堆叠结构,同时还配上了新一代直接让 576 个 GPU 相互连接、双向带宽达到每秒 1.8TB 的 NVLink 交换机,结合 5000 条近两英里长的各种电缆,最终打造成为将 36 个 CPU 和 72 个 GPU 集成到一起的液冷机架。
这也是全球首个推理性能能够超越 1exaflops 的电腦机架,同时也是比 GB200 更大的一颗 "GPU"。
GB200 DGX Superpod
而在这台超强机架的基础上,英伟达还能进一步扩大它的规模,拿被 GB200" 更新 " 的 DGX Superpod(英伟达自己的超级计算机解决方案)来说,就由 8 套机架系统组成,总共拥有 288 个 CPU、576 个 GPU、240TB 内存和 11.5exaflops 的 FP4 计算能力。
这套系统最多还能进一步扩展至数万颗 GB200 规模,这些充沛的算力,全部通过英伟达自己的 800Gbps 网络设备连接在一起,形成更大规模的集群,也再次刷新了同类产品的性能上限。
黄仁勋在现场演讲时就自豪地表示:" 亚马逊、Google、微软和甲骨文都已计划在其云服务产品中提供基于 NVL72 机架的产品。" 可以预见,国外的云计算即将刮起新一轮的英伟达新 GPU 抢购潮。
充分发挥英伟达优势的新 AI 生态系统
早在 AI 还以自动驾驶为主旋律的时期,英伟达就已经开始向车企客户推广其云端服务解决方案。而为了满足 AI 大模型时代的模型共享、模型定制化、模型运行、云计算支持在内的一系列问题,英伟达在这次 GTC 上推出了全新的 " 英伟达推理微服务(NIM)"。
英伟达推理微服务(NIM)
NIM 在构建的过程中,充分借鉴了 K8S(Kubernetes)这些年的成功经验,将行业 API,AI 算法支持库、云端架构支持、AI 算法加速、定制模型、定制存储、企业管理等诉求都注入到一个小的 " 容器 " 中,进而将 AI 模型的成果打包和部署过程高度简化。
如果说容器化的理念已经很可怕,那么更可怕的是这套解决方案,与目前 AI 行业智能体发展趋势的契合度。
早在去年,在 ChatGPT 能力之上二次开发的 AutoGPT 就曾大火过一波,当时 AutoGPT 的策略是通过 ChatGPT 的多次循环,实现对复杂目标的拆分和分散寻找答案。但随着后来的实践,整个行业其实已经看到了其能力的局限性——单靠语言大模型并不能解决所有问题。
NIM 应用运行模式构想
而目前行业内比较赞同的解决方案,就是在不断提升基础大模型能力的基础上,不断针对小的场景,提供专门的数据和目标,优化出解决一些问题的模型,也可以叫做 " 智能体 "。通过这些 " 智能体 " 数量和覆盖的累积,以及基础大模型的调度能力,最终让 AI 实现 " 自我计划、自我协调 " 的进阶人工智能水平。更形象的说,就是一个输入框解决用户的绝大部分需求。
而持续为云端提供充沛 AI 运行能力的英伟达,显然有推进这套机制的资本。
在有望加速全行业 AI 应用落地之余,英伟达的这套 NIM 体系,还将把各种有潜力的 AI 模型和应用,紧紧地绑定在英伟达有着明显优势的云端算力性能和成本之上,进一步对抗由智能手机厂商发起的端侧攻势,让其紧握远期实现通用人工智能(AGI)的先机。
根据英伟达官方目前公布的计划,NIM 体系将在 NVIDIA AI 企业版中首发,虽然 NIM 本身不收费,但是 NVIDIA AI 企业版收费不低,单 GPU 的使用权限包年就需要 4500 美金,小时租金为 1 美元每小时。
迫近兑现、充满潜力的其他应用创新
在本次 GTC 之上,除了芯片和硬體解决方案的更新,还有 AI 生态上的全新想法,英伟达也按照惯例展开了几个应用层面的创新案例。但如果你看过前几年的 GTC,你肯定会觉得有点眼熟。
数字孪生地球台风气象模拟
全新更新的蛋白质定制解决方案 DiffDock
进一步由更强大计算能力和算法武装的机器人 / 自动驾驶生态
例如通过更大的 AI 算力,在更大的尺度上对全球的天气进行学习预测,进而对台风等突发天气实现 2 公里精度的实时预测;又比如已经探索了很多年的蛋白质折叠研究;还有机器人领網域的全生态尝试等等。
这些 " 旧 " 赛道在 AI 能力的提升下,其实都展现出了一定的新成果。
就拿机器人来说,英伟达此次全新推出了人形机器人基础模型 Project GR00T,不仅可以通过人类的语言、视频和真实演示(传感器)来学习人类动作,还能够在 GPU 模拟的虚拟世界中,通过 AI 的自我摸索来进行动作的训练。
随着 AI 集群的能力不断提升,虚拟世界中的模拟复杂度已经从最早期的单机械手上升到人形机器人整体。很显然,其实用价值也在随着计算能力、AI 能力不断跃升。
写在最后
英伟达之所以如此强大,主要体现在 " 远见 " 之上。尤其是持续依靠 " 前沿技术 + 下重注 " 引领全行业技术进步,持续享受到技术变革、产品变革的红利。
就拿这次英伟达全新打造的 GPU 来说,能够如期更新,必然和英伟达自己主动将 AI 应用于芯片研发制造流程中有着紧密的关联。因为就在今天,台积电和新思科技(EDA 巨头之一)已经宣布将使用英伟达的计算光刻技术,通过集成的英伟达 cuLitho 平台来加快芯片制造速度。
考虑到英伟达针对未来的布局实在众多,例如这次发布会上也被提到的 "Earth Two" 数字孪生地球项目,量子计算 SDK(軟體开发工具包)"cuQuantum" 等,蛋白质定制研发工具 Diffdock,人形机器人项目 Project GR00T,6G 城市研究云平台等等。
这些技术变革带来的红利,仍将支撑英伟达继续坐稳全球 AI 行业,乃至整个科技行业的龙头。