黄仁勋抛出2700W功耗的真核弹！还有240TB显存的AI超级计算机

今天小编分享的科技经验：黄仁勋抛出2700W功耗的真核弹！还有240TB显存的AI超级计算机，欢迎阅读。

快科技 3 月 19 日消息，今天凌晨，黄仁勋正式拿出了新一代 Blackwell GPU 架构，以及基于此的 B100/B200 GPU 芯片、GB200 超级芯片、DGX 超级计算机，再次将 " 战术核弹 " 提升了全新的境界，傲视全球。

Blackwell B200 GPU 首次采用了 chiplet 晶粒封装，包含两颗 B100，而 B200 之间再通过带宽翻倍达 1.8TB/s 的第五代 NVLink 5 总线互连，最多可连接 576 块。

B100 采用专门定制的台积电 4NP 工艺制造 ( H100/RTX 40 4N 工艺的增强版 ) ，已经达到双倍光刻极限尺寸，彼此通过 10TB/s 带宽的片间互联带宽，连接成一块统一的 B200 GPU。

B100 集成多达 1040 亿个晶体管，比上代 H100 800 亿个增加了足足 30％，B200 整体就是 2080 亿个晶体管。

核心面积未公布，考虑到工艺极限应该不会比 814 平方毫米的 H100 大太多。

CUDA 核心数量也没说，但肯定会大大超过 H100 16896 个，不知道能不能突破 2 万个？

每颗 B100 连接四颗 24GB HBM3E 显存 / 内存，等效频率 8GHz，位宽 4096-bit，带宽达 4TB/s。

如此一来，B200 就有多达 192GB HBM3E，总位宽 8096-bit，总带宽 8TB/s，相比 H100 分别增加 1.4 倍、58％、1.4 倍。

性能方面，B200 新增支持 FP4 Tensor 数据格式，性能达到 9PFlops ( 每秒 9 千万亿次 ) ，INT/FP8、FP16、TF32 Tensor 性能分别达到 4.5、2.25、1.1PFlops，分别提升 1.2 倍、1.3 倍、1.3 倍，但是 FP64 Tensor 性能反而下降了 40％ ( 依赖 GB200 ) ，FP32、FP64 Vector 性能则未公布。

Blackwell GPU 还支持第二代 Transformer 引擎，支持全新的微张量缩放，在搭配 TensorRT-LLM、NeMo Megatron 框架中的先进动态范围管理算法，从而在新型 4 位浮点 AI 推理能力下实现算力和模型大小的翻倍。

其他还有 RAS 可靠性专用引擎、安全 AI、解压缩引擎等。

至于功耗，B100 控制在 700W，和上代 H100 完全一致，B200 则首次达到了 1000W。

NVIDIA 宣称，Blackwell GPU 能够在 10 万亿参数的大模型上实现 AI 训练和实时大语言模型推理。

GB200 Grace Blackwell 是继 Grace Hopper 之后的新一代超级芯片 ( Superchip ) ，从单颗 GPU＋单颗 CPU 更新为两颗 GPU 加一颗 CPU，其中 GPU 部分就是 B200，CPU 部分不变还是 Grace，彼此通过 900GB/s 的带宽实现超低功耗片间互联。

在大语言模型推理工作负载方面，GB200 超级芯片的性能对比 H100 提升了多达 30 倍。

不过代价也很大，GB200 的功耗最高可达 2700W，可以使用分冷，更推荐使用液冷。

基于 GB200 超级芯片，NVIDIA 打造了新一代的 AI 超级计算机 "DGX SuperPOD"，配备 36 块超级芯片，也就是包含 36 颗 Grace CPU、72 颗 B200 GPU，彼此通过 NVLink 5 组合在一起，还有多达 240TB HBM3E。

这台 AI 超级计算机可以处理万亿参数的大模型，能保证超大规模生成式 AI 训练和推理工作负载的持续运行，FP4 精度下的性能高达 11.5EFlops ( 每秒 1150 亿亿次 ) 。

DGX SuperPOD 还具有极强的扩展性，可通过 Quantum-X800 InfiniBand 网络连接，扩展到数万颗 GB200 超级芯片，并加入 BlueField-3 DPU 数据处理单元，而每颗 GPU 都能获得 1.8TB/s 的高带宽。

第四代可扩展分层聚合和规约協定 ( SHARP ) 技术，可提供 14.4TFlops 的网络计算能力，比上代提升 4 倍。

此外，NVIDIA 还发布了第六代通用 AI 超级计算平台 "DGX B200"，包含两颗 Intel 五代至强处理器、八颗 B200 GPU，具备 1.4TB HBM3E、64TB/s 带宽，FP4 精度性能 144PFlops ( 每秒 14 亿亿次 ) ，万亿参数模型实时推理速度提升 15 倍。

DGX B200 系统还集成八个 NVIDIA ConnectX-7 网卡、两个 BlueField-3 DPU 高性能网络，每个连接带宽高达 400Gb/s，可通过 Quantum-2 InfiniBand、Spectrum?-X 以太网网络平台，扩展支持更高的 AI 性能。

基于 Blackwell GPU 的产品将在今年晚些时候陆续上市，亚马逊云、戴尔、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉、xAI 等都会采纳。

亚马逊云、谷歌云、微软 Azeure、甲骨文云将是首批提供 Blackwell GPU 驱动实例的云服务提供商，NVIDIA 云合作伙伴计划的中的 Applied Digital、CoreWeave、Crusoe、IBM Cloud、Lambda 也将提供上述服务。

Indosat Ooredoo Hutchinson、Nebius、Nexgen Cloud、甲骨文欧盟主权云、甲骨文美国 / 英国 / 澳大利亚政府云、Scaleway、新加坡电信、Northern Data Group 旗下的 Taiga Cloud、Yotta Data Services 旗下的 Shakti Cloud、YTL Power International 等主权 AI 云，也将提供基于 Blackwell 架构的云服务和基础设施。