今天小编分享的科技经验:黄仁勋抛出2700W功耗的真核弹!还有240TB显存的AI超级计算机,欢迎阅读。
快科技 3 月 19 日消息,今天凌晨,黄仁勋正式拿出了新一代 Blackwell GPU 架构,以及基于此的 B100/B200 GPU 芯片、GB200 超级芯片、DGX 超级计算机,再次将 " 战术核弹 " 提升了全新的境界,傲视全球。
Blackwell B200 GPU 首次采用了 chiplet 晶粒封装,包含两颗 B100,而 B200 之间再通过带宽翻倍达 1.8TB/s 的第五代 NVLink 5 总线互连,最多可连接 576 块。
B100 采用专门定制的台积电 4NP 工艺制造 ( H100/RTX 40 4N 工艺的增强版 ) ,已经达到双倍光刻极限尺寸,彼此通过 10TB/s 带宽的片间互联带宽,连接成一块统一的 B200 GPU。
B100 集成多达 1040 亿个晶体管,比上代 H100 800 亿个增加了足足 30%,B200 整体就是 2080 亿个晶体管。
核心面积未公布,考虑到工艺极限应该不会比 814 平方毫米的 H100 大太多。
CUDA 核心数量也没说,但肯定会大大超过 H100 16896 个,不知道能不能突破 2 万个?
每颗 B100 连接四颗 24GB HBM3E 显存 / 内存,等效频率 8GHz,位宽 4096-bit,带宽达 4TB/s。
如此一来,B200 就有多达 192GB HBM3E,总位宽 8096-bit,总带宽 8TB/s,相比 H100 分别增加 1.4 倍、58%、1.4 倍。
性能方面,B200 新增支持 FP4 Tensor 数据格式,性能达到 9PFlops ( 每秒 9 千万亿次 ) ,INT/FP8、FP16、TF32 Tensor 性能分别达到 4.5、2.25、1.1PFlops,分别提升 1.2 倍、1.3 倍、1.3 倍,但是 FP64 Tensor 性能反而下降了 40% ( 依赖 GB200 ) ,FP32、FP64 Vector 性能则未公布。
Blackwell GPU 还支持第二代 Transformer 引擎,支持全新的微张量缩放,在搭配 TensorRT-LLM、NeMo Megatron 框架中的先进动态范围管理算法,从而在新型 4 位浮点 AI 推理能力下实现算力和模型大小的翻倍。
其他还有 RAS 可靠性专用引擎、安全 AI、解压缩引擎等。
至于功耗,B100 控制在 700W,和上代 H100 完全一致,B200 则首次达到了 1000W。
NVIDIA 宣称,Blackwell GPU 能够在 10 万亿参数的大模型上实现 AI 训练和实时大语言模型推理。
GB200 Grace Blackwell 是继 Grace Hopper 之后的新一代超级芯片 ( Superchip ) ,从单颗 GPU+单颗 CPU 更新为两颗 GPU 加一颗 CPU,其中 GPU 部分就是 B200,CPU 部分不变还是 Grace,彼此通过 900GB/s 的带宽实现超低功耗片间互联。
在大语言模型推理工作负载方面,GB200 超级芯片的性能对比 H100 提升了多达 30 倍。
不过代价也很大,GB200 的功耗最高可达 2700W,可以使用分冷,更推荐使用液冷。
基于 GB200 超级芯片,NVIDIA 打造了新一代的 AI 超级计算机 "DGX SuperPOD",配备 36 块超级芯片,也就是包含 36 颗 Grace CPU、72 颗 B200 GPU,彼此通过 NVLink 5 组合在一起,还有多达 240TB HBM3E。
这台 AI 超级计算机可以处理万亿参数的大模型,能保证超大规模生成式 AI 训练和推理工作负载的持续运行,FP4 精度下的性能高达 11.5EFlops ( 每秒 1150 亿亿次 ) 。
DGX SuperPOD 还具有极强的扩展性,可通过 Quantum-X800 InfiniBand 网络连接,扩展到数万颗 GB200 超级芯片,并加入 BlueField-3 DPU 数据处理单元,而每颗 GPU 都能获得 1.8TB/s 的高带宽。
第四代可扩展分层聚合和规约協定 ( SHARP ) 技术,可提供 14.4TFlops 的网络计算能力,比上代提升 4 倍。
此外,NVIDIA 还发布了第六代通用 AI 超级计算平台 "DGX B200",包含两颗 Intel 五代至强处理器、八颗 B200 GPU,具备 1.4TB HBM3E、64TB/s 带宽,FP4 精度性能 144PFlops ( 每秒 14 亿亿次 ) ,万亿参数模型实时推理速度提升 15 倍。
DGX B200 系统还集成八个 NVIDIA ConnectX-7 网卡、两个 BlueField-3 DPU 高性能网络,每个连接带宽高达 400Gb/s,可通过 Quantum-2 InfiniBand、Spectrum?-X 以太网网络平台,扩展支持更高的 AI 性能。
基于 Blackwell GPU 的产品将在今年晚些时候陆续上市,亚马逊云、戴尔、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉、xAI 等都会采纳。
亚马逊云、谷歌云、微软 Azeure、甲骨文云将是首批提供 Blackwell GPU 驱动实例的云服务提供商,NVIDIA 云合作伙伴计划的中的 Applied Digital、CoreWeave、Crusoe、IBM Cloud、Lambda 也将提供上述服务。
Indosat Ooredoo Hutchinson、Nebius、Nexgen Cloud、甲骨文欧盟主权云、甲骨文美国 / 英国 / 澳大利亚政府云、Scaleway、新加坡电信、Northern Data Group 旗下的 Taiga Cloud、Yotta Data Services 旗下的 Shakti Cloud、YTL Power International 等主权 AI 云,也将提供基于 Blackwell 架构的云服务和基础设施。