黃仁勳抛出2700W功耗的真核彈！還有240TB顯存的AI超級計算機

今天小編分享的科技經驗：黃仁勳抛出2700W功耗的真核彈！還有240TB顯存的AI超級計算機，歡迎閲讀。

快科技 3 月 19 日消息，今天凌晨，黃仁勳正式拿出了新一代 Blackwell GPU 架構，以及基于此的 B100/B200 GPU 芯片、GB200 超級芯片、DGX 超級計算機，再次将 " 戰術核彈 " 提升了全新的境界，傲視全球。

Blackwell B200 GPU 首次采用了 chiplet 晶粒封裝，包含兩顆 B100，而 B200 之間再通過帶寬翻倍達 1.8TB/s 的第五代 NVLink 5 總線互連，最多可連接 576 塊。

B100 采用專門定制的台積電 4NP 工藝制造 ( H100/RTX 40 4N 工藝的增強版 ) ，已經達到雙倍光刻極限尺寸，彼此通過 10TB/s 帶寬的片間互聯帶寬，連接成一塊統一的 B200 GPU。

B100 集成多達 1040 億個晶體管，比上代 H100 800 億個增加了足足 30％，B200 整體就是 2080 億個晶體管。

核心面積未公布，考慮到工藝極限應該不會比 814 平方毫米的 H100 大太多。

CUDA 核心數量也沒説，但肯定會大大超過 H100 16896 個，不知道能不能突破 2 萬個？

每顆 B100 連接四顆 24GB HBM3E 顯存 / 内存，等效頻率 8GHz，位寬 4096-bit，帶寬達 4TB/s。

如此一來，B200 就有多達 192GB HBM3E，總位寬 8096-bit，總帶寬 8TB/s，相比 H100 分别增加 1.4 倍、58％、1.4 倍。

性能方面，B200 新增支持 FP4 Tensor 數據格式，性能達到 9PFlops ( 每秒 9 千萬億次 ) ，INT/FP8、FP16、TF32 Tensor 性能分别達到 4.5、2.25、1.1PFlops，分别提升 1.2 倍、1.3 倍、1.3 倍，但是 FP64 Tensor 性能反而下降了 40％ ( 依賴 GB200 ) ，FP32、FP64 Vector 性能則未公布。

Blackwell GPU 還支持第二代 Transformer 引擎，支持全新的微張量縮放，在搭配 TensorRT-LLM、NeMo Megatron 框架中的先進動态範圍管理算法，從而在新型 4 位浮點 AI 推理能力下實現算力和模型大小的翻倍。

其他還有 RAS 可靠性專用引擎、安全 AI、解壓縮引擎等。

至于功耗，B100 控制在 700W，和上代 H100 完全一致，B200 則首次達到了 1000W。

NVIDIA 宣稱，Blackwell GPU 能夠在 10 萬億參數的大模型上實現 AI 訓練和實時大語言模型推理。

GB200 Grace Blackwell 是繼 Grace Hopper 之後的新一代超級芯片 ( Superchip ) ，從單顆 GPU＋單顆 CPU 更新為兩顆 GPU 加一顆 CPU，其中 GPU 部分就是 B200，CPU 部分不變還是 Grace，彼此通過 900GB/s 的帶寬實現超低功耗片間互聯。

在大語言模型推理工作負載方面，GB200 超級芯片的性能對比 H100 提升了多達 30 倍。

不過代價也很大，GB200 的功耗最高可達 2700W，可以使用分冷，更推薦使用液冷。

基于 GB200 超級芯片，NVIDIA 打造了新一代的 AI 超級計算機 "DGX SuperPOD"，配備 36 塊超級芯片，也就是包含 36 顆 Grace CPU、72 顆 B200 GPU，彼此通過 NVLink 5 組合在一起，還有多達 240TB HBM3E。

這台 AI 超級計算機可以處理萬億參數的大模型，能保證超大規模生成式 AI 訓練和推理工作負載的持續運行，FP4 精度下的性能高達 11.5EFlops ( 每秒 1150 億億次 ) 。

DGX SuperPOD 還具有極強的擴展性，可通過 Quantum-X800 InfiniBand 網絡連接，擴展到數萬顆 GB200 超級芯片，并加入 BlueField-3 DPU 數據處理單元，而每顆 GPU 都能獲得 1.8TB/s 的高帶寬。

第四代可擴展分層聚合和規約協定 ( SHARP ) 技術，可提供 14.4TFlops 的網絡計算能力，比上代提升 4 倍。

此外，NVIDIA 還發布了第六代通用 AI 超級計算平台 "DGX B200"，包含兩顆 Intel 五代至強處理器、八顆 B200 GPU，具備 1.4TB HBM3E、64TB/s 帶寬，FP4 精度性能 144PFlops ( 每秒 14 億億次 ) ，萬億參數模型實時推理速度提升 15 倍。

DGX B200 系統還集成八個 NVIDIA ConnectX-7 網卡、兩個 BlueField-3 DPU 高性能網絡，每個連接帶寬高達 400Gb/s，可通過 Quantum-2 InfiniBand、Spectrum?-X 以太網網絡平台，擴展支持更高的 AI 性能。

基于 Blackwell GPU 的產品将在今年晚些時候陸續上市，亞馬遜雲、戴爾、谷歌、Meta、微軟、OpenAI、甲骨文、特斯拉、xAI 等都會采納。

亞馬遜雲、谷歌雲、微軟 Azeure、甲骨文雲将是首批提供 Blackwell GPU 驅動實例的雲服務提供商，NVIDIA 雲合作夥伴計劃的中的 Applied Digital、CoreWeave、Crusoe、IBM Cloud、Lambda 也将提供上述服務。

Indosat Ooredoo Hutchinson、Nebius、Nexgen Cloud、甲骨文歐盟主權雲、甲骨文美國 / 英國 / 澳大利亞政府雲、Scaleway、新加坡電信、Northern Data Group 旗下的 Taiga Cloud、Yotta Data Services 旗下的 Shakti Cloud、YTL Power International 等主權 AI 雲，也将提供基于 Blackwell 架構的雲服務和基礎設施。