今天小編分享的科技經驗:黃仁勳抛出2700W功耗的真核彈!還有240TB顯存的AI超級計算機,歡迎閲讀。
快科技 3 月 19 日消息,今天凌晨,黃仁勳正式拿出了新一代 Blackwell GPU 架構,以及基于此的 B100/B200 GPU 芯片、GB200 超級芯片、DGX 超級計算機,再次将 " 戰術核彈 " 提升了全新的境界,傲視全球。
Blackwell B200 GPU 首次采用了 chiplet 晶粒封裝,包含兩顆 B100,而 B200 之間再通過帶寬翻倍達 1.8TB/s 的第五代 NVLink 5 總線互連,最多可連接 576 塊。
B100 采用專門定制的台積電 4NP 工藝制造 ( H100/RTX 40 4N 工藝的增強版 ) ,已經達到雙倍光刻極限尺寸,彼此通過 10TB/s 帶寬的片間互聯帶寬,連接成一塊統一的 B200 GPU。
B100 集成多達 1040 億個晶體管,比上代 H100 800 億個增加了足足 30%,B200 整體就是 2080 億個晶體管。
核心面積未公布,考慮到工藝極限應該不會比 814 平方毫米的 H100 大太多。
CUDA 核心數量也沒説,但肯定會大大超過 H100 16896 個,不知道能不能突破 2 萬個?
每顆 B100 連接四顆 24GB HBM3E 顯存 / 内存,等效頻率 8GHz,位寬 4096-bit,帶寬達 4TB/s。
如此一來,B200 就有多達 192GB HBM3E,總位寬 8096-bit,總帶寬 8TB/s,相比 H100 分别增加 1.4 倍、58%、1.4 倍。
性能方面,B200 新增支持 FP4 Tensor 數據格式,性能達到 9PFlops ( 每秒 9 千萬億次 ) ,INT/FP8、FP16、TF32 Tensor 性能分别達到 4.5、2.25、1.1PFlops,分别提升 1.2 倍、1.3 倍、1.3 倍,但是 FP64 Tensor 性能反而下降了 40% ( 依賴 GB200 ) ,FP32、FP64 Vector 性能則未公布。
Blackwell GPU 還支持第二代 Transformer 引擎,支持全新的微張量縮放,在搭配 TensorRT-LLM、NeMo Megatron 框架中的先進動态範圍管理算法,從而在新型 4 位浮點 AI 推理能力下實現算力和模型大小的翻倍。
其他還有 RAS 可靠性專用引擎、安全 AI、解壓縮引擎等。
至于功耗,B100 控制在 700W,和上代 H100 完全一致,B200 則首次達到了 1000W。
NVIDIA 宣稱,Blackwell GPU 能夠在 10 萬億參數的大模型上實現 AI 訓練和實時大語言模型推理。
GB200 Grace Blackwell 是繼 Grace Hopper 之後的新一代超級芯片 ( Superchip ) ,從單顆 GPU+單顆 CPU 更新為兩顆 GPU 加一顆 CPU,其中 GPU 部分就是 B200,CPU 部分不變還是 Grace,彼此通過 900GB/s 的帶寬實現超低功耗片間互聯。
在大語言模型推理工作負載方面,GB200 超級芯片的性能對比 H100 提升了多達 30 倍。
不過代價也很大,GB200 的功耗最高可達 2700W,可以使用分冷,更推薦使用液冷。
基于 GB200 超級芯片,NVIDIA 打造了新一代的 AI 超級計算機 "DGX SuperPOD",配備 36 塊超級芯片,也就是包含 36 顆 Grace CPU、72 顆 B200 GPU,彼此通過 NVLink 5 組合在一起,還有多達 240TB HBM3E。
這台 AI 超級計算機可以處理萬億參數的大模型,能保證超大規模生成式 AI 訓練和推理工作負載的持續運行,FP4 精度下的性能高達 11.5EFlops ( 每秒 1150 億億次 ) 。
DGX SuperPOD 還具有極強的擴展性,可通過 Quantum-X800 InfiniBand 網絡連接,擴展到數萬顆 GB200 超級芯片,并加入 BlueField-3 DPU 數據處理單元,而每顆 GPU 都能獲得 1.8TB/s 的高帶寬。
第四代可擴展分層聚合和規約協定 ( SHARP ) 技術,可提供 14.4TFlops 的網絡計算能力,比上代提升 4 倍。
此外,NVIDIA 還發布了第六代通用 AI 超級計算平台 "DGX B200",包含兩顆 Intel 五代至強處理器、八顆 B200 GPU,具備 1.4TB HBM3E、64TB/s 帶寬,FP4 精度性能 144PFlops ( 每秒 14 億億次 ) ,萬億參數模型實時推理速度提升 15 倍。
DGX B200 系統還集成八個 NVIDIA ConnectX-7 網卡、兩個 BlueField-3 DPU 高性能網絡,每個連接帶寬高達 400Gb/s,可通過 Quantum-2 InfiniBand、Spectrum?-X 以太網網絡平台,擴展支持更高的 AI 性能。
基于 Blackwell GPU 的產品将在今年晚些時候陸續上市,亞馬遜雲、戴爾、谷歌、Meta、微軟、OpenAI、甲骨文、特斯拉、xAI 等都會采納。
亞馬遜雲、谷歌雲、微軟 Azeure、甲骨文雲将是首批提供 Blackwell GPU 驅動實例的雲服務提供商,NVIDIA 雲合作夥伴計劃的中的 Applied Digital、CoreWeave、Crusoe、IBM Cloud、Lambda 也将提供上述服務。
Indosat Ooredoo Hutchinson、Nebius、Nexgen Cloud、甲骨文歐盟主權雲、甲骨文美國 / 英國 / 澳大利亞政府雲、Scaleway、新加坡電信、Northern Data Group 旗下的 Taiga Cloud、Yotta Data Services 旗下的 Shakti Cloud、YTL Power International 等主權 AI 雲,也将提供基于 Blackwell 架構的雲服務和基礎設施。