今天小编分享的财经经验:英伟达加大杯B200芯片:摩尔定律失效,多卡互联称王,欢迎阅读。
图片来源:视觉中国
北京时间 3 月 19 日凌晨,英伟达 GTC(GPU 技术大会)上,英伟达首席执行官黄仁勋公布了 Hopper 架构芯片的继任者—— Blackwell 架构的 B200 芯片。目前英伟达 Hopper 架构的芯片 H100 和 GH200 Grace Hopper 超级芯片需求量很大,为世界上许多最强大的超级计算中心提供算力,而 B200 将提供算力的进一步代际飞跃。
Blackwell 架构的 B200 芯片并不是传统意义上的单一 GPU。相反,它由两个紧密耦合的芯片组成,尽管根据 Nvidia 的说法,它们确实充当一个统一的 CUDA GPU。这两个芯片通过 10 TB/s NV-HBI(Nvidia 高带宽接口)连接进行连接,以确保它们能够作为单个完全一致的芯片正常运行。
多卡互联是 B200 算力提升的关键。将两个 GPU 与单个 Grace CPU 结合在一起的 GB200 可以为大语言模型的推理工作提供 30 倍的性能,同时还可能大幅提高效率。英伟达称,与 H100 相比,B200 可将生成式 AI 的算力成本和能耗降低多达 25 倍。
英伟达 AI 芯片性能本身在算力上的提升主要靠数据精度,从 FP64、FP32、FP16、FP8 到如今 B200 芯片的 FP4,FP4 最大理论计算量为 20 petaflops(数据精度部門)。FP4 是 FP8 性能的两倍,FP4 的好处是提升了带宽,通过为每个神经元使用 4 位而不是 8 位,使计算、带宽和模型大小加倍。如果将 B200 换算成 FP8 与 H100 进行同类比较,那么 B200 理论上仅比 H100 提供多 2.5 倍的计算量,B200 的算力提升很大一部分来自于两个芯片互联。
CPU 通用处理器时代的摩尔定律(集成电路上可容纳的晶体管数目,约每隔 18 个月便会增加一倍)已经进入暮年。台积电在 3nm 制程上的突破,并未给芯片性能带来突破代际的提升。2023 年 9 月,苹果 A17 Pro 问世,使用了台积电生产的首个 3nm 制程芯片,但 CPU 性能只有 10% 的提升。且先进制程芯片研发耗资巨大,据远川研究所报道,2023 年台积电的晶圆代工价格与两年前相比大约上涨了 16%(先进制程)到 34%(成熟制程)。
除了苹果之外,台积电的另一大芯片客户便是英伟达——英伟达的硬通货 AI 芯片 H100 就采用了台积电 N4(5nm)工艺,使用了台积电的 CoWoS 先进封装产能。
摩尔定律失效,黄仁勋的黄氏定律指出,GPU 的效能每两年将增加一倍以上," 创新不仅仅是芯片,而是整个堆叠 "。
英伟达继续朝着多卡互联进发。既然 3nm 芯片提升有限,英伟达的 B200 选择把 2 片 4nm 芯片并排摆放,通过超高速片上互联,组成一个 2000 多亿晶体管的超大芯片。在英伟达 GTC 上,黄仁勋对于芯片本身性能一笔带过,重点都在 DGX 系统上。
在多卡互联方面,英伟达的 NVLink 和 NVSwitch 技术是其护城河。NVLINK 是一种点对点的高速互连技术,可以将多个 GPU 直接连接起来,形成一个高性能计算集群或深度学习系统此外,NVLink 引入了统一内存的概念,支持连接的 GPU 之间的内存池,这对于需要大型数据集的任务来说是一个至关重要的功能。
而 NVSwitch 是一种高速交换机技术,可以将多个 GPU 和 CPU 直接连接起来,形成一个高性能计算系统。
在 NVLink Switch 支持下,英伟达 " 大力出奇迹 " 地将 72 块 B200 连接在一起,最终成为 " 新一代计算单元 "GB200 NVL72。一个像这样的 " 计算单元 " 机柜,FP8 精度的训练算力就高达 720PFlops,直逼 H100 时代一个 DGX SuperPod 超级计算机集群(1000 PFlops)。
英伟达透露,这一全新的芯片将在 2024 年晚些时间上市。目前,亚马逊、戴尔、谷歌、Meta、微软、OpenAI、特斯拉都已经计划使用 Blackwell GPU。
" 打包批发卖卡 " 的方式也符合大模型公司的用卡需求。将多个 GPU 互联 " 打包 " 成数据中心,更符合大模型公司和云服务商的购买形式。英伟达 2023 财年财报显示,英伟达的数据中心业务有 40% 的收入来自超大规模数据中心与云服务商。
截至美东时间 3 月 18 日美股收盘,英伟达股价 884.550 美元,总市值 2.21 万亿美元。