今天小编分享的科学经验:英伟达B200打破摩尔定律!老黄顺便公开GPT-4的秘密,欢迎阅读。
整个 AI 圈最想知道的秘密,被老黄在 PPT 某页的小字里写出来了?
时隔两年,英伟达官宣新一代Blackwell 架构,为 AI 带来30 倍推理加速。定位直指 " 新工业革命的引擎 " 。
老黄 PPT 中拿了一个1.8 万亿参数 MoE 的 GPT 系列大模型测试结果来证明。
眼尖的网友当场就盯上了这行不起眼的小字,截图发出神秘暗号。
1.8 万亿参数、MoE 架构,与初代 GPT-4 的细节传闻一毛一样,32k 序列长度也能对得上。
刚升任研究经理不久的英伟达科学家 Jim Fan,甚至直接摊牌了。
表达摩尔定律已经限制不住英伟达了的同时,直接点破了这层窗户纸。
不过个秘密之所以能以这种形式半官方确认,很可能说明对 OpenAI 来说已经无关紧要了。
很多人相信,最新版 gpt-4-turbo 经过一轮轮的优化,已经蒸馏到更小规模。
说回到英伟达 GTC 大会本身,作为架构更新的大年,老黄的主题演讲亮点颇多:
宣布 GPU 新核弹 B200,超级芯片 GB200
Blackwell 架构新伺服器,一个机柜顶一个超算
推出 AI 推理微服务 NIM,要做世界 AI 的入口
新光刻技术 cuLitho 进驻台积电,改进产能。
……
8 年时间,AI 算力已增长 1000 倍。
老黄断言 " 加速计算到达了临界点,通用计算已经过时了 "。
我们需要另一种方式来进行计算,这样我们才能够继续扩展,这样我们才能够继续降低计算成本,这样我们才能够继续进行越来越多的计算。
老黄这次主题演讲题目为《见证 AI 的变革时刻》,但不得不说,英伟达才是最大的变革本革。
GPU 的形态已彻底改变
我们需要更大的 GPU,如果不能更大,就把更多 GPU 组合在一起,变成更大的虚拟 GPU。
Blackwell 新架构硬體产品线都围绕这一句话展开。
通过芯片,与芯片间的连接技术,一步步构建出大型 AI 超算集群。
4nm 制程达到瓶颈,就把两个芯片合在一起,以 10TB 每秒的满血带宽互联,组成B200 GPU,总计包含 2080 亿晶体管。
内存也直接翻倍,高达 192GB 的 HBM3e 高速内存。
没错,B100 型号被跳过了,直接发布的新架构首个 GPU 就是 B200。
两个 B200 GPU 与 Grace CPU 结合就成为GB200 超级芯片,通过 900GB/s 的超低功耗 NVLink 芯片间互连技术连接在一起。
两个超级芯片装到主機板上,成为一个 Blackwell 计算节点。
18 个这样的计算节点共有 36CPU+72GPU,组成更大的 " 虚拟 GPU"。
它们之间由今天宣布的 NVIDIA Quantum-X800 InfiniBand 和 Spectrum ™ -X800 以太网平台连接,可提供速度高达 800Gb/s 的网络。
在 NVLink Switch 支持下,最终成为 " 新一代计算单元 "GB200 NVL72。
一个像这样的 " 计算单元 " 机柜,FP8 精度的训练算力就高达 720PFlops,直逼 H100 时代一个 DGX SuperPod 超级计算机集群(1000 PFlops)。
与相同数量的 72 个 H100 相比,GB200 NVL72 对于大模型推理性能提升高达 30 倍,成本和能耗降低高达 25 倍。
把 GB200 NVL72 当做单个 GPU 使用,具有 1.4EFlops 的 AI 推理算力和 30TB 高速内存。
再用Quantum InfiniBand交换机连接,配合散热系统组成新一代 DGX SuperPod 集群。
DGX GB200 SuperPod采用新型高效液冷机架规模架构,标准配置可在 FP4 精度下提供 11.5 Exaflops 算力和 240TB 高速内存。
此外还支持增加额外的机架扩展性能。
最终成为包含 32000 GPU 的分布式超算集群。
老黄直言," 英伟达 DGX AI 超级计算机,就是 AI 工业革命的工厂 "。
将提供无与伦比的规模、可靠性,具有智能管理和全栈弹性,以确保不断的使用。
在演讲中,老黄还特别提到 2016 年赠送 OpenAI 的 DGX-1,那也是史上第一次 8 块 GPU 连在一起组成一个超级计算机,当时只有 0.17 PFlops。
从此之后便开启了训练最大模型所需算力每 6 个月翻一倍的增长之路。
GPU 新核弹 GB200
过去,在 90 天内训练一个 1.8 万亿参数的 MoE 架构 GPT 模型,需要 8000 个 Hopper 架构 GPU,15 兆瓦功率。
如今,同样给 90 天时间,在 Blackwell 架构下只需要 2000 个 GPU,以及 1/4 的能源消耗。
在标准的 1750 亿参数 GPT-3 基准测试中,GB200 的性能是 H100 的 7 倍,提供的训练算力是 H100 的 4 倍。
Blackwell 架构除了芯片本身外,还包含多项重大革新:
第二代 Transformer 引擎
动态为神经网络中的每个神经元启用 FP6 和 FP4 精度支持。
第五代 NVLink 高速互联
为每个 GPU 提供了 1.8TB/s 双向吞吐量,确保多达 576 个 GPU 之间的无缝高速通信。
Ras Engine(可靠性、可用性和可维护性引擎)
基于 AI 的预防性维护来运行诊断和预测可靠性问题。
Secure AI
先进的加密计算功能,在不影响性能的情况下保护 AI 模型和客户数据,对于医疗保健和金融服务等隐私敏感行业至关重要。
专用解压缩引擎
支持最新格式,加速数据库查询,以提供数据分析和数据科学的最高性能。
在这些技术加持下,一个 GB200 NVL72 就最高支持 27 万亿参数的模型。
假如初代 GPT-4 真是 1.8 万亿参数,一台 GB200 NVL72 就能跑 15 个 GPT-4。
英伟达要做世界 AI 的入口
老黄官宣 ai.nvidia.com 页面,要做世界 AI 的入口。
任何人都可以通过易于使用的用户界面体验各种 AI 模型和应用。
同时,企业使用这些服务在自己的平台上创建和部署自定义应用,同时保留对其知识产权的完全所有权和控制权。
这上面的应用都由英伟达全新推出的AI 推理微服务 NIM支持,可对来自英伟达及合作伙伴的数十个 AI 模型进行优化推理。
此外,英伟达自己的开发套件、軟體库和工具包都可以作为 NVIDIA CUDA-X ™微服务访问,用于检索增强生成 ( RAG ) 、护栏、数据处理、HPC 等。
比如通过这些微服务,可以轻松构建基于大模型和向量数据库的 ChatPDF 产品,甚至智能体 Agent 应用。
NIM 微服务定价非常直观," 一个 GPU 一小时一美元 ",或年付打五折,一个 GPU 一年 4500 美元。
从此,英伟达 NIM 和 CUDA 做为中间枢纽,连接了百万开发者与上亿 GPU 芯片。
什么概念?
老黄晒出 AI 界 " 最强朋友圈 ",包括亚马逊、迪士尼、三星等大型企业,都已成为英伟达合作伙伴。
最后总结一下,与往年相比英伟达 2024 年战略更聚焦 AI,而且产品更有针对性。
比如第五代 NVLink 还特意为 MoE 架构大模型优化通讯瓶颈。
新的芯片和軟體服务,都在不断的强调推理算力,要进一步打开 AI 应用部署市场。
当然作为算力之王,AI 并不是英伟达的全部。
这次大会上,还特别宣布了与苹果在 Vision Pro 方面的合作,让开发者在工业元宇宙里搞空间计算。
此前推出的新光刻技术 cuLitho 軟體库也有了新进展,被台积电和新思科技采用,把触手伸向更上游的芯片制造商。
当然也少不了生物医疗、工业元宇宙、机器人汽车的新成果。
以及布局下一轮计算变革的前沿领網域,英伟达推出云量子计算机模拟微服务,让全球科学家都能充分利用量子计算的力量,将自己的想法变成现。
One More Thing
去年 GTC 大会上,老黄与 OpenAI 首席科学家 Ilya Sutskever 的炉边对谈,仍为人津津乐道。
当时世界还没完全从 ChatGPT 的震撼中清醒过来,OpenAI 是整个行业绝对的主角。
如今 Ilya 不知踪影,OpenAI 的市场统治力也开始松动。在这个节骨眼上,有资格与老黄对谈的人换成了 8 位——
Transformer 八子,开山论文《Attention is all you need》的八位作者。
他们已经悉数离开谷歌,其中一位加入 OpenAI,另外 7 位投身 AI 创业,有模型层也有应用层,有 toB 也有 toC。
这八位传奇人物既象征着大模型技术真正的起源,又代表着现在百花齐放的 AI 产业图景。在这样的格局中,OpenAI 不过是其中一位玩家。
而就在两天后,老黄将把他们聚齐,在自己的主场。
要论在整个 AI 界的影响力、号召力,在这一刻,无论是 " 钢铁侠 " 马斯克还是 " 奥特曼 "Sam Altman,恐怕都比不过眼前这位 " 皮衣客 " 黄仁勋。
……
最后,再来欣赏一段英伟达为 Blackwell 架构制作的精彩动画短片。
直播回放:
https://www.youtube.com/watch?v=Y2F8yisiS6E