英伟达又发“最强”AI超算，还联手了HuggingFace，黄仁勋要加收大模型税了

今天小编分享的科技经验：英伟达又发“最强”AI超算，还联手了HuggingFace，黄仁勋要加收大模型税了，欢迎阅读。

黄仁勋在 SIGGRAPH 2023 的主题演讲上透露了英伟达为降低生成式 AI 使用门槛所做的最新努力。

生成式 AI 是这次大会毋庸置疑的绝对主角，黄仁勋会上透露的在軟體和硬體以及生态方面的更新，归结起来就是尽力降低生成式 AI 的使用门槛——促进大模型的真正落地。

" 买的越多，省的越多 "2.0

硬體方面，英伟达推出了 GH200 超级芯片的更新版，或者可以叫它 HBM3E 增强版。它是世界第一款 HBM3e 处理器。

通过英伟达 NVLink 技术，彼此互联的 Grace Hopper 超级芯片平台能够提供 1.2TB 的快速内存，由于 HBM3e 内存比当前 HBM3 快 50%，平台总共能提供 10TB/ 秒的组合带宽。也就是说，其内存容量增加 3.5 倍，带宽增加了 3 倍，平台包括了一台具有 144 个 Arm Neoverse 核心、8 petaflops 的 AI 性能和 282GB 最新 HBM3e 内存技术的伺服器。它同时与早先在台北电腦展上公布的英伟达 MGX 伺服器规范完全兼容。

数据中心的硬體正在快速向加速计算转变，这是黄仁勋一直在强调的一个趋势。相比 CPU，GPU 在能效上有很大的优势，黄仁勋演讲中举的例子是同样 1 亿美元成本，相比 x86 架构 CPU，GH200 将能提供超过 20 倍能效提升。

于是我们又听到了黄仁勋那句名言：the more you buy, the more you save. 买的越多，省的越多。

可以说也是不忘初心了。

黄仁勋现场展示的 PPT 显示，2500 张 GH200 组成的数据中心相比 CPU 有 20 倍能效优势。

除了数据中心外，黄仁勋还发布了两套硬體，它们同样针对大模型而来。

一款是桌面级的 RTX 工作站，包括最多四个 RTX 6000 Ada GPU，单个桌面工作站可提供高达 5,828 tflops 的 AI 性能和 192GB GPU 内存。

另一款是 OVX 伺服器，其中包括了 8 个英伟达 L40S GPU，每个 GPU 配备 48GB 内存，可提供超过 1.45 petaflops 的张量处理能力。

作为对比，新的 RTX 工作站运行 8.6 亿个 token 的 GPT3-40B 需要 15 个小时，OVX 伺服器则只需要 7 小时。实际上，OVX 伺服器相比 A100，推理性能提高了 1.2 倍，训练性能上提高 1.7 倍。其单精度浮点 ( FP32 ) 性能是 A100 的近 5 倍。

英伟达 L40S GPU

这些硬體的更新是有梯度的，黄仁勋演讲中也点的很明白：for everyone，英伟达在每个价格阶段上都为潜在客户准备了对应产品。

因此除了伺服器和工作站之外，英伟达还同时发布了三款专业显卡—— RTX 5000, RTX 4500 and RTX 4000，它们采用了 Ada Lovelace 架构，在显存方面都有提升（RTX 4000 有 20GB GDDR6 显存；RTX 4500 为 24GB；RTX 5000 最高为 32GB ），这是英伟达显卡过去曾一度削弱的部分，而现在显存对于大模型来说无比重要。另外它们还使用了第四代 Tensor Core，AI 训练性能比上一代快了两倍，并扩展了对 FP8 数据格式的支持。

这些硬體最终组成了一个矩阵，囊括了从企业级客户到个人用户。但在黄仁勋看来，想要触达每一个人，英伟达还需要一些 " 软工具 "。

软硬兼施

距离黄仁勋推出 DGX Cloud 才短短几个月，英伟达在降低用户和开发者使用大模型门槛方面又有新的动作。

其中一项是非常好猜的，那就是和 Hugging Face 的合作。在此之前，Hugging Face 已经和包括 AMD 亚马逊云等在内的诸多巨头紧密合作，大家都看中了它集成开放模型的优势，英伟达也不例外。

" 点击一下滑鼠即可实现英伟达 AI 计算。" 黄仁勋说，几个月前发布的 DGX Cloud 和 Hugging Face 平台集成到了一起。用户可以先在自己的电腦上启动项目，然后扩展到工作站和数据中心。

另一项名叫英伟达 AI Workbench，开发人员可以直接在 PC 和工作站上创建、测试和定制预训大模型。这非常像国内的大模型预训练平台，把模型、框架和軟體开发套件与库集合到了一个统一的开发人员工具包中，要说区别那就是 AI Workbench 能直接调用英伟达的算力资源，并且更好的支持英伟达的硬體——前面发布的那些工作站和伺服器不用说都支持 AI Workbench 的本地测试和微调。

开发者原本需要分散在各处的大模型开发工具与流程，现在由英伟达 AI Workbench 整合了起来。

它的界面就是一个网站。截图可以看到，本地计算机使用的是消费级 4090 移动版显卡。

这极大简化了大模型的操作流程，实际上你只需要一台电腦就够了。

" 每个人都可以做到这一点。" 黄仁勋说道，某种意义上讲，这像是大模型的民主化。

另外一个旨在降低生成式 AI 部署门槛的服务是名为 AI Enterprise 4.0 的企业軟體平台，主要针对企业客户。AI Enterprise 4.0 包括了名为 NeMo 的大模型云原生框架和集群管理軟體，帮助企业客户管理从云到数据中心再到边缘设备的所有 AI 解决方案，它会被集成到谷歌云和微软的 Azure。

场景在哪里

大模型最近一个颇为引人争论的话题是，它的场景到底在哪里？

这对善于从第一性原理出发的老黄来说恐怕完全不是问题，一方面有硬體技术，一方面有软实力。英伟达的层次显然更高一点——不是找寻场景，而是打造生态。因为在英伟达看来，恐怕没有什么所谓 " 垂直场景 "，一切都可以被生成式 AI 介入，承载它的是 Omniverse。

元宇宙在黄仁勋这里不是一个过气的名词，而是连接虚拟与物理世界，并且极大开发生成式 AI 潜力的工具。在虚拟与现实的转换中，英伟达看中了名为 Universal Scene Description，通用场景描述（简称 OpenUSD）的潜力。

黄仁勋把 OpenUSD 对虚拟世界的重要性与 HTML 之于 2D 互联网的重要性相提并论。简单来说，你可以把 OpenUSD 理解成一套通用的描述 3D 场景的语言——这在过去往往需要非常复杂的流程和不同的工具才能实现。

有了这种通用语言，不同的人能基于同样的背景建构 3D 世界——也就是元宇宙的世界。

通过 OpenUSD 构建共同的 3D 场景——尽管来自不同的工具和平台。

显而易见，OpenUSD 在英伟达的元宇宙愿景中占有重要地位，为此，Omniverse 进行了多重更新。

一方面，黄仁勋推出了四个 Omniverse Cloud API，方便开发人员无缝地实施和部署 OpenUSD 应用。

最吸引人的是一个名为 ChatUSD 的功能，顾名思义，它能通过问答形式帮助开发者生成 3D 模型，现场演示的例子中，你提出要求，ChatUSD 可以直接给你提供 Python-USD 代码脚本——直接使用它们就可以了！

另外使用了生成式 AI 技术的 API 名为 DeepSearch，它是一个大语言代理（LLM agent），可以快速搜索无标记数据库的内容。

另一方面，Omniverse 本身进行了大更新以更好支持 OpenUSD，比如用少量的编码就能快速开发本机 OpenUSD 应用以及允许用户组建基于 OpenUSD 的大规模场景。

在英伟达看来，Omniverse 将因为 OpenUSD 而增强，它可以跨 3D 工具和应用进行对世界的虚拟，这意味着一种生态的搭建：既然大家都是用 OpenUSD 进行 3D 世界的建构，那么显然，数字孪生所需要的互联、互相操作可以以此为基础实现。

由此，英伟达的元宇宙生态——它被生成式 AI 和 OpenUSD 所加持——变得初具规模，Adobe Firefly 可以作为 Omniverse 中的 API 提供给开发者，而许多业界知名的元宇宙和虚拟人开发者，Convai、Inworld AI 和 Wonder Dynamics 都能够借助 OpenUSD 的通用标准与 Omniverse 实现连接。