老黃深夜炸場，AIGC進入iPhone時刻，神秘顯卡勝過A100

今天小編分享的科技經驗：老黃深夜炸場，AIGC進入iPhone時刻，神秘顯卡勝過A100，歡迎閱讀。

新智元報道

編輯：編輯部

【新智元導讀】昨天深夜，重返 SIGGRAPH 舞台的老黃，再次給全世界帶來了「億點點」震撼。

生成式 AI 的時代已經來臨，屬于它的 iPhone 時刻到了！

就在 8 月 8 日，英偉達 CEO 黃仁勳，再次登上了世界頂級計算機圖形學會議 SIGGRAPH 的舞台。

一系列重磅更新接踵而至——下一代 GH200 超級芯片平台、AI Workbench、OpenUSD……

而英偉達也借此将過去數十年的所有創新，比如人工智能、虛拟世界、加速、模拟、協作等等，一舉融合到一起。

在這個 LLM 大爆炸的時代，老黃依然敢大膽放話：「買得越多，省得越多！」

英偉達最強 AI 超算再更新

在 5 年前的 SIGGRAPH 上，英偉達通過将人工智能和實時光線追蹤技術引入 GPU，重新定義了計算機圖形學。

老黃表示：「當我們通過 AI 重新定義計算機圖形學時，我們也在為 AI 重新定義 GPU。」

随之而來的，便是日益強大的計算系統。比如，集成了 8 個 GPU 并擁有 1 萬億個晶體管的 NVIDIA HGX H100。

就在今天，老黃再次讓 AI 計算上了一個台階——

除了為 NVIDIA GH200 Grace Hopper 配備更加先進的 HBM3e 内存外，下一代 GH200 超級芯片平台還将具有連接多個 GPU 的能力，從而實現卓越的性能和易于擴展的伺服器設計。

而這個擁有多種配置的全新平台，将能夠處理世界上最復雜的生成式工作負載，包括大語言模型、推薦系統和向量數據庫等等。

比如，雙核心方案就包括一台配備了 144 個 Arm Neoverse 核心并搭載了 282GB HBM3e 内存的伺服器，可以提供 8 petaflops 的 AI 算力。

其中，全新的 HBM3e 内存要比當前的 HBM3 快了 50%。而 10TB/sec 的組合帶寬，也使得新平台可以運行比上一版本大 3.5 倍的模型，同時通過 3 倍更快的内存帶寬提高性能。

據悉，該產品預計将在 2024 年第二季度推出。

RTX 工作站：絕佳刀法，4 款顯卡齊上新

這次老黃的桌面 AI 工作站 GPU 系列也全面上新，一口氣推出了 4 款新品：RTX 6000、RTX 5000、RTX 4500 和 RTX 4000。

如果 H100 以及配套的產品線展示的是英偉達 GPU 性能的天際線的話，針對桌面和數據中心推出的這幾款產品，則是老黃對成本敏感客戶秀出的絕佳「刀法」。

在發布這新 GPU 的時候，現場還出現了一個意外的小花絮。

老黃從後台拿出第一塊 GPU 的時候，似乎不小心在鏡面面板上沾了指紋。

老黃發現後覺得可能是自己搞砸了，就很不好意思地和現場觀眾說對不起，表示這次產品發布可能是有史以來最差的一次。

看來就算開發布會熟練如老黃，也會有翻車的時刻。

而如此可愛的老黃，也惹得在場觀眾不斷發笑。

言歸正傳，作為旗艦級專業卡，RTX 6000 的性能參數毫無疑問是 4 款新品中最強的。

憑借着 48GB 的顯存，18176 個 CUDA 核心，568 個 Tensor 核心，142 個 RT 核心，和高達 960GB/s 的帶寬，它可謂是一騎絕塵。

RTX 5000 配備了 32GB 顯存，12800 個 CUDA 核心，400 個 Tensor 核心，100 個 RT 核心。

RTX 4500 配備了 24GB 顯存，7680 個 CUDA 核心，240 個 Tensor 核心，60 個 RT 核心。

RTX 4000 配備了 20GB 顯存，6144 個 CUDA 核心，192 個 Tensor 核心，48 個 RT 核心。

基于新發布的 4 張新的 GPU，針對企業客戶，老黃還準備一套一站式解決方案—— RTX Workstation。

支持最多 4 張 RTX 6000 GPU，可以在 15 小時内完成 8.6 億 token 的 GPT3-40B 的微調。

還能讓 Stable Diffusion XL 每分鍾生成 40 張圖片，比 4090 快 5 倍。

OVX 伺服器：搭載 L40S，性能小勝 A100

而專為搭建數據中心而設計的 NVIDIA L40S GPU，性能就更加爆炸了。

基于 Ada Lovelace 架構的 L40S，配備有 48GB 的 GDDR6 顯存和 846GB/s 的帶寬。

在第四代 Tensor 核心和 FP8 Transformer 引擎的加持下，可以提供超過 1.45 petaflops 的張量處理能力。

對于算力要求較高的任務，L40S 的 18,176 個 CUDA 核心可以提供近 5 倍于 A100 的單精度浮點（FP32）性能，從而加速復雜計算和數據密集型分析。

此外，為了支持如實時渲染、產品設計和 3D 内容創建等專業視覺處理工作，英偉達還為 L40S 還配備了 142 個第三代 RT 核心，可以提供 212 teraflops 的光線追蹤性能。

對于具有數十億參數和多種模态的生成式 AI 工作負載，L40S 相較于老前輩 A100 可實現高達 1.2 倍的推理性能提升，以及高達 1.7 倍的訓練性能提升。

在 L40S GPU 的加持下，老黃又針對數據中心市場，推出了最多可搭載 8 張 L40S 的 OVX 伺服器。

對于擁有 8.6 億 token 的 GPT3-40B 模型，OVX 伺服器只需 7 個小時就能完成微調。

對于 Stable Diffusion XL 模型，則可實現每分鍾 80 張的影像生成。

AI Workbench：加速定制生成式 AI 應用

除了各種強大的硬體之外，老黃還重磅發布了全新的 NVIDIA AI Workbench，來幫助開發和部署生成式 AI 模型。

概括來說，AI Workbench 為開發者提供了一個統一且易于使用的工具包，能夠快速在 PC 或工作站上創建、測試和微調模型，并無縫擴展到幾乎任何數據中心、公有雲或 NVIDIA DGX Cloud 上。

具體而言，AI Workbench 的優勢如下：

-易于使用

AI Workbench 通過提供一個單一的平台來管理數據、模型和計算資源，簡化了開發過程，支持跨機器和環境的協作。

- 集成 AI 開發工具和存儲庫

AI Workbench 與 GitHub、NVIDIA NGC、Hugging Face 等服務集成，開發者可以使用 JupyterLab 和 VS Code 等工具，并在不同平台和基礎設施上進行開發。

- 增強協作

AI Workbench 采用的是以項目為中心的架構，便于開發者進行自動化版本控制、容器管理和處理機密信息等復雜任務，同時也可以支持團隊之間的協作。

- 訪問加速計算資源

AI Workbench 部署采用客戶端 - 伺服器模式。團隊可以現在在本地計算資源上進行開發，然後在訓練任務變得更大時切換到數據中心或雲資源上。

Stable Diffusion XL 自定義影像生成

首先，打開 AI Workbench 并克隆一個存儲庫。

接下來，在 Jupyter Notebook 中，從 Hugging Face 加載預訓練的 Stable Diffusion XL 模型，并要求它生成一個「太空中的 Toy Jensen」。

然而，根據輸出的影像可以看出，模型并不知道 Toy Jensen 是誰。

這時就可以通過 DreamBooth，并使用 8 張 Toy Jensen 的圖片對模型進行微調。

最後，在用戶界面上重新運行推理。

現在，知道了 Toy Jensen 是誰的模型，就可以生成切合需求的影像了。

Hugging Face 一鍵訪問最強算力

作為最受 AI 開發者喜愛的平台之一，擁有 200 萬用戶、超 25 萬個模型，以及 5 萬個數據集的 Hugging Face，這次也與英偉達成功達成了合作。

現在，開發者可以通過 Hugging Face 平台直接獲得英偉達 DGX Cloud AI 超算的加持，從而更加高效地完成 AI 模型的訓練和微調。

其中，每個 DGX Cloud 實例都配備有 8 個 H100 或 A100 80GB GPU，每個節點共有 640GB 顯存，可滿足頂級 AI 工作負載的性能要求。

此外，英偉達還将聯合 Hugging Face 推出全新的「Training Cluster as a Service」服務，簡化企業創建和定制生成式 AI 模型的過程。

對此，老黃激動得表示：「這次，Hugging Face 和英偉達将世界上最大的 AI 社區與全球領先的雲 AI 計算平台真正地連接在了一起。Hugging Face 的用戶只需點擊一下，即可訪問英偉達的最強 AI 算力。」

AI Enterprise 4.0：定制企業級生成式 AI

為了進一步加速生成式 AI 的應用，英偉達也将其企業級平台 NVIDIA AI Enterprise 更新到了 4.0 版本。

目前，AI Enterprise 4.0 不僅可以為企業提供生成式 AI 所需的工具，同時還提供了生產部署所需的安全性和 API 穩定性。

- NVIDIA NeMo

一個用于構建、定制和部署大語言模型的雲原生框架。借助 NeMo，英偉達 AI Enterprise 可以為創建和定制大語言模型應用提供了端到端的支持。

- NVIDIA Triton 管理服務

幫助企業進行自動化和優化生產部署，使其在 Kubernetes 中能夠自動部署多個推理伺服器實例，并通過模型協調實現可擴展 A 的高效運行。

- NVIDIA Base Command Manager Essentials 集群管理軟體

幫助企業在數據中心、多雲和混合雲環境中最大化 AI 伺服器的性能和利用率。

除了英偉達自己，AI Enterprise 4.0 還将集成到給其他的合作夥伴，比如 Google Cloud 和 Microsoft Azure 等。

此外，MLOps 提供商，包括 Azure Machine Learning、ClearML、Domino Data Lab、Run:AI 和 Weights & Biases，也将與英偉達 AI 平台進行無縫集成，從而簡化生成式 AI 模型的開發。

Omniverse：在元宇宙中加入大語言模型

最後，是 NVIDIA Omniverse 平台的更新。

在接入了 OpenUSD 和 AIGC 工具之後，開發者可以更加輕松地生成模拟真實世界的 3D 場景和圖形。

就像它的名字一樣，Omniverse 的定位是一個集合了各種工具的 3D 圖形制作協作平台。

3D 開發者可以像文字編輯們在飛書或者釘釘中一樣，在 Omniverse 上共同制作 3D 圖形和場景。

而且可以将不同的 3D 制作工具制作出來的成果直接整合在 Omniverse 之内，将 3D 圖形和場景的制作工作流徹底打通，化繁為簡。

OpenUSD

而這次更新中，接入的 OpenUSD 是什麼東西？

OpenUSD（Universal Scene Description）提供了一個開源，通用的場景描述格式，使不同品牌、不同類型的 3D 設計軟體可以無障礙的協作。

Omnivers 本身就是建立在 USD 體系之上的，這次 Omniverse 針對 OpenUSD 的更新，使得 Omniverse 能為開發者，企業推出了更多的框架和資源服務。

基于 OpenUSD 這個開源的 3D 影像編輯格式，5 家公司（蘋果，皮克斯，Adobe，Autodesk，英偉達）成立了 AOUSD 聯盟，進一步推動了 3D 影像業界采用 OpenUSD 格式。

而且，借助 AOUSD 聯盟的成立，Omniverse 的開發者也可以方便的創建各種兼容于蘋果的 ARKit 或者是 RealityKit 的素材和内容，更新後 Omniverse 也支持 OpenXR 的标準，使得 Omniverse 能夠支持 HTC VIVE，Magic Leap，Vajio 等 VR 頭顯設備。

API，ChatUSD 和其他更新

此外，英偉達還發布了新的 Omniverse Cloud API，讓開發者可以更加無縫地部署 OpenUSD 管線和應用程式。

而最引人矚目的，就是支持基于大語言模型的 ChatUSD 的支持。

基于大語言模型技術的 ChatUSD 能像 Github Copilot 一樣，在 Omniverse 平台中回答開發者的相關問題，或者自動生成 Python-USD 的代碼，讓開發人員效率暴增。

總而言之，英偉達再次用暴力的產品，令人驚嘆的技術，高瞻遠矚的洞見，讓全世界再次看到，它未來将如何引領世界 AI 和圖形計算的新浪潮。

在老黃的經典名言「the more you buy，the more you save！」中，老黃緩緩走下舞台，卻把現場氣氛推向了最高潮。

參考資料：

https://www.nvidia.cn/events/siggraph/