英伟达年终核弹！全新B3004为o1推理大模型打造，RTX5090也曝光了 - 大酷樂

今天小编分享的科学经验：英伟达年终核弹！全新B3004为o1推理大模型打造，RTX5090也曝光了，欢迎阅读。

英伟达老黄，成了今年的圣诞老黄。

AI 芯片大礼包刚刚曝光：

GPU 新核弹B300，以及附带 CPU 的超级芯片GB300。

高算力，在产品层面上相比 B200 在 FLOPS 上提高 50%

大显存，从 192GB 提升到 288GB，也是提高了 50%。

△Grok AI 绘图

包含 72 块 GB300 的 " 新一代计算单元"GB300 NVL72，更是被评价为 " 能让 OpenAI o1/o3 推理大模型的思维链长度，在高 batch size 下达到 10 万 tokens 的唯一方案 "。‍

这与今年 3 月份 "AI 春晚 " 发布的 B200 系列只隔了几个月。

根据 SemiAnalysis 爆料，从第三季度开始，许多 AI 巨头已经将订单从 B200 转移到了 B300（只有微软还在第四季度继续购买了部分 B200）。

有不少网友感叹，更新速度实在太快了！

既是解决了此前传闻中 B200 因设计缺陷被迫推迟的问题，又是对隔壁 AMD MI300 系列后续产品将在 2025 年提升显存容量的回应。

又一款 AI 核弹

既然都是 Blackwell 架构没有跨代，B300 的算力提高来自哪里呢？

根据这次爆料，主要有三部分：

工艺节点，与 B200 使用同样的台积电 4NP，但是全新流片

增加功率，GB300 和 B300 HGX 的 TDP 分别达到 1.4KW、1.2KW，相比之下 B200 系列分别提高 0.2KW

架构微创新，例如在 CPU 和 GPU 之间动态分配功率

除了更高 FLOPS 之外，B300 系列的显存也做了更新：

从 8 层堆叠的HBM3E更新到 12 层（12-Hi HBM3E）

显存容量从 192GB 更新到 288GB

显存带宽保持不变，仍为 8TB/s

此外产品交付层面还有一个大变化：

GB200 系列提供整个Bianca Board，也就包括两颗 GPU、一颗 CPU、CPU 的内存等所有组件都集成在一块 PCB 版上。

△GB200 概念图

GB300 系列将只提供参考板（Reference Board），包括两颗 B300 GPU、一颗 Grace CPU、HMC（Hybrid Memory Cube），LPCAMM 内存模块等组件将由客户自行采购。

这给供应链上的 OEM 和 ODM 制造商带来了新的机会。

为推理大模型打造

显存的更新对 OpenAI o1/o3 一类的推理大模型至关重要，因为推理思维链长度会增加 KVCache，影响 batch size 和延迟。

以一个 GB300 NVL72" 计算单元 " 为部門考虑时，它使 72 个 GPU 能够以极低的延迟处理相同的问题，并共享显存。

在此基础上从 GB200 更新到 GB300，还可以带来许多好处：

每个思维链的延迟更低

实现更长的思维链

降低推理成本

处理同一问题时，可以搜索更多样本，最终提高模型能力

为了解释这些提升，SemiAnalysis 举了个更为直观的例子。

下图是在不同批处理大小下，使用 H100 和 H200 两种 GPU 处理长序列时，Llama 3.1 405B 在 FP8 精度下的处理速度。

输入設定为 1000 个 token、输出 19000 个 token，由此模拟 OpenAI o1 和 o3 模型中的思维链。

从 H100 更新到 H200，有两个显著改进。

一是在所有可比较的 batch size 中，H200 的内存带宽更大（H200 4.8TB/s，H100 3.35TB/s），从而使得处理效率普遍提高了 43%。

二是 H200 可运行更高的 batch size，这使得其每秒可以生成的 token 数量增加了 3 倍，相应地，成本也减少了约 3 倍。

内存增加所带来的效益远不止表面上的这些。

众所周知，推理模型响应时间一般更长，显著缩短推理时间可以提高用户体验和使用频率。

而且内存更新实现 3 倍性能提升，成本减少 3 倍，这一提升速度也远超摩尔定律。

除此之外，SemiAnalysis 还分析观察到，能力更强和具有明显差异化的模型能收取更高的溢价——

前沿模型毛利率超 70%，而还在与开源模型竞争的次一级模型毛利率不足 20%。

当然，英伟达并不是唯一一家能增加内存的芯片公司，但奈何英伟达还有杀手锏NVLink。

One More Thing

英伟达消费级显卡方面，RTX5090 的 PCB 板也首次曝光了～

就在昨天，一张 RTX 5090 PCB 照片在网上疯转。

特点就是超超超大号。

结合此前爆料称 5090 有可能会配备32GB 大显存，有望支持 8K 超高清游戏，实现 60fps 的流畅游戏体验。

网友们直接坐不住。

关于 5090 的发布时间，大伙儿猜测大概会是 1 月 6 日老黄 CES 演讲的时候。

参考链接：

[ 1 ] https://semianalysis.com/2024/12/25/nvidias-christmas-present-gb300-b300-reasoning-inference-amazon-memory-supply-chain/

[ 2 ] https://x.com/mark_k/status/1871864813913330003

[ 3 ] https://www.gamesradar.com/platforms/pc-gaming/rtx-5090-will-seemingly-come-armed-with-32gb-vram-and-id-be-surprised-if-8k-gaming-isnt-a-thing-this-generation/

— 完 —

点这里关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

>