今天小編分享的科學經驗:英偉達年終核彈!全新B3004為o1推理大模型打造,RTX5090也曝光了,歡迎閲讀。
英偉達老黃,成了今年的聖誕老黃。
AI 芯片大禮包剛剛曝光:
GPU 新核彈B300,以及附帶 CPU 的超級芯片GB300。
高算力,在產品層面上相比 B200 在 FLOPS 上提高 50%
大顯存,從 192GB 提升到 288GB,也是提高了 50%。
△Grok AI 繪圖
包含 72 塊 GB300 的 " 新一代計算單元"GB300 NVL72,更是被評價為 " 能讓 OpenAI o1/o3 推理大模型的思維鏈長度,在高 batch size 下達到 10 萬 tokens 的唯一方案 "。
這與今年 3 月份 "AI 春晚 " 發布的 B200 系列只隔了幾個月。
根據 SemiAnalysis 爆料,從第三季度開始,許多 AI 巨頭已經将訂單從 B200 轉移到了 B300(只有微軟還在第四季度繼續購買了部分 B200)。
有不少網友感嘆,更新速度實在太快了!
既是解決了此前傳聞中 B200 因設計缺陷被迫推遲的問題,又是對隔壁 AMD MI300 系列後續產品将在 2025 年提升顯存容量的回應。
又一款 AI 核彈
既然都是 Blackwell 架構沒有跨代,B300 的算力提高來自哪裏呢?
根據這次爆料,主要有三部分:
工藝節點,與 B200 使用同樣的台積電 4NP,但是全新流片
增加功率,GB300 和 B300 HGX 的 TDP 分别達到 1.4KW、1.2KW,相比之下 B200 系列分别提高 0.2KW
架構微創新,例如在 CPU 和 GPU 之間動态分配功率
除了更高 FLOPS 之外,B300 系列的顯存也做了更新:
從 8 層堆疊的HBM3E更新到 12 層(12-Hi HBM3E)
顯存容量從 192GB 更新到 288GB
顯存帶寬保持不變,仍為 8TB/s
此外產品交付層面還有一個大變化:
GB200 系列提供整個Bianca Board,也就包括兩顆 GPU、一顆 CPU、CPU 的内存等所有組件都集成在一塊 PCB 版上。
△GB200 概念圖
GB300 系列将只提供參考板(Reference Board),包括兩顆 B300 GPU、一顆 Grace CPU、HMC(Hybrid Memory Cube),LPCAMM 内存模塊等組件将由客户自行采購。
這給供應鏈上的 OEM 和 ODM 制造商帶來了新的機會。
為推理大模型打造
顯存的更新對 OpenAI o1/o3 一類的推理大模型至關重要,因為推理思維鏈長度會增加 KVCache,影響 batch size 和延遲。
以一個 GB300 NVL72" 計算單元 " 為部門考慮時,它使 72 個 GPU 能夠以極低的延遲處理相同的問題,并共享顯存。
在此基礎上從 GB200 更新到 GB300,還可以帶來許多好處:
每個思維鏈的延遲更低
實現更長的思維鏈
降低推理成本
處理同一問題時,可以搜索更多樣本,最終提高模型能力
為了解釋這些提升,SemiAnalysis 舉了個更為直觀的例子。
下圖是在不同批處理大小下,使用 H100 和 H200 兩種 GPU 處理長序列時,Llama 3.1 405B 在 FP8 精度下的處理速度。
輸入設定為 1000 個 token、輸出 19000 個 token,由此模拟 OpenAI o1 和 o3 模型中的思維鏈。
從 H100 更新到 H200,有兩個顯著改進。
一是在所有可比較的 batch size 中,H200 的内存帶寬更大(H200 4.8TB/s,H100 3.35TB/s),從而使得處理效率普遍提高了 43%。
二是 H200 可運行更高的 batch size,這使得其每秒可以生成的 token 數量增加了 3 倍,相應地,成本也減少了約 3 倍。
内存增加所帶來的效益遠不止表面上的這些。
眾所周知,推理模型響應時間一般更長,顯著縮短推理時間可以提高用户體驗和使用頻率。
而且内存更新實現 3 倍性能提升,成本減少 3 倍,這一提升速度也遠超摩爾定律。
除此之外,SemiAnalysis 還分析觀察到,能力更強和具有明顯差異化的模型能收取更高的溢價——
前沿模型毛利率超 70%,而還在與開源模型競争的次一級模型毛利率不足 20%。
當然,英偉達并不是唯一一家能增加内存的芯片公司,但奈何英偉達還有殺手锏NVLink。
One More Thing
英偉達消費級顯卡方面,RTX5090 的 PCB 板也首次曝光了~
就在昨天,一張 RTX 5090 PCB 照片在網上瘋轉。
特點就是超超超大号。
結合此前爆料稱 5090 有可能會配備32GB 大顯存,有望支持 8K 超高清遊戲,實現 60fps 的流暢遊戲體驗。
網友們直接坐不住。
關于 5090 的發布時間,大夥兒猜測大概會是 1 月 6 日老黃 CES 演講的時候。
參考鏈接:
[ 1 ] https://semianalysis.com/2024/12/25/nvidias-christmas-present-gb300-b300-reasoning-inference-amazon-memory-supply-chain/
[ 2 ] https://x.com/mark_k/status/1871864813913330003
[ 3 ] https://www.gamesradar.com/platforms/pc-gaming/rtx-5090-will-seemingly-come-armed-with-32gb-vram-and-id-be-surprised-if-8k-gaming-isnt-a-thing-this-generation/
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>