英偉達新“王炸”，未發先難產？

今天小編分享的科技經驗：英偉達新“王炸”，未發先難產？，歡迎閱讀。

出品 | 虎嗅科技組

作者 | 丸都山

編輯 | 苗正卿

頭圖 | 視覺中國

文章摘要

英偉達新芯片遇過熱問題，量產或推遲。

• B300/GB300 芯片功耗高達 1400W，散熱成挑戰

• AOS DrMos 方案成熟，問題或源于系統設計不足

• 大模型轉向推理，市場需求存變數

繼 B200/GB200 芯片交付推遲後，英偉達或又面臨新品難產的問題。

12 月 24 日，據 Wccftech 報道，英偉達最新旗艦芯片 B300/GB300 的參數已經确認。其中 B300 的顯存規格從上代產品的 192Gb 提升至 288Gb；GB300 平台将首次使用 LPCAMM 内存模塊設計，并配備帶寬提升至 1.6Tbps 的光模塊，以确保數據高速傳輸。

在性能大幅提升的同時，B300/GB300 的功耗也被拉到史無前例的高度，TDP（熱設計功耗）達到 1400W。作為對比，Hopper 架構的拳頭產品 H100 芯片，其 TDP 為 350W。

這對于伺服器的散熱設計來說，無疑是個巨大的挑戰。

而就在上周，天風國際分析師郭明錤在研報中表示，英偉達在為 B300/GB300 開發測試 DrMos 技術時，發現芯片存在嚴重的過熱問題，這可能會影響 B300/GB300 的量產進度。

盡管黃仁勳此前曾多次表示，英偉達未來将嚴格遵循 " 一年一換代 " 的原則，但旗下 GPU 在改用 Blackwell 架構後，不止一次出現 " 跳票 " 的情況。

Blackwell 架構，真有問題？

在郭明錤發布的研報中，指出了 B300/GB300 目前面臨的問題：由 AOS（Alpha & Omega Semiconductor）公司提供的 5*5 DrMos 方案在測試中過熱。

先來說說 DrMos 是什麼。

這是英特爾在 2004 年推出的技術，主要原理是将驅動器和 MOS 集成在一起，以減小多個元件的空間占用以及降低寄生參數帶來的負面影響，從而提升轉換效率和功率密度。

簡單地來說，它就是一個高度集成的電源解決方案。

消費級顯卡 RTX3060 上的 DrMos，由 AOS 供應

在英偉達 Hooper 架構芯片上，包括 H100/A100/H800/A800 在内，其 DrMos 方案全部由 MPS（Monolithic Power Systems）供應，可能是基于 " 不把雞蛋放在同一個籃子 " 的原則，在 Blackwell 架構芯片上，英偉達開始測試 AOS 的方案。

那是否能說明，AOS 應該為 B300 芯片的過熱問題 " 背鍋 " 呢？

恐怕并不能。

首先，AOS 的 5*5 DrMos 芯片是一款散熱能效高，且十抽成熟的方案設計，這在行業内已經得到廣泛驗證。

其次，郭明錤的财報中也提到了，有產業鏈人士指出，B300 的發熱問題除了 DrMos 芯片本身之外，還源于系統芯片管理的設計不足。

這已經不是 Blackwell 第一次被曝出存在設計問題。

今年 8 月，據《The Information》報道，B200 在台積電流片過程中，發現設計存在缺陷。

起初業内認為可能是台積電的 N4P 制程工藝存在問題，但在與高盛的投資人溝通會中，黃仁勳說出了問題所在：由于 GPU 芯片、LSI 橋、RDL 中介層和主機板基板之間的熱膨脹特性不匹配，導致封裝結構出現彎曲。

"100% 是英偉達的責任。"

在芯片設計被曝出缺陷後，B200/GB200 芯片的交付時間從今年 3 季度被推遲至 4 季度。而且從實際情況來看，現階段仍沒有公司拿到 B200 芯片，從公開資料中得知，馬斯克憑借 10.8 億美元的訂單，獲得了 B200 芯片的優先交付權，這些芯片将被用于增強 .xAI 的超級計算集群 Colossus。

而即便是獲得優先交付權 xAI，也得等到明年 1 月份才能收到 B200 芯片。

回到 B300 芯片上，這是一枚原定在明年 3 月 GTC 大會上發布的旗艦產品，現在卻面臨 " 未發布先難產 " 的問題。

完全壟斷 AI 伺服器芯片的英偉達，為什麼會在 Blackwell 上一再翻車。

一個很重要的原因是，英偉達過于追求芯片性能上斷代領先，從而導致 Blackwell 系列芯片作為量產型產品，幾乎變成一個實驗性平台。

比如 CoWoS-L 封裝技術的應用。

這裡需要說一個背景是，Blackwell 是一枚基于 MCM（多芯片封裝）設計的 GPU，即在同一個芯片上集成兩顆 GPU die。

為了配合英偉達的需求，台積電方面首次将 CoWoS-L 技術應用在這枚芯片的封裝上。而在此之前，CoWoS-L 封裝也沒有經過大規模驗證。

有業内人士指出，CoWoS-L 封裝現階段的良率可能在 90% 左右，作為一項後段工藝，這個數字很不理想。

需求是否過于樂觀？

在 Blackwell 架構芯片推出後，知名華爾街投行 Keybanc Capital Markets 曾發出了一份預測：

"Blackwell 芯片将推動英偉達數據中心業務的收入，從 2024 财年（截至 2024 年 1 月）的 475 億美元增長到 2025 年的 2000 多億美元。"

眾所周知，在大模型的訓練與部署中，英偉達的 GPU 居功至偉，但 BlackWell 架構芯片真的能憑一己之力帶動業績翻倍上漲嗎？

即便忽略掉 B200/B300 的延期交付問題，僅從市場需求來看，可能并不是特别的樂觀。

對于各大互聯網公司來說，一個首當其衝的問題是，如果大規模引入基于 Blackwell 芯片的伺服器，那麼算力中心的建設成本将會被大大提高。

因為 B200 芯片高達 1000W 的 TDP 實際上已超過了傳統風冷散熱的極限，許多伺服器廠商為了解決散熱問題，不得以堆砌 3D VC ( 真空腔均熱板 ) 的數量和面積，由此導致在 42U 的标準伺服器機櫃中，可容納的芯片越來越少。

而到了 B300 芯片上，風冷散熱方案無論如何修修補補都無法壓住 1400W 的功耗，必須全面改用液冷。

但對于已經搭建好計算中心的廠商而言，改用液冷會導致其成本驟增。比如在傳統伺服器機房中在搭建時都會對空調系統進行重點設計，一些大型計算中心的空調系統可以支持 0° 以下的送風。

如果改用液冷，則意味着在加入配套基礎設施的同時，過去花大價錢打造的空調系統淪為閒置。

世界人工智能大會上的液冷機房，圖片來源：視覺中國

另外就是伺服器本身的價格問題。現階段，一組基于 GB200 的 AI 伺服器根據帶寬配置的差異，定價約在 200-300 萬美元之間，而如果這些伺服器全部基于 GB300 改用液冷方案，價格甚至可能會翻倍。

還有一個很重要的問題是，市場對于最先進 GPU 的需求是否強烈？

就在 12 月 14 日的 NeurIPS 大會上，OpenAI 聯合創始人 Ilya Sutskever）表示，大模型預訓練即将結束，因為 AI 的化石燃料 " 數據 " 已經用盡了。

如果 Ilya 的判斷沒有問題，一個顯而易見的轉變将是大模型的研究重心将從訓練轉向推理，在這樣的背景下，雖然英偉達 Blackwell 系列芯片具備強大的 " 訓推一體 " 能力，但有多少廠商未來願意持續性地高成本投入，還有待觀察。