GPU大缺貨，背後的真正原因！

今天小編分享的科技經驗：GPU大缺貨，背後的真正原因！，歡迎閲讀。

生成式人工智能即将到來，它将改變世界。自從 ChatGPT 席卷全球并激發了我們對人工智能可能性的想象力以來，我們看到各種各樣的公司都在争先恐後地訓練人工智能模型并将生成式人工智能部署到内部工作流程或面向客户的應用程式中。不僅僅是大型科技公司和初創公司，許多财富 500 強非科技公司也在研究如何部署基于 LLM 的解決方案。

當然，這需要大量的 GPU 計算。GPU 的銷量像火箭一樣猛增，而供應鏈卻難以滿足對 GPU 的需求。公司正在争先恐後地獲得 GPU 或雲實例。

即使 OpenAI 也無法獲得足夠的 GPU，這嚴重阻礙了其近期路線圖。由于 GPU 短缺，OpenAI 無法部署其多模态模型。由于 GPU 短缺，OpenAI 無法部署更長的序列長度模型（8k 與 32k）。

與此同時，中國公司不僅投資部署自己的 LLM，還在美國出口管制進一步收緊之前進行儲備。例如，據新聞報道，中國公司字節跳動據稱從 Nvidia 訂購了價值超過 10 億美元的 A800/H800。

雖然數十萬個專門用于人工智能的 GPU 有許多合法的用例，但也有很多情況是人們急于購買 GPU 來嘗試構建他們不确定是否有合法市場的東西。在某些情況下，大型科技公司正試圖趕上 OpenAI 和谷歌，以免落後。對于沒有經過驗證的商業用例的初創公司來説，有大量的風險投資資金。我們知道有十幾家企業正在嘗試利用自己的數據訓練自己的 LLM。最後，這也适用于沙特阿拉伯和阿聯酋今年也試圖購買數億美元的 GPU 的國家。

盡管 Nvidia 試圖大幅提高產量，但最高端的 Nvidia GPU H100 直到明年第一季度仍将售空。Nvidia 每季度将增加 400,000 個 H100 GPU 的出貨量。

Nvidia 的 H100 采用 CoWoS-S 上的 7-die 封裝。中間是 H100 GPU ASIC，其芯片尺寸為 814mm2 ，周圍是 6 個内存堆棧 HBM。不同 SKU 之間的 HBM 配置有所不同，但 H100 SXM 版本使用 HBM3，每個堆棧為 16GB，總内存為 80GB。H100 NVL 将具有兩個封裝，每個封裝上有 6 個活躍的 HBM 堆棧。

在只有 5 個激活 HBM 的情況下，非 HBM 芯片可以使用虛拟硅，為芯片提供結構支撐。這些芯片位于硅中介層的頂部，該硅中介層在圖片中不清晰可見。該硅中介層位于封裝基板上，該封裝基板是 ABF 封裝基板。

GPU Die 和 TSMC 晶圓廠

Nvidia GPU 的主要數字處理組件是處理器芯片本身，它是在稱為 "4N" 的定制台積電工藝節點上制造的。它是在台積電位于台灣台南的 Fab 18 工廠制造的，與台積電 N5 和 N4 工藝節點共享相同的設施，但這不是生產的限制因素。

由于 PC、智能手機和非 AI 相關數據中心芯片的嚴重疲軟，台積電 N5 工藝節點的利用率降至 70% 以下。英偉達在确保額外的晶圓供應方面沒有遇到任何問題。

事實上，Nvidia 已經訂購了大量用于 H100 GPU 和 NVSwitch 的晶圓，這些晶圓立即開始生產，遠遠早于運送芯片所需的晶圓。這些晶圓将存放在台積電的芯片組中，直到下遊供應鏈有足夠的產能将這些晶圓封裝成完整的芯片。

基本上，英偉達正在吸收台積電的部分低利用率，并獲得一些定價優勢，因為英偉達已承諾進一步購買成品。

Wafer bank，也被稱為 die bank，是半導體行業的一種做法，其中存儲部分處理或完成的晶圓，直到客户需要它們為止。與其他一些代工廠不同的是，台積電将通過将這些晶圓保留在自己的賬簿上幾乎完全加工來幫助他們的客户。這種做法使台積電及其客户能夠保持财務靈活性。由于僅進行了部分加工，因此晶圓庫中保存的晶圓不被視為成品，而是被歸類為 WIP。只有當這些晶圓全部完成後，台積電才能确認收入并将這些晶圓的所有權轉讓給客户。

這有助于客户修飾他們的資產負債表，使庫存水平看起來處于控制之中。對于台積電來説，好處是可以幫助保持更高的利用率，從而支撐利潤率。然後，随着客户需要更多的庫存，這些晶圓可以通過幾個最終加工步驟完全完成，然後以正常銷售價格甚至稍有折扣的價格交付給客户。

HBM 在數據中心的出現：

AMD 的創新如何幫助 Nvidia

GPU 周圍的高帶寬内存是下一個主要組件。HBM 供應也有限，但正在增加。HBM 是垂直堆疊的 DRAM 芯片，通過硅通孔 ( TSV ) 連接并使用 TCB 進行鍵合（未來更高的堆疊數量将需要混合鍵合）。DRAM 裸片下方有一顆充當控制器的基本邏輯裸片。

通常，現代 HBM 具有 8 層内存和 1 個基本邏輯芯片，但我們很快就會看到具有 12+1 層 HBM 的產品，例如 AMD 的 MI300X 和 Nvidia 即将推出的 H100 更新。

有趣的是，盡管 Nvidia 和 Google 是當今使用量最大的用户，但 AMD 率先推出了 HBM。2008 年，AMD 預測，為了匹配遊戲 GPU 性能而不斷擴展内存帶寬将需要越來越多的功率，而這些功率需要從 GPU 邏輯中轉移出來，從而降低 GPU 性能。AMD 與 SK Hynix 以及供應鏈中的其他公司（例如 Amkor）合作，尋找一種能夠以更低功耗提供高帶寬的内存解決方案。這驅使 SK 海力士于 2013 年開發了 HBM。

SK Hynix 于 2015 年首次為 AMD Fiji 系列遊戲 GPU 提供 HBM，該 GPU 由 Amkor 進行 2.5D 封裝。随後，他們在 2017 年推出了使用 HBM2 的 Vega 系列。然而，HBM 并沒有對遊戲 GPU 性能產生太大的改變。由于沒有明顯的性能優勢以及更高的成本，AMD 在 Vega 之後重新在其遊戲卡中使用 GDDR。如今，Nvidia 和 AMD 的頂級遊戲 GPU 仍在使用更便宜的 GDDR6。

然而，AMD 的最初預測在某種程度上是正确的：擴展内存帶寬已被證明是 GPU 的一個問題，只是這主要是數據中心 GPU 的問題。對于消費級遊戲 GPU，Nvidia 和 AMD 已轉向使用大型緩存作為幀緩衝區（large caches for the frame buffer），使它們能夠使用帶寬低得多的 GDDR 内存。

正如我們過去所詳述的，推理和訓練工作負載是内存密集型的。随着人工智能模型中參數數量的指數級增長，僅權重的模型大小就已達到 TB 級。因此，人工智能加速器的性能受到從内存中存儲和檢索訓練和推理數據的能力的瓶頸：這個問題通常被稱為 " 内存牆 "。

為了解決這個問題，領先的數據中心 GPU 與高帶寬内存 ( HBM ) 共同封裝。Nvidia 于 2016 年發布了首款 HBM GPU P100。HBM 通過在傳統 DDR 内存和片上緩存之間找到中間立場，以容量換取帶寬來解決内存牆問題。通過大幅增加引腳數以達到每個 HBM 堆棧 1024 位寬的内存總線，可以實現更高的帶寬，這是每個 DIMM 64 位寬的 DDR5 的 18 倍。同時，通過大幅降低每比特傳輸能量 ( pJ/bit ) 來控制功耗。這是通過更短的走線長度來實現的，HBM 的走線長度以毫米為部門，而 GDDR 和 DDR 的走線長度以厘米為部門。

如今，許多面向 HPC 的芯片公司正在享受 AMD 努力的成果。具有諷刺意味的是，AMD 的競争對手 Nvidia 作為 HBM 用量最大的用户，或許會受益最多。

HBM 市場：SK 海力士占據主導地位

作為 HBM 的先驅，SK 海力士是擁有最先進技術路線的領導者。SK 海力士于 2022 年 6 月開始生產 HBM3，是目前唯一一家批量出貨 HBM3 的供應商，擁有超過 95% 的市場份額，這是大多數 H100 SKU 所使用的。HBM 現在的最大配置為 8 層 16GB HBM3 模塊。SK Hynix 正在為 AMD MI300X 和 Nvidia H100 刷新生產數據速率為 5.6 GT/s 的 12 層 24GB HBM3。

HBM 的主要挑戰是存儲器的封裝和堆疊，這是 SK 海力士所擅長的，他們過去在這方面積累了最強大的工藝流程知識。

三星緊随 Hynix 之後，預計将在 2023 年下半年發貨 HBM3。我們相信它們是為 Nvidia 和 AMD GPU 設計的。他們目前在銷量上與 SK 海力士存在很大差距，但他們正在緊鑼密鼓地前進，并正在大力投資以追趕市場份額。三星正在投資以追趕并成為 HBM 市場份額第一，就像他們在标準内存方面一樣。我們聽説他們正在與一些加速器公司達成優惠協定，以試圖獲得更多份額。

他們展示了 12 層 HBM 以及未來的混合鍵合 HBM。三星 HBM-4 路線圖的一個有趣的方面是，他們希望在内部 FinFET 節點上制作邏輯 / 周邊設備。這顯示了他們擁有内部邏輯和 DRAM 代工廠的潛在優勢。

美光科技在 HBM 方面排名墊底。

他們在混合存儲立方體 ( HMC ) 技術上投入了更多資金。這是與 HBM 競争的技術，其概念非常相似，大約在同一時間開發。然而，HMC 周圍的生态系統是封閉的，導致圍繞 HMC 的 IP 很難開發。此外，還存在一些技術缺陷。HBM 的采用率要高得多，因此 HBM 勝出，成為 3D 堆疊 DRAM 的行業标準。

直到 2018 年，美光才開始從 HMC 轉向 HBM 路線圖。這就是美光科技落在最後面的原因。他們仍然停留在 HBM2E（SK 海力士在 2020 年中期開始量產）上，他們甚至無法成功制造 HBM2E。

在最近的财報電話會議中，美光對其 HBM 路線圖做出了一些大膽的聲明：他們相信，他們将在 2024 年憑借 HBM3E 從落後者變為領先者。HBM3E 預計将在第三季度 / 第四季度開始為 Nvidia 的下一代 GPU 發貨。

" 我們的 HBM3 斜坡實際上是下一代 HBM3，與當今業界生產的 HBM3 相比，它具有更高水平的性能、帶寬和更低的功耗。該產品，即我們行業領先的產品，将從 2024 年第一季度開始銷量大幅增加，并對 24 财年的收入產生重大影響，并在 2025 年大幅增加，即使是在 2024 年的水平基礎上。我們的目标也是在 HBM 中獲得非常強勁的份額，高于行業中 DRAM 的非自然供應份額。" 美光首席商務官 Sumit Sadana 説。

他們希望在 HBM 中擁有比一般 DRAM 市場份額更高的市場份額的聲明非常大膽。鑑于他們仍在努力大批量生產頂級 HBM2E，我們很難相信美光聲稱他們将在 2024 年初推出領先的 HBM3，甚至成為第一個 HBM3E。在我們看來，盡管 Nvidia GPU 伺服器的内存容量比英特爾 /AMD CPU 伺服器要低得多，但美光科技似乎正在試圖改變人們對人工智能失敗者的看法。

我們所有的渠道檢查都發現 SK 海力士在新一代技術方面保持最強，而三星則非常努力地通過大幅供應增加、大膽的路線圖和削減交易來追趕。

真正的瓶頸 - CoWoS

下一個瓶頸是 CoWoS 產能。CoWoS（Chip on Wafer on Substrate）是台積電的一種 "2.5D" 封裝技術，其中多個有源硅芯片（active silicon）（通常的配置是邏輯和 HBM 堆棧）集成在無源硅中介層上。中介層充當頂部有源芯片的通信層。然後将中介層和有源硅連接到包含要放置在系統 PCB 上的 I/O 的封裝基板。

HBM 和 CoWoS 是互補的。HBM 的高焊盤數（high pad count）和短走線長度要求需要 CoWoS 等 2.5D 先進封裝技術來實現 PCB 甚至封裝基板上無法實現的密集、短連接。CoWoS 是主流封裝技術，能夠以合理的成本提供最高的互連密度和最大的封裝尺寸。由于目前幾乎所有 HBM 系統都封裝在 CoWoS 上，并且所有高級 AI 加速器都使用 HBM，因此，幾乎所有領先的數據中心 GPU 都由台積電在 CoWoS 上封裝。百度确實有一些先進的加速器，三星的版本也有。

雖然台積電 ( TSMC ) 的 SoIC 等 3D 封裝技術可以将芯片直接堆疊在邏輯之上，但由于散熱和成本的原因，這對于 HBM 來説沒有意義。SoIC 在互連密度方面處于不同的數量級，并且更适合通過芯片堆疊擴展片上緩存，如 AMD 的 3D V-Cache 解決方案所示。AMD 的 Xilinx 也是多年前 CoWoS 的第一批用户，用于将多個 FPGA 小芯片組合在一起。

雖然還有一些其他應用使用 CoWoS，例如網絡（其中一些用于網絡 GPU 集群，如 Broadcom 的 Jericho3-AI ）、超級計算和 FPGA，但絕大多數 CoWoS 需求來自人工智能。與半導體供應鏈的其他部分不同，其他主要終端市場的疲軟意味着有足夠的閒置空間來吸收 GPU 需求的巨大增長，CoWoS 和 HBM 已經是大多數面向人工智能的技術，因此所有閒置產能已在第一季度被吸收。随着 GPU 需求的爆炸式增長，供應鏈中的這些部分無法跟上并成為 GPU 供應的瓶頸。

" 就在最近這兩天，我接到一個客户的電話，要求大幅增加後端容量，特别是在 CoWoS 中。我們仍在評估這一點。" 台積電首席執行官 C.C Wei 早起那説。

台積電一直在為更多的封裝需求做好準備，但可能沒想到這一波生成式人工智能需求來得如此之快。6 月，台積電宣布在竹南開設先進後端 Fab 6。該晶圓廠占地 14.3 公頃，足以容納每年 100 萬片晶圓的 3D Fabric 產能。這不僅包括 CoWoS，還包括 SoIC 和 InFO 技術。有趣的是，該工廠比台積電其他封裝工廠的總和還要大。雖然這只是潔淨室空間，遠未配備齊全的工具來實際提供如此大的容量，但很明顯，台積電正在做好準備，預計對其先進封裝解決方案的需求會增加。

稍微有幫助的是晶圓級扇出封裝產能（主要用于智能手機 SoC）的閒置，其中一些產能可以在某些 CoWoS 工藝步驟中重新利用。特别是，存在一些重疊的工藝，例如沉積、電鍍、背面研磨、成型、放置和 RDL 形成，這将趨勢設備供應鏈發生了有意義的轉變。

雖然市場上還有來自英特爾、三星和 OSAT （例如 ASE 的 FOEB）提供的其他 2.5D 封裝技術，但 CoWoS 是唯一一種大批量使用的技術，因為台積電是迄今為止最主要的 AI 加速器代工廠。甚至 Intel Habana 的加速器也是由台積電制造和封裝的。然而，一些客户正在尋找台積電的替代品。

CoWoS 擁有幾種變體，但原始 CoWoS-S 仍然是大批量生產中的唯一配置。這是如上所述的經典配置：邏輯芯片 + HBM 芯片通過帶有 TSV 的硅基中介層連接。然後将中介層放置在有機封裝基板上。

硅中介層的一項支持技術是一種稱為 "reticle stitching" 的技術。由于光刻工具 slit/scan 最大尺寸芯片的最大尺寸通常為 26mm x 33mm 。随着 GPU 芯片本身接近這一極限，并且還需要在其周圍安裝 HBM，中介層需要很大，并且将遠遠超出這一标線極限。TSMC 通過 reticle stitching 解決了這個問題，這使得他們能夠将中介層圖案化為标線限制的數倍（截至目前，AMD MI300 最高可達 3.5 倍）。

CoWoS-R 在具有重新分布層 ( RDL ) 的有機基板上使用，而不是硅中介層。這是一種成本較低的變體，由于使用有機 RDL 而不是硅基中介層，因此犧牲了 I/O 密度。正如我們所詳述的，, AMD 的 MI300 最初是在 CoWoS-R 上設計的，但我們認為，由于翹曲和熱穩定性問題，AMD 必須改用 CoWoS-S。

CoWoS-L 預計将在今年晚些時候推出，并采用 RDL 中介層，但包含嵌入中介層内部的用于芯片間互連的有源和 / 或無源硅橋。這是台積電相當于英特爾 EMIB 封裝技術。随着硅中介層變得越來越難以擴展，這将允許更大的封裝尺寸。MI300 CoWoS-S 可能接近單硅中介層的極限。

對于更大的設計來説，使用 CoWoS-L 會更加經濟。台積電正在開發 6x reticle 尺寸的 CoWoS-L 超級載具中介層。對于 CoWoS-S，他們沒有提到 4x reticle 之外的任何内容。這是因為硅中介層的脆弱性。這種硅中介層只有 100 微米厚，并且在工藝流程中随着中介層尺寸增大而存在分層或破裂的風險。