今天小編分享的科技經驗:英偉達,被彎道超車?,歡迎閱讀。
搭積木一樣造芯片。
據不完全統計,目前半導體行業已開發出約 1000 種封裝類型,按互連類型來劃分,其中包括了引線鍵合、倒裝芯片、晶圓級封裝 ( WLP ) 和矽通孔 ( TSV ) 等,無數個 die 通過互聯器件相連接,構成了如今日漸繁盛的封裝市場。
其中的先進封裝,成為了近兩年最受關注和歡迎的領網域,先進制程進展越緩慢,它的重要性就愈發突出, AMD、英特爾和英偉達這傳統的 " 御三家 " 紛紛涉足,從 2D 封裝轉戰 2.5D 封裝,還向 3D 封裝這座高峰發起了挑戰。
2023 年 6 月,AMD 在舊金山正式推出了 MI300X 與 MI300A 兩款 AI 加速器, 其中 MI300X 采用了 8 XCD,4 個 IO die,8 個 HBM3 堆棧,高達 256MB 的 AMD Infinity Cache 和 3.5D 封裝的設計,支持 FP8 和稀疏性等新數學格式,是一款全部面向 AI 和 HPC 工作負載的設計,而它的晶體管也達到了 1530 億顆,成為了 AMD 迄今為止制造的最大芯片。
AMD 表示,MI300X 在人工智能推理工作負載中的性能比英偉達 H100 高出 1.6 倍,在訓練工作中的性能與 H100 相當,從而為業界提供了亟需的高性能替代品,以取代英偉達的 GPU。此外,這些加速器的 HBM3 内存容量也是英偉達 GPU 的兩倍多,達到驚人的 192 GB,使其 MI300X 平台能夠支持每個系統兩倍多的 LLM,并能運行比 H100 HGX 更大的模型。
最受矚目的當然還是 AMD 所宣稱的 3.5D 封裝,AMD 表示,通過引入 3D 混合鍵合和 2.5D 的矽中介層,實現了全新的 "3.5D 封裝 " 技術。
AMD 高級副總裁兼企業研究員 Sam Naffziger 表示:" 這是真正令人驚嘆的矽堆棧,提供了業界目前已知的最高密度性能。這一集成采用了台積電的兩種技術,即 SoIC(集成芯片系統)和 CoWoS(晶片基板芯片)。前者(SoIC)使用混合鍵合技術将較小的芯片堆疊在較大的芯片之上,無需焊料就能直接連接每個芯片上的銅墊,其幫助高速緩衝存儲 V-Cache 芯片堆疊在最高端的 CPU 芯片上,而後者(CoWos)将芯片堆疊在一塊更大的矽片上,這塊矽片被稱為内插板(interposer),用于容納高密度互連。"
當英偉達還在 H200 中使用台積電 CoWoS 的 2.5D 封裝時,AMD 卻率先一步,實現了台積電 SoIC 3D 封裝和 CoWoS 2.5D 封裝的結合,而它更早之前對 Chiplet 的布局,似乎早已為這次彎道超車做足了準備。
搭積木一樣造芯片
首先我們來回顧一下 MI300X 和 MI300A 的具體架構,根據 AMD 官方的解釋,MI300 系列采用了台積電的 3D 混合鍵合 SoIC(集成電路上矽)技術,在四個底層 I/O 芯片之上對各種計算元件進行 3D 堆疊,無論是 CPU CCD(核心計算芯片)還是 GPU XCD。每個 I/O 芯片可以容納兩個 XCD 或三個 CCD。每個 CCD 與現有 EPYC 芯片中使用的 CCD 相同,每個 CCD 擁有八個超線程 Zen 4 核心。MI300A 使用了其中的三個 CCD 和六個 XCD,而 MI300X 使用了八個 XCD。
所謂 XCD,是 AMD 在 GPU 中負責計算的 Chiplet,在 MI 300X 上,8 個 XCD 包含了 304 個 CDNA 3 計算單元,那就意味着每個計算單元包含了 34 個 CU。作為對比,AMD MI 250X 擁有 220 個 CU,這是一個較大的飛躍。
而 HBM 堆棧則采用了 2.5D 封裝技術的标準中介層進行連接,每個 I/O 芯片都包含一個 32 通道 HBM3 内存控制器,用于托管 8 個 HBM 堆棧中的兩個,從而為該設備提供了總共 128 個 16 位内存通道。MI300X 采用 12Hi HBM3 堆棧,容量為 192GB,而 MI300A 使用 8Hi 堆棧,容量為 128GB。
具體而言,AMD 的 CPU CCD 通過 3D 混合鍵合到底層 I/O 芯片,通過利用标準 2.5D 封裝的 GMI3 接口進行通信,AMD 為此添加了一個新的焊盤通孔接口,可繞過 GMI3 鏈路,從而提供垂直堆疊芯片所需的 TSV。
5nm XCD GPU 芯片标志着 AMD GPU 設計的全面芯片化,XCD 和 IOD 具有硬體輔助機制,可将作業分解為更小的部分、分派它們并保持它們同步,從而減少主機系統開銷,這些單元還具有硬體輔助的緩存一致性。
為了 MI300 系列封裝的這一小步,AMD 準備了多年的時間,最早的起源可以追溯到 1965 年,當時 AMD 工程師以 " 芯片組 " 概念為基礎,開發出一種将每個大芯片拆抽成小塊的設計。
在和英特爾的 CPU 競争中,推土機架構的失敗讓 AMD 的處境岌岌可危,它亟需一個低成本的解決方案來與英特爾更先進的架構競争,Zen 應運而生,新一代 Ryzen 處理器采用芯片組或 MCM(多芯片模塊)架構,标志着整個 PC 和芯片制造行業的徹底轉變。
Zen 初代架構相對簡單,采用了 SoC 設計,從内核到 I/O 和控制器的所有内容都位于同一芯片上,同時引入了 CCX 概念,其中 CPU 核心被分為四核單元,并使用無限高速緩存進行組合,由兩個四核 CCX 組成一塊芯片,不過消費級仍然是單芯片的設計。
而 Zen+ 的情況基本上保持不變(采用了更先進節點),但 Zen 2 是一個重大更新,這是第一個基于 Chiplet 的消費類 CPU 設計,具有兩個計算芯片或 CCD 加一個 I/O 芯片。AMD 在 Ryzen 9 上添加了第二個 CCD,其核心數量在消費者領網域前所未見。
Zen 3 進一步完善了 Chiplet 設計,取消了 CCX 并将八個核心和 32MB 緩存合并到一個統一的 CCD 中,這大大減少了緩存延遲并簡化了内存子系統,AMD 銳龍處理器首次提供了比對手英特爾更好的遊戲性能。Zen 4 除了縮小 CCD 設計外,沒有對 CCD 設計做出顯着改變。
而 EPYC 系列中,第一代 AMD EPYC 處理器中基于四個復制的小芯片。每個處理器都有 8 個 "Zen"CPU 内核、2 個 DDR4 内存通道和 32 個 PCIe 通道,以滿足性能目标,AMD 必須為四個小芯片之間的 Infinity Fabric 互連提供一些額外的空間。
第二代 EPYC 的第一個 Chiplet 稱為 I/O die ( IOD ) ,采用 12nm 工藝,包含 8 個 DDR4 内存通道,128 個 PCIe gen4 I/O 通道以及其他 I/O(如 USB 和 SATA, SoC 數據結構,和其他系統級功能)。第二個 Chiplet 則是復合核心 die ( CCD ) ,采用 7nm 工藝。在實際產品中,AMD 将一個 IOD 與多達 8 個 ccd 組裝在一起,每個 CCD 提供 8 個 Zen 2 CPU 内核,因而可以一次提供 64 個内核。
第三代 EPYC 上,AMD 提供多達 64 個核心和 128 個線程,采用 AMD 最新的 Zen 3 核心。該處理器設計有八個 Chiplet,每個 Chiplet 有八個核心,這次 Chiplet 中的所有八個核心都是連接的,從而實現了有效的雙 L3 緩存設計,以實現較低的整體緩存延遲結構。
第四代 EPYC 中,AMD 在原來的架構上采用多達 12 個 5 納米復雜核心芯片 ( CCD ) 的小芯片設計,其中 I/O 芯片采用 6nm 工藝技術,而其周圍的 CCD 則采用 5nm 工藝。每個芯片具有 32MB 的 L3 緩存和 1 MB 的 L2 緩存。
這些 CPU 最終為 MI300 系列的 Chiplet 鋪平了技術方面的道路。
2021 年 1 月,AMD 申請并通過了一項 MCM GPU Chiplet 設計的專利,AMD 在美國專利商标局公開了一項标題為 " 使用高帶寬交聯的 GPU Chiplets" 的專利,專利号為 "US 2020/0409859 A1",在專利描述中,AMD 概述了 Chiplet 設計中的圖形芯片未來的樣子,GPU Chiplet 應直接與 CPU 通信,而其他小 Chiplet 通過無源、高帶寬交叉鏈路相互通信,并作為片上系統 ( SoC ) 布置在相應的中介層上。
2023 年 11 月,AMD 又公開了一項關于 Chiplet 設計的專利,其描述了一種與現有芯片布局截然不同的 GPU 設計,即在大型主 GPU 芯片周圍分布大量内存緩存芯片(MCD),其描述了一種将幾何工作量分配到多個芯片上的系統,所有芯片并行工作。此外,沒有一個 " 中央芯片 " 會将工作分配給下屬芯片,因為它們都将獨立運行。該專利表明,AMD 正在探索用芯片組來制造 GCD,而不僅僅是一塊巨大的矽片。
從消費領網域到超算領網域,再到 AI 領網域, AMD 利用 Chiplet 掀起了一場紅色風暴,而為這場風暴不斷提供助力的,正是來自台積電的先進封裝技術。
AMD 背後的人
在接受 IEEE Spectrum 采訪時,AMD 產品技術架構師 Sam Naffziger 講到:" 五六年前,我們開始研發 EPYC 和 Ryzen CPU 系列。當時,我們進行了廣泛的研究,以找到最适合連接芯片的封裝技術。這是一個涉及成本、性能、帶寬密度、功耗和制造能力的復雜方程式。想出好的封裝技術相對容易,但要真正做到大批量、低成本地生產,則完全是兩碼事。"
2011 年,台積電首次開發了 2.5D 封裝 CoWoS,随即就被賽靈思的高端 FPGA 采用,但由于其價格過于昂貴,在封裝市場上遲遲打不開局面,直到 AI 浪潮的席卷全球,英偉達、AMD、谷歌、英特爾紛紛抛來了橄榄枝,将 CoWoS 推上了最熱門先進封裝的寶座。
下面是台積電的 CoWoS(晶圓基板上芯片)封裝示意圖。CoWoS 允許在單個封裝上集成多個芯片或裸片。這樣就能将不同類型的芯片(如處理器、内存和圖形芯片)集成到單個封裝中,從而提高性能、降低功耗并縮小外形尺寸。多個芯片通過矽通孔(TSV)垂直堆疊,并用微凸塊互連。與傳統的 2D 封裝相比,這種堆疊方法可以縮短互連長度、降低功耗并提高信号完整性。
CoWoS 在 AMD 的 Chiplet 上出力不少,通過将大型單片芯片劃分為較小的芯片組,設計人員可以專注于優化每個芯片組的特定功能。,可實現更好的電源管理、更高的時鍾速度和更高的每瓦性能,同時還有助于将這些高性能芯片與内存等其他組件集成到一個封裝中,從而進一步提高系統性能。
CoWoS 為之後的 3D 封裝提供了寶貴經驗,2018 年,台積電推出了 SoIC 技術,其作為一種創新的多晶片堆疊技術,主要是針對 10nm 以下的工藝技術進行晶圓級接合,與 CoWoS 技術相比,SoIC 可提供更高的封裝密度、更小的鍵合間隔,還可以與 CoWoS/InFo 共用,實現多個 Chiplet 集成。
在 IEDM 會議上,台積電副總裁介紹了該公司 SoIC 路線圖的更多細節。根據路線圖,台積電首先采用目前可用的 9μm 鍵合間距。然後,它計劃推出 6μm 間距,接着是 4.5μm 和 3μm。換而言之,台積電希望每兩年左右推出一種新的鍵距,每一代產品的縮放比例提高 70%。
他還用 AMD 的處理器作為 SoIC 應用的例子,AMD 設計了基于 7nm 工藝的處理器和 SRAM,然後交由台積電生產,最後以 9μm 鍵合間距的 SoIC 技術來連接芯片。
這裡提到的,正是 AMD 在 2021 年推出的代号為 Milan-X 的 EPYC 處理器裡加入的 3D V-Cache 緩存,這也是世界上首款采用 3D 芯片堆疊的數據中心處理器。
AMD 表示,3D V-Cache 在當前第三代 EPYC CPU 每個計算芯片 32 MB 的 SRAM 基礎上又增加了 64 MB,使 Milan-X 每個計算芯片的三級緩存達到 96 MB,由于 Milan-X 處理器架構中最多有 8 個計算芯片,因此 CPU 中共享的 L3 緩存最多可達 768 MB,額外的 L3 緩存可以緩解内存帶寬壓力并減少延遲,從而顯着提高應用程式性能。
能實現這一步,台積電的 SoIC 技術功不可沒,其将 V-Cache 中的互連永久綁定到 CPU,縮小了芯片之間的距離,從而實現 2 TB/s 的通信帶寬,與第三代 EPYC CPU 使用的 2D 小芯片封裝相比,Milan-X CPU 中的互連的每比特能耗僅為三分之一,互連密度提高了 200 倍,功效提高了三倍。
這一項技術後續也被下放到了 Ryzen 7 5800X3D 處理器之中,開始在消費市場中大展身手,包括最新的 Ryzen 9 7950X3D,同樣用到了 3D V-Cache 的技術。
2023 年,台積電在北美技術論壇上着重介紹了全新的 3DFabric 技術,其主要由先進封裝、3D 芯片堆疊和設計等三部分組成。通過先進封裝,可以在單一封裝中置入更多處理器及存儲器,從而提升運算效能;在設計支持上,台積電推出開放式标準設計語言的最新版本,協助芯片設計人員處理復雜大型芯片。
2011 年至 2023 年,台積電十餘年的封裝技術演進讓 AMD 的 Chiplet 夢想終于得以實現,而 MI300 系列也正是建立在最新的 3DFabric 基礎之上,将台積電 SoIC 前端技術與 CoWoS 後端技術相集成,堪稱量產先進封裝技術的集大成者。
藍色巨人的封裝版圖
對于英特爾來說,封裝同樣是它發展的重心之一,而且與 AMD 不同的是,英特爾選擇了自己搞封裝,力圖掌握芯片研發生產應用的全流程。
英特爾對标台積電 CoWoS 的 2.5D 封裝技術被稱為 EMIB, 2017 年正式應用于產品,英特爾的數據中心處理器 Sapphire Rapid 就是采用的這項技術;第一代的 3D IC 封裝則稱為 Foveros,2019 年時已用于英特爾計算機處理器 Lakefield。
EMIB 最大特色就是通過矽橋(Sillicon Bridge),從下方來連接存儲器(HBM)和運算等各種芯片(die)。也因為矽橋會埋在基板(substrate)中并連接芯片,讓存儲器和運算芯片能直接相連,加快芯片本身的能效。
Foveros 則是 3D 堆棧,将存儲器、運算和架構等不同功能的芯片組堆棧起來後,運用銅線穿透每一層,達到連接的效果,最後,工廠會将已經堆棧好的芯片送到封裝廠座組裝,将銅線與電路板上的電路做接合。
2022 年,英特爾首次将下 2.5D 和 3D 封裝技術融合在一起,命名為 Co-EMIB,這是一個将 EMIB 和 Foveros 技術相結合的創新應用,能夠讓兩個或多個 Foveros 元件互連,并且基本達到單芯片的性能水準,藉由這一項技術,推出了當時晶體管規模最大的 SoC —— Ponte Vecchio,主要面向高性計算市場。
每顆 Ponte Vecchio 處理器實際上都是 使用英特爾 Co-EMIB 連接在一起的兩個 Chiplet 的鏡像集,Co-EMIB 在兩個 3D Chiplet 堆棧之間形成高密度互連的橋梁,橋本身是嵌入封裝有機基板中的一小塊矽。矽上的互連線可以比有機基板上的互連線更窄。Ponte Vecchio 與封裝基板的普通連接間隔為 100 微米,而 Co-EMIB 芯片中的連接密度幾乎是其兩倍,Co-EMIB 芯片還将高帶寬存儲器 ( HBM ) 和 Xe Link I/O Chiplet 連接到 " 基礎矽 "(最大的 Chiplet),其他芯片則堆疊在該 " 基礎矽 " 上。
基礎芯片還使用了英特爾的 3D 堆疊技術,稱為 Foveros,該技術在兩個芯片之間建立了密集的芯片到芯片垂直連接陣列。這些連接僅相距 36 微米,并通過 " 面對面 " 連接芯片來實現;也就是說,一個芯片的頂部粘合到另一個芯片的頂部。信号和電源通過 TSV 矽通孔進入該堆棧,矽通孔是相當寬的垂直互連,直接穿過大部分矽。Ponte Vecchio 上使用的 Foveros 技術是對用于制造英特爾 Lakefield 移動處理器的技術的改進,信号連接密度增加了一倍。
做到這一點并不容易,英特爾院士 Wilfred Gomes 表示,這需要在產量管理、時鍾電路、熱調節和功率傳輸方面進行創新。例如,英特爾工程師選擇為處理器提供高于正常水平的電壓(1.8 伏),以便降低電流,簡化封裝,基片中的電路将電壓降低到接近 0.7 伏,以便在計算芯片上使用,而且每個計算芯片都必須在基片中擁有自己的電源網域。
對于英特爾來說,Ponte Vecchio 将它目前已有的先進封裝技術推到了巅峰,與 AMD 的 MI300 系列相比,也未遜色多少,可謂是如今先進封裝的紅藍雙星。
實際上,英特爾雖然在先進制程上略落後于台積電,但在先進封裝卻與台積電不相上下。英特爾表示,自己靈活的代工服務,允許客戶混合搭配其晶圓制造和封裝產品,作為老牌廠商的它,晶圓封裝廠分散在世界各地,可以利用地理優勢來擴大產能和服務。
英特爾 CEO Pat Gelsinge 在接受采訪時也表示,英特爾擁有下一代内存架構的先進能力,以及 3D 堆疊的優勢,既能用于 Chiplet,也能用于人工智能和高性能伺服器的超大封裝,未來我們将把這些技術應用到產品中,同時也将展示給代工廠(IFS)的客戶、
為什麼是 Chiplet?
在看完 AMD、英特爾以及台積電的技術歷程後,相信許多人都會有一個疑問,為什麼他們如此執着于 3D 封裝和 Chiplet 呢?
原因源自半導體行業内部的需求,摩爾定律的出現,讓不斷提高的設備集成度能夠繼續适應相同的物理尺寸,光刻縮小可以使構建塊縮小 30%,那麼就可以在不增加芯片尺寸的情況下增加 42% 的電路。
但并非所有半導體器件都能享受這一紅利,例如可以包含模拟電路的 I/O,其擴展速度約為邏輯的一半,這就讓人不得不尋找新的出路。而且光刻縮小的成本也不便宜,采用 7nm 工藝加工的晶圓成本高于采用 14nm 工藝加工的晶圓成本,5nm 工藝的成本高于 7nm 工藝,依此類推 …… 随着晶圓價格的上漲,Chiplet 往往比單片更加經濟實惠。
此外,由于新芯片設計需要設計和工程資源,并且由于新節點的復雜性不斷增加,每個新工藝節點的新設計的典型成本也随之增加,這一的情況進一步激勵人們創建可重復使用的設計。
Chiplet 設計理念使這成為可能,因為只需改變芯片的數量和組合即可實現新的產品配置,通過将單個小芯片集成到 1、2、3 和 4 芯片配置中,可以從單個流片創建 4 種不同的處理器品種,而如果想把它們整合進一塊芯片中,就需要 4 次單獨的流片。
AMD 在其關于新款 Radeon RX 7900 系列 "Navi 31 " 圖形處理器的技術演示中,詳細解釋了為什麼必須為高端圖形處理器采用芯片組路線。
事實上,AMD 近十年裡的 Radeon GPU 與 CPU 相比,不管是利潤還是收入都不容樂觀,在面臨英偉達競争的情況下,降低制造成本的必要性愈發突出,随着 GeForce "Ada Lovelace " 一代的推出,英偉達繼續押注在單片矽 GPU 上,即使是最大的 "AD102 " 芯片也還是單片 GPU,這為 AMD 提供了一個降低 GPU 制造成本的機會。
Chiplet 讓 AMD 其能夠和英偉達展開價格戰,拿下更多的市場份額。最典型的例子是,AMD 對 Radeon RX 7900 XTX 和 RX 7900 XT 分别采用了相對激進的 999 美元和 899 美元定價,根據 AMD 的官網數據,這兩款產品有能力與英偉達 1199 美元的 RTX 4080 一決高下,在某些情況下,甚至有可能與 1599 美元的 RTX 4090 展開較量。
事實上,這就是 Chiplet 的最顯著的優點之一,通過使用 Chiplet,AMD 可以快速提高良率并簡化設計 / 驗證,同時可以為每個小芯片選擇最佳工藝。邏輯部分可以采用尖端工藝制造,大容量 SRAM 可以使用 7nm 左右的工藝制造,而 I/O 和外圍電路可以使用 12nm 或 28nm 左右的工藝制造,從而減少了設計和制造成本。
此外,Chiplet 也能幫助它輕松制造衍生類型,例如相同邏輯但不同外圍電路,或相同外圍電路但不同邏輯,而且可以混合使用來自不同制造商的小芯片,而不是局限在單個制造商上。
AMD 如此,英特爾也不外乎是,AMD 仰賴台積電已有的技術,全力研究芯片架構設計,英特爾就要稍微吃力一點,一方面研究先進制程和封裝,另外一方面也要着手芯片與 Chiplet 的迭代改進,兩家甚至還在封裝上打起了擂台賽。
如今去評判比賽的勝負已經不重要了,因為 3D 封裝與 Chiplet 逐漸從數據中心和 AI 加速器走向消費市場的 PC 處理器,最終惠及筆記本與手機,成為了大家認定的新趨勢,
寫在最後
與 AMD 和英特爾相比,英偉達在 3D 封裝以及 Chiplet 上卻顯得如此 " 遲鈍 "。
2017 年 6 月英偉達發表論文《MCM-GPU: Multi-Chip-Module GPUs for Continued Performance Scalability》提出了 MCM 設計,其基本可以看成是如今的 Chiplet。
但英偉達一直未将這一設計付諸于實踐中,反而在 2021 年 12 月發表了一篇名為《GPU Domain Specialization via Composable On-Package Architecture》的論文,其中所提出的 COPA-GPU 架構,實際只是單獨分離了 L2 緩存,這也就是說,英偉達會在未來繼續堅持 Monolithic 單一光刻設計。
英偉達堅持大芯片的原因其實很簡單,die 與 die 之間通訊帶寬永遠無法和 monolithic 内部的通訊帶寬相比,Chiplet 也許不适合高 AI 算力場合,更适合在 CPU 領網域中大展拳腳,2022 年英偉達發布的 Grace CPU Superchip,就通過 NVLink-C2C 技術實現芯片高速互連,該芯片還遵循由業界共同制定的 Chiplet 互連規範 UCIe。
在 Chiplet 上的謹慎,也讓英偉達與 3D 封裝沒了緣分,雖然英偉達目前是台積電 2.5D 封裝 CoWoS 的最大客戶之一,但 SoIC 的客戶裡暫時還不包括它,也讓它成了御三家裡最晚擁抱這項先進技術的一家了。
伴随着 Chiplet 的高速發展,英偉達也可能在未來開始擁抱這一設計理念,今年的爆料人士 Kopite7kimi 稱,英偉達面向高性能計算(HPC)和人工智能(AI)客戶的下一代 Blackwell GB100 GPU 将全面采用 Chiplet 設計。
如今 AMD 在 AI 芯片上先行一步,利用 Chiplet 和 3.5D 封裝打造了更大更強的 MI300X,英特爾也已經全面擁抱 Chiplet 和 3D 封裝,英偉達雖然依舊坐擁龐大的 AI 市場,但它的寶座卻出現了一道微不可察的裂縫,紅藍綠這三家,誰能在芯片封裝上掌握真正的話語權呢?