今天小編分享的科技經驗:更快、更強、更小,AI讓HBM「卷」出新高度,歡迎閲讀。
由于人工智能加速器、圖形處理器和高性能計算應用程式需求量持續激增,高帶寬内存(HBM)的銷量正在飙升。
人工智能浪潮引發的資本市場對于大語言模型生态的投入使 HBM 常常處于斷貨狀态,因為 HBM 是創建大模型所需數據的首選儲存器。并且,為了提升性能而打造的多層高密度構造以及 SRAM(靜态随機存取存儲器)面臨的限制都将市場對 HBM 的需求推到了更高的維度。
Rambus 高級副總裁兼硅 IP 總經理 Matt Jones 表示:" 随着人工智能訓練模型的不斷擴大,對于硬體層面的性能要求也在不斷提高,這就要求内存的創新解決方案,為了确保人工智能的持續增長和進步,業界必須繼續克服内存帶寬和容量方面的障礙。"
這種勢頭很大程度上由先進封裝推動,在許多情況下,先進封裝可以提供比系統級芯片 SoC 更高效的數據路徑。日月光半導體(ASE)投資者關系主管 Ken Hsiang 在最近的财報電話會議上表示:" 前沿封裝正處于爆發的前夜,無論是人工智能、網絡還是其他正在研發的產品,對先進的互連技術的需求非常強烈。"
HBM 與先進封裝高度契合。三星半導體副總裁兼 DRAM 產品規劃主管 Indong Kim 在最近的一次演講中表示:"HBM 定制将迎來一波大浪潮,人工智能基礎設施的發展需要極高的效率和擴展能力,我們與主要客户一致認為,适用于人工智能產品的定制化 HBM 将是關鍵的一步。功率,性能和面積(power, performance and area,簡稱 PPA)是人工智能解決方案的關鍵,定制将在 PPA 方面提供重要價值。"
過去,經濟效益嚴重地限制了 HBM 被廣泛采用。 硅中介層(協助上下層節點進行信息交換)價格昂貴,而在前道工序(FEOL)的存儲單元之間處理大量硅通孔 ( TSV,穿透硅晶圓或芯片的垂直互連技術 ) 同樣成本高昂。日月光半導體的工程和技術營銷高級總監曹立宏表示:" 随着高性能計算、人工智能和機器學習帶來的需求增加,中介層的尺寸也顯著增加,高成本是其面臨的主要缺點。"
雖然這限制了它在大眾市場的吸引力,但對成本不太敏感的應用(如數據中心)仍表現出強勁的市場需求。HBM 的帶寬是任何其他存儲技術無法比拟的,硅中介層的 2.5D 集成已經成為事實上的标準。
但客户是貪婪的,他們永遠在追求更好的性能,這就是為什麼 HBM 制造商在不斷改進凸塊材料和成型材料,實現從 8 層到 12 層及 16 層 DRAM 的飛躍,從而能夠以閃電般的速度處理數據。HBM4 的數據處理速度将在 HBM3E 的基礎上有很大的提升,而實現這一目标的主要策略是将數據線的數量從 HBM3 的 1024 條增加到 2048 條。
在全球市場中,有三家主要的公司生產 HBM 内存模塊,即美光、三星和 SK 海力士。雖然他們都使用 TSV 和微凸點技術(在集成電路封裝過程中用于實現芯片間互連的微型連接點),将 DRAM 堆棧和配套設備集成到先進的封裝中,但每家公司采用的方法略有不同。三星和美光在每個凸塊層都加入了非導電薄膜(NCF,該薄膜是一種聚合物材料,用于使芯片彼此絕緣并保護連接點免受撞擊)及熱壓鍵合(TCB,焊接工藝,将芯片與基板固定在一起)技術。而 SK 海力士則繼續采用倒裝芯片大規模回流工藝的模塑底部填充(MR-MUF)方案,該工藝可以将堆棧密封在高導電性成型材料中。
HBM 的垂直連接是使用銅 TSV 和堆疊 DRAM 芯片之間的縮放微凸塊來實現的,下部緩衝器及邏輯芯片為每個 DRAM 提供數據路徑。產品的可靠性問題很大程度上取決于回流、粘接和模具反磨過程中的熱機械應力,而識别潛在問題需要測試高温工作壽命(HTOL)、温度濕度偏差(THB)和温度循環,可以通過采用預處理、無偏濕度和壓力測試(uHAST)來确定各層之間的粘附水平。此外,還需要進行其他測試,以确保長期使用中不會出現微凸塊短路、金屬橋接或芯片和微凸點之間的接口分層等問題。混合鍵合是替代 HBM4 代產品微凸塊的一種選擇,但前提是滿足產量目标。
另一項正在研發的技術是 3D DRAM,其參考 3D NAND 閃存技術,将存儲單元進行翻轉。三星的 Kim 表示:"3D DRAM 堆疊将大大降低功耗和占用的面積,同時消除來自中介層的性能障礙,内存控制器從 SoC 移到基礎裸片(晶圓經過切割測試後沒有經過封裝的芯片)将為人工智能提供更多的邏輯空間。我們堅信定制 HBM 将實現性能和效率雙雙提升,緊密集成的内存和代工能力将為大規模部署提供更快上市及更優質的產品。
這裏的總體趨勢是将邏輯組件移動到更靠近内存的地方,以便在内存中或内存附近執行更多的處理,而不是将數據移動到一個或多個處理元素。但從系統設計的角度來看,要實現技術的落地還面臨很多困難。
Lam Research 高級封裝技術總監 cheping Lee 表示:" 這是一個激動人心的時刻,人工智能如此火熱,HBM 可以儲存一切,各家存儲器制造商都在争分奪秒地率先生產下一代 HBM。"
關于下一代產品 HBM4, JEDEC(固态技術協會)正忙于制定這些模塊的标準。同時,JEDEC 将 HBM3E 标準的最大内存模塊厚度從 720mm 擴展到 775mm,這仍然适用于 40 μ m 厚的芯片。HBM 标準确定了每針傳輸速率、每個堆棧的最大芯片數量、最大封裝容量(部門為 GB)和帶寬等參數。标準的設定使得設計和流程得以簡化,從而幫助 HBM 產品以更快的速度進入市場,現階段為每兩年進行一次產品的迭代。即将推出的 HBM4 标準将定義 24Gb 和 32Gb 層,以及 4 層、8 層、12 層和 16 層高 TSV 堆棧。
HBM 的進化史:對工藝和帶寬的極致追求
高帶寬内存的發展可以追溯到 2008 年,最初的研發願景是通過這款產品解決計算内存面臨的功耗和占用面積增加的問題。
三星電子的 Sungmock Ha 及其同事表示:" 當時,作為最高頻段 DRAM 的 GDDR5,其帶寬被限制在 28GB/s(7Gbps/ 引腳 x 32 個輸入 / 輸出端口)。" 而 HBM Gen2 的出現使技術實現重大的提升,通過将輸入 / 輸出端口的數量增至 1024 個,在不降低頻率的情況下,成功實現了 307.2GB/s 的帶寬突破。
從 HBM2E 開始,廠商通過采用 17nm 高 K 金屬栅工藝( 利用高 K 介質材料代替常規栅,可以有效解決多晶栅極耗盡問題),達到每引腳 3.6Gbps,帶寬 460.8GB/s。而目前 HBM3 新推出了每引腳 6.4Gbps 的傳輸速率,實現 8 到 12 個芯片堆疊,與上一代相比帶寬提高了約 2 倍。
這只是故事的一部分,HBM 還一直在向處理技術靠攏,以提高性能。
大規模回流焊是最成熟和最便宜的焊接方案。Amkor 的工程和技術營銷副總裁 Curtis Zwenger 表示:" 大多數情況下,都會采用大規模回流焊技術,因為設備安裝的資本支出很大,但後續的生產成本相對較低。這項技術為将芯片與高端模塊連接到封裝基板上提供了一種經濟實惠且高效的方式。不過,随着對性能的需求不斷提升,以及異構集成(指将多個不同工藝節點單獨制造的芯片封裝到一個封裝内部,以增強功能性和提高性能)模塊和高級基板解決方案空間的日益擴大,其導致的後果是異構集成和基板的翹曲程度加劇。而熱壓技術和 R-LAB(反向激光輔助鍵合)作為傳統大規模回流焊的工藝更新,可以更好地處理翹曲問題。"
微凸塊金屬化工藝通過優化後,可以提高可靠性。如果微凸塊與焊盤之間的連接采用傳統的回流工藝,并且其中含有助焊劑和底部填充材料,則填充的空隙和剩餘的助焊劑殘留可能導致凸塊之間夾帶的形成。為了解決這些問題,預塗非導電薄膜(NFC)被廣泛采用,其可以在一步鍵合工藝中取代助焊劑、填充材料和鍵合步驟,并且不會產生夾帶。
三星每一代產品都會增加 NCF 材料的厚度,NCF 本質上是一種環氧樹脂,含有固化劑和其他添加劑。這項技術帶來很多好處,特别是在更高的疊層上,因為業界正在努力減輕芯片裸片變薄帶來的芯片裸片翹曲問題,而其優化的點在于完全填充凸點周圍的底部填充區(為凸點提供緩衝),使焊料流動,避免空隙產生。
SK 海力士從 HBM2E 產品開始,就将大規模回流模塑底部填充技術改為 NCF-TCB。其導電模具材料是與材料供應商合作開發的,可能使用專有的注射工藝,這一技術使得 SK 海力士實現出色的晶體管結温控制。
HBM 中的 DRAM 堆棧被放置在緩衝芯片上,由于各家公司都在努力将更多的邏輯應用到這一基礎芯片上以降低功耗,同時還将每個 DRAM 内核與處理器連接起來,使緩衝芯片的功能在不斷增加。每個芯片都被挑揀出來并放置在載體晶圓上,然後回流焊,最後堆疊成型,經過背面研磨、清潔和切割等工序打造出產品。台積電和 SK 海力士宣布,晶圓代工廠今後将向内存制造商提供基礎芯片。
新思科技研發總監 Sutirtha Kabir 表示:" 邏輯存儲器始終是市場關注的焦點,盡管這個領網域在此前就已經被研究過。但每一種解決方案都将在電力和熱能方面面臨挑戰,這兩者是密切相關的。直接影響是熱應力(由于温度變化引起材料内部或外部產生的應力),這不僅局限于組裝層級,對整個系統都會產生影響。由于可能會使用混合鍵合或者細間距鍵合技術,熱問題對機械應力的影響更值得探究。"
此外,基礎邏輯產生的熱量也會在邏輯芯片和 DRAM 芯片之間的接口處產生熱機械應力。由于 HBM 模塊的位置靠近處理器,來自邏輯芯片的熱量不可避免地傳導到存儲器内。SK 海力士的高級技術經理 Younsoo Kim 表示:" 我們的數據顯示,主機芯片温度每升高 2 ℃,HBM 的温度至少會升高 5-10 ℃。"
NCF-TCB 工藝同樣面臨挑戰。在高温高壓下發生的熱壓鍵合會導致 2.5D 組裝出現問題,例如凸起與底層鎳墊之間的金屬橋接或界面分層。另外,TCB 本身的產量也相對較低。
對于任何多芯片堆疊而言,翹曲問題與表面材料的膨脹系數(TCE)不匹配有關,在加工和使用過程中,這會導致温度循環產生應力。應力通常集中在一些關鍵部位,比如在基礎裸片和第一個内存芯片之間,以及微凸塊層級。產品的仿真模型可以幫助解決這些問題,但也有部分問題只有在實際產品應用中才能充分體現其帶來的影響。
人工智能應用的運行依賴于對 DRAM 芯片、TSV、集成基本邏輯功能的芯片和多達 100 個去耦電容器的成功組裝和封裝。與圖形處理器、CPU 或其他類型處理器的結合是一個精密設計的組裝工程,需要所有組件實現有機契合,以形成高產且可靠的系統。
随着行業從 HBM3 過渡到 HBM4,制造高性能 DRAM 堆棧的工藝只會變得更加復雜。不過,供應商和芯片制造商也在關注更低成本的替代品,以進一步提高這些高速和不可或缺的内存芯片堆棧的被市場采用。
本文由雷峰網編譯自:https://semiengineering.com/hbm-options-increase-as-ai-demand-soars/