今天小编分享的科技经验:更快、更强、更小,AI让HBM「卷」出新高度,欢迎阅读。
由于人工智能加速器、图形处理器和高性能计算应用程式需求量持续激增,高带宽内存(HBM)的销量正在飙升。
人工智能浪潮引发的资本市场对于大语言模型生态的投入使 HBM 常常处于断货状态,因为 HBM 是创建大模型所需数据的首选储存器。并且,为了提升性能而打造的多层高密度构造以及 SRAM(静态随机存取存储器)面临的限制都将市场对 HBM 的需求推到了更高的维度。
Rambus 高级副总裁兼硅 IP 总经理 Matt Jones 表示:" 随着人工智能训练模型的不断扩大,对于硬體层面的性能要求也在不断提高,这就要求内存的创新解决方案,为了确保人工智能的持续增长和进步,业界必须继续克服内存带宽和容量方面的障碍。"
这种势头很大程度上由先进封装推动,在许多情况下,先进封装可以提供比系统级芯片 SoC 更高效的数据路径。日月光半导体(ASE)投资者关系主管 Ken Hsiang 在最近的财报电话会议上表示:" 前沿封装正处于爆发的前夜,无论是人工智能、网络还是其他正在研发的产品,对先进的互连技术的需求非常强烈。"
HBM 与先进封装高度契合。三星半导体副总裁兼 DRAM 产品规划主管 Indong Kim 在最近的一次演讲中表示:"HBM 定制将迎来一波大浪潮,人工智能基础设施的发展需要极高的效率和扩展能力,我们与主要客户一致认为,适用于人工智能产品的定制化 HBM 将是关键的一步。功率,性能和面积(power, performance and area,简称 PPA)是人工智能解决方案的关键,定制将在 PPA 方面提供重要价值。"
过去,经济效益严重地限制了 HBM 被广泛采用。 硅中介层(协助上下层节点进行信息交换)价格昂贵,而在前道工序(FEOL)的存储单元之间处理大量硅通孔 ( TSV,穿透硅晶圆或芯片的垂直互连技术 ) 同样成本高昂。日月光半导体的工程和技术营销高级总监曹立宏表示:" 随着高性能计算、人工智能和机器学习带来的需求增加,中介层的尺寸也显著增加,高成本是其面临的主要缺点。"
虽然这限制了它在大众市场的吸引力,但对成本不太敏感的应用(如数据中心)仍表现出强劲的市场需求。HBM 的带宽是任何其他存储技术无法比拟的,硅中介层的 2.5D 集成已经成为事实上的标准。
但客户是贪婪的,他们永远在追求更好的性能,这就是为什么 HBM 制造商在不断改进凸块材料和成型材料,实现从 8 层到 12 层及 16 层 DRAM 的飞跃,从而能够以闪电般的速度处理数据。HBM4 的数据处理速度将在 HBM3E 的基础上有很大的提升,而实现这一目标的主要策略是将数据线的数量从 HBM3 的 1024 条增加到 2048 条。
在全球市场中,有三家主要的公司生产 HBM 内存模块,即美光、三星和 SK 海力士。虽然他们都使用 TSV 和微凸点技术(在集成电路封装过程中用于实现芯片间互连的微型连接点),将 DRAM 堆栈和配套设备集成到先进的封装中,但每家公司采用的方法略有不同。三星和美光在每个凸块层都加入了非导电薄膜(NCF,该薄膜是一种聚合物材料,用于使芯片彼此绝缘并保护连接点免受撞击)及热压键合(TCB,焊接工艺,将芯片与基板固定在一起)技术。而 SK 海力士则继续采用倒装芯片大规模回流工艺的模塑底部填充(MR-MUF)方案,该工艺可以将堆栈密封在高导电性成型材料中。
HBM 的垂直连接是使用铜 TSV 和堆叠 DRAM 芯片之间的缩放微凸块来实现的,下部缓冲器及逻辑芯片为每个 DRAM 提供数据路径。产品的可靠性问题很大程度上取决于回流、粘接和模具反磨过程中的热机械应力,而识别潜在问题需要测试高温工作寿命(HTOL)、温度湿度偏差(THB)和温度循环,可以通过采用预处理、无偏湿度和压力测试(uHAST)来确定各层之间的粘附水平。此外,还需要进行其他测试,以确保长期使用中不会出现微凸块短路、金属桥接或芯片和微凸点之间的接口分层等问题。混合键合是替代 HBM4 代产品微凸块的一种选择,但前提是满足产量目标。
另一项正在研发的技术是 3D DRAM,其参考 3D NAND 闪存技术,将存储单元进行翻转。三星的 Kim 表示:"3D DRAM 堆叠将大大降低功耗和占用的面积,同时消除来自中介层的性能障碍,内存控制器从 SoC 移到基础裸片(晶圆经过切割测试后没有经过封装的芯片)将为人工智能提供更多的逻辑空间。我们坚信定制 HBM 将实现性能和效率双双提升,紧密集成的内存和代工能力将为大规模部署提供更快上市及更优质的产品。
这里的总体趋势是将逻辑组件移动到更靠近内存的地方,以便在内存中或内存附近执行更多的处理,而不是将数据移动到一个或多个处理元素。但从系统设计的角度来看,要实现技术的落地还面临很多困难。
Lam Research 高级封装技术总监 cheping Lee 表示:" 这是一个激动人心的时刻,人工智能如此火热,HBM 可以储存一切,各家存储器制造商都在争分夺秒地率先生产下一代 HBM。"
关于下一代产品 HBM4, JEDEC(固态技术协会)正忙于制定这些模块的标准。同时,JEDEC 将 HBM3E 标准的最大内存模块厚度从 720mm 扩展到 775mm,这仍然适用于 40 μ m 厚的芯片。HBM 标准确定了每针传输速率、每个堆栈的最大芯片数量、最大封装容量(部門为 GB)和带宽等参数。标准的設定使得设计和流程得以简化,从而帮助 HBM 产品以更快的速度进入市场,现阶段为每两年进行一次产品的迭代。即将推出的 HBM4 标准将定义 24Gb 和 32Gb 层,以及 4 层、8 层、12 层和 16 层高 TSV 堆栈。
HBM 的进化史:对工艺和带宽的极致追求
高带宽内存的发展可以追溯到 2008 年,最初的研发愿景是通过这款产品解决计算内存面临的功耗和占用面积增加的问题。
三星电子的 Sungmock Ha 及其同事表示:" 当时,作为最高频段 DRAM 的 GDDR5,其带宽被限制在 28GB/s(7Gbps/ 引脚 x 32 个输入 / 输出端口)。" 而 HBM Gen2 的出现使技术实现重大的提升,通过将输入 / 输出端口的数量增至 1024 个,在不降低频率的情况下,成功实现了 307.2GB/s 的带宽突破。
从 HBM2E 开始,厂商通过采用 17nm 高 K 金属栅工艺( 利用高 K 介质材料代替常规栅,可以有效解决多晶栅极耗尽问题),达到每引脚 3.6Gbps,带宽 460.8GB/s。而目前 HBM3 新推出了每引脚 6.4Gbps 的传输速率,实现 8 到 12 个芯片堆叠,与上一代相比带宽提高了约 2 倍。
这只是故事的一部分,HBM 还一直在向处理技术靠拢,以提高性能。
大规模回流焊是最成熟和最便宜的焊接方案。Amkor 的工程和技术营销副总裁 Curtis Zwenger 表示:" 大多数情况下,都会采用大规模回流焊技术,因为设备安装的资本支出很大,但后续的生产成本相对较低。这项技术为将芯片与高端模块连接到封装基板上提供了一种经济实惠且高效的方式。不过,随着对性能的需求不断提升,以及异构集成(指将多个不同工艺节点单独制造的芯片封装到一个封装内部,以增强功能性和提高性能)模块和高级基板解决方案空间的日益扩大,其导致的后果是异构集成和基板的翘曲程度加剧。而热压技术和 R-LAB(反向激光辅助键合)作为传统大规模回流焊的工艺更新,可以更好地处理翘曲问题。"
微凸块金属化工艺通过优化后,可以提高可靠性。如果微凸块与焊盘之间的连接采用传统的回流工艺,并且其中含有助焊剂和底部填充材料,则填充的空隙和剩余的助焊剂残留可能导致凸块之间夹带的形成。为了解决这些问题,预涂非导电薄膜(NFC)被广泛采用,其可以在一步键合工艺中取代助焊剂、填充材料和键合步骤,并且不会产生夹带。
三星每一代产品都会增加 NCF 材料的厚度,NCF 本质上是一种环氧树脂,含有固化剂和其他添加剂。这项技术带来很多好处,特别是在更高的叠层上,因为业界正在努力减轻芯片裸片变薄带来的芯片裸片翘曲问题,而其优化的点在于完全填充凸点周围的底部填充区(为凸点提供缓冲),使焊料流动,避免空隙产生。
SK 海力士从 HBM2E 产品开始,就将大规模回流模塑底部填充技术改为 NCF-TCB。其导电模具材料是与材料供应商合作开发的,可能使用专有的注射工艺,这一技术使得 SK 海力士实现出色的晶体管结温控制。
HBM 中的 DRAM 堆栈被放置在缓冲芯片上,由于各家公司都在努力将更多的逻辑应用到这一基础芯片上以降低功耗,同时还将每个 DRAM 内核与处理器连接起来,使缓冲芯片的功能在不断增加。每个芯片都被挑拣出来并放置在载体晶圆上,然后回流焊,最后堆叠成型,经过背面研磨、清洁和切割等工序打造出产品。台积电和 SK 海力士宣布,晶圆代工厂今后将向内存制造商提供基础芯片。
新思科技研发总监 Sutirtha Kabir 表示:" 逻辑存储器始终是市场关注的焦点,尽管这个领網域在此前就已经被研究过。但每一种解决方案都将在电力和热能方面面临挑战,这两者是密切相关的。直接影响是热应力(由于温度变化引起材料内部或外部产生的应力),这不仅局限于组装层级,对整个系统都会产生影响。由于可能会使用混合键合或者细间距键合技术,热问题对机械应力的影响更值得探究。"
此外,基础逻辑产生的热量也会在逻辑芯片和 DRAM 芯片之间的接口处产生热机械应力。由于 HBM 模块的位置靠近处理器,来自逻辑芯片的热量不可避免地传导到存储器内。SK 海力士的高级技术经理 Younsoo Kim 表示:" 我们的数据显示,主机芯片温度每升高 2 ℃,HBM 的温度至少会升高 5-10 ℃。"
NCF-TCB 工艺同样面临挑战。在高温高压下发生的热压键合会导致 2.5D 组装出现问题,例如凸起与底层镍垫之间的金属桥接或界面分层。另外,TCB 本身的产量也相对较低。
对于任何多芯片堆叠而言,翘曲问题与表面材料的膨胀系数(TCE)不匹配有关,在加工和使用过程中,这会导致温度循环产生应力。应力通常集中在一些关键部位,比如在基础裸片和第一个内存芯片之间,以及微凸块层级。产品的仿真模型可以帮助解决这些问题,但也有部分问题只有在实际产品应用中才能充分体现其带来的影响。
人工智能应用的运行依赖于对 DRAM 芯片、TSV、集成基本逻辑功能的芯片和多达 100 个去耦电容器的成功组装和封装。与图形处理器、CPU 或其他类型处理器的结合是一个精密设计的组装工程,需要所有组件实现有机契合,以形成高产且可靠的系统。
随着行业从 HBM3 过渡到 HBM4,制造高性能 DRAM 堆栈的工艺只会变得更加复杂。不过,供应商和芯片制造商也在关注更低成本的替代品,以进一步提高这些高速和不可或缺的内存芯片堆栈的被市场采用。
本文由雷峰网编译自:https://semiengineering.com/hbm-options-increase-as-ai-demand-soars/