今天小编分享的科技经验:“AI专用内存”发家史:受伤的总是AMD?,欢迎阅读。
2015 年 6 月 17 日,AMD 中国在北京望京召开发布会。
这场发布会上,媒体的目光全集中在某款重磅产品之上,它就是全新的 Radeon R9 Fury X 显卡,其采用代号为 Fiji XT(斐济群岛)的 28nm 制程 GPU 核心,采用 4GB HBM 堆叠显存,拥有 64 个计算单元(CU)、4096 个 GCN 架构流处理器(SP),核心频率为 1050MHz,单精度浮点性能达到了 8.6TFlops,而 HBM 显存拥有 4096 bit 带宽,等效频率 1Ghz,显存总带宽达到了 512GB/S,除了显存容量外,各项配置无愧于旗舰之名。
虽说这是 HBM 显存首次亮相,但 AMD 早已联合 SK 海力士等厂商潜心研发多年,而 Fury X 作为首款搭载 HBM 的显卡,自然会被 AMD 寄予厚望。
时任 AMD CEO 的苏姿丰表示,HBM 采用堆叠式设计实现存储速度的提升,大幅改变了 GPU 逻辑结构设计,DRAM 颗粒由 " 平房设计 " 改为 " 楼房设计 ",所以 HBM 显存能够带来远远超过当前 GDDR5 所能够提供的带宽上限,其将率先应用于高端 PC 市场,和英伟达(NVIDIA)展开新一轮的竞争。
针对 R9 Fury X 仅有 4GB 显存,而 R9 290X 新版本却配备了 8GB GDDR5 显存这一问题,AMD 事业群 CTO Joe Macri 还特意回应表示,显存容量其实并不是问题,GDDR5 可以做到很大,但也有着很严重的浪费,其实有很多空间都未得到充分利用,AMD 未来会深入研究如何更高效率地利用这 4GB HBM 显存。
八年多时间过去了,AMD 官网上挂着的 RX 7000 系列全部采用 GDDR6 显存,当初辛辛苦苦和海力士合作多年才得来的 HBM 显存早已不见踪影,只有用于 AI 计算的加速卡还残留着当初的豪言壮语。
而曾经的对手英伟达,用 A100 和 H100 两块显卡,轻松拿下了万亿美元的市值,坐稳了 AI 时代的宝座,而它们用的显存,正是 AMD 当初力推的 HBM。
苦研七年作嫁衣
时间再倒回 2015 年,AMD 事业群 CTO Joe Macri 在纽约分析师大会上,接受了媒体的专访,针对首次落地应用的 HBM 做了一系列回答。
Macri 表示,AMD 自 2009 年开始,就已经着手 HBM 的研发工作,在长达 7 年的时间里,AMD 与 SK 海力士在内的众多业界伙伴一起完成了 HBM 的最终落地。
他首先谈到了 HBM 显存的必要性,2015 年主流的显存规格是 GDDR5,经过多年的使用和发展已经进入了瓶颈期,迫切需要新的替代技术,简单来讲,就是 GPU 的功耗不可能无限制地增长下去,越来越大的高规格显存正在挤压 GPU 核心的功耗空间,以前一张卡就 200W 功耗,显存分到 30W,而之后的大容量显存却水涨船高,60W、70W、80W…… 再加上核心的提升,一张显卡往往有五六百瓦的功耗,也难怪被称之为核弹卡。
Macri 觉得,显存面临的关键问题就是显存带宽,它取决于显存的位宽和频率,位宽都是 GPU 决定的,太高了会严重增大 GPU 芯片面积和功耗,所以高端显卡一直停留在 384/512 位。同时,GDDR5 的频率已经超过 7GHz,提升空间不大了。另外,GDDR5(包括以前的显存)都面临着 " 占地面积 " 的问题。一大堆显存颗粒围绕在 GPU 芯片周围,这已经是固定模式,GDDR5 再怎么缩小也无法改变,而且已经不可能再继续大幅度缩小了。
即使在今天来看,AMD 这番关于显卡功耗的话也挑不出什么毛病,GDDR5 的频率确实到了上限,而功耗问题也一直困扰着厂商和消费者,英伟达最新的 RTX 40 系显卡为了缩减功耗和成本,就对显存位宽开了刀,功耗倒是小了,但是跑高分辨率游戏又变得不利索了。
事实上,行业内大部分人都觉得 GDDR 已经不行了到头了,但还是捏着鼻子继续用,因为大家的共识是,成熟且落后的技术总比先进但不可靠的技术好,只有 AMD 彻底改变了思路,毕竟这家公司从诞生起,就不缺乏改变的勇气。
勇气是有了,不过 AMD 能够在显存上革新,还是极大程度上受到了大洋彼岸日本的启发。
1999 年,日本超尖端电子技术开发机构(ASET)开始资助采用 TSV 技术开发的 3D IC 芯片,该项目名为 " 高密度电子系统集成技术研发 ";2004 年,尔必达开始研发 TSV 技术,同时接受了来自日本政府的新能源与产业技术开发组织(NEDO)的资助;2006 年,尔必达与 NEC、OKI 共同开发出采用 TSV 技术的堆栈 8 颗 128Mb 的 DRAM 架构 ……
什么是 TSV 呢?TSV 全称为 Through Silicon Via,是一种新型三维堆叠封装技术,主要是将多颗芯片(或者晶圆)垂直堆叠在一起,然后在内部打孔、导通并填充金属,实现多层芯片之间的电连接。相比于传统的引线连接多芯片封装方式,TSV 能够大大减少半导体设计中的引线使用量,降低工艺复杂度,从而提升速度、降低功耗、缩小体积。
这项技术不光能运用于 DRAM 领網域,在 NAND 和 CIS 上也有广阔的前景,其最早就是在闪存上得以实践:东芝在 2007 年 4 月推出了具有 8 个堆叠芯片的 NAND 闪存芯片,随后海力士又在 2007 年 9 月推出了具有 24 个堆叠芯片的 NAND 闪存芯片。
2009 年,尔必达宣布已成功开发业内第一款 TSV DRAM 芯片,其使用 8 颗 1GB DDR3 SDRAM 堆叠封装而来,并在 2011 年 6 月开始交付样品,TSV 技术正式走上内存这个大舞台。
紧随其后的是韩国与美国厂商,2011 年 3 月,SK 海力士宣布采用 TSV 技术的 16GB DDR3 内存(40nm 级)研发成功, 9 月,三星电子推出基于 TSV 技术的 3D 堆叠 32GB DDR3(30nm 级),10 月,三星电子和美光科技联合宣布推出基于 TSV 技术的混合内存立方(HMC)技术。
AMD 在收购 ATI 后,就已经打起了显存的主意,但想要从头研发全新的显存标准,光靠自己的 GPU 部门闭门造车显然是不够的,于是 AMD 拉来了几个至关重要的合作伙伴:有 3D 堆叠内存经验的韩厂海力士,做硅中介层的联电,以及负责封装测试的日月光和 Amkor。
HBM 应运而生,前面提到了 GDDR 陷入到了内存带宽和功耗控制的瓶颈,而 HBM 的思路,就是用 TSV 技术打造立体堆栈式的显存颗粒,让 " 平房 " 进化为 " 楼房 ",同时通过硅中介层,让显存连接至 GPU 核心,并封装在一起,完成显存位宽和传输速度的提升,可谓是一举两得。
2013 年,经过多年研发后,AMD 和 SK 海力士终于推出了 HBM 这项全新技术,还被定为了 JESD235 行业标准,HBM1 的工作频率约为 1600 Mbps,漏极电源电压为 1.2V,芯片密度为 2Gb(4-hi),其带宽为 4096bit,远超 GDDR5 的 512bit。
除了带宽外,HBM 对 DRAM 能耗的影响同样重要,同时期的 R9 290X 在 DRAM 上花费了其 250W 额定功耗的 15~20%,即大约 38~50W 的功耗,算下来 GDDR5 每瓦功耗的带宽为 10.66GB/ 秒,而 HBM 每瓦带宽超过 35GB/ 秒,每瓦能效提高了 3 倍。
此外,由于 GPU 核心和显存封装在了一起,还能一定程度上减轻散热的压力,原本是一大片的散热区網域,浓缩至一小块,散热仅需针对这部分区網域,原本动辄三风扇的设计,可以精简为双风扇甚至是单风扇,变相缩小了显卡的体积。
反正好处多得数不清楚,不论是 AMD 和 SK 海力士,还是媒体和众多玩家,都认定了这才是未来的显存,英伟达主导的 GDDR 已经过时了,要被扫进历史的垃圾堆了。
坏处嘛,前文中提到的旗舰显卡仅支持 4GB 显存算一个,毕竟高带宽是用来跑高分辨率的,结果显存大小缩水直接让 HBM 失去了实际应用意义。
而价格更是压倒 AMD 的最后一根稻草:HBM1 的成本已不可考,但 8GB HBM2 的成本约 150 美元,硅中介层成本约 25 美元,总计 175 美元,同时期的 8GB GDDR5 仅需 52 美元,在没有考虑封测的情况下,HBM 成本已经是 GDDR 的三倍左右,一张 RX Vega 56 零售价才 400 美元,一半的成本都花在了显存之上,GPU 部门本来是要补贴 CPU 部门的,结果现在情况却要反过来,谁又能担待得起呢?
因而 AMD 火速取消了后续显卡的 HBM 显存搭载计划,老老实实跟着英伟达的步伐走了,在 RX 5000 系列上直接改用了 GDDR6 显存,HBM 在 AMD 的游戏显卡上二世而亡。
反观英伟达,却是以逸待劳,2016 年 4 月,英伟达发布了 Tesla P100 显卡,内置 16GB HBM2 显存,带宽可达 720GB/s,具备 21 Teraflops 的峰值人工智能运算性能。
英伟达在 HBM 上并未像 AMD 一样深耕多年,怎么突然反手就是一张搭载了 HBM2 的显卡,对 AMD 发起了反攻的号角呢?
背后的原因其实还颇有些复杂,Tesla P100 显卡所用的 HBM2 显存,并非来自于 AMD 的合作伙伴 SK 海力士,而是隔壁的三星电子,同样是韩厂的它,在基于 TSV 技术的 3D 堆叠内存方面的开发并不逊色于海力士多少,在奋起直追的情况下,很快就缩小了差距,而英伟达正有开发 HBM 相关显卡之意,二者一拍即合。
至于 AMD 与联电、日月光、Amkor 等好不容易搞定的硅中介层与 2.5D 封测,英伟达则是找到了业界的另一个大佬——台积电,看上了它旗下的先进封装技术 CoWoS(Chip-on-Wafer-on-Substrate),其早在 2011 年就推出了这项技术,并在 2012 年首先应用于 Xilinx 的 FPGA 上,二者同样是一拍即合。
此后的故事无需赘言,英伟达从 P100 到 V100,从 A100 再到 H100,连续数张高算力的显卡几乎成为了 AI 训练中的必备利器,出货量节节攀升,甚至超越了传统的游戏显卡业务,而 HBM 也在其中大放光彩,成为了镶嵌着的最耀眼的一颗宝石。
起了个大早,赶了个晚集,是对 AMD 在 HBM 上的最好概括,既没有凭借 HBM 在游戏显卡市场中反杀英伟达,反而被英伟达利用 HBM 巩固了 AI 计算领網域的地位,白白被别人摘了熟透甜美的桃子。
三家分内存
在 AMD 和英伟达这两家 GPU 厂商针锋相对之际,三家领先的内存厂商也没闲着,开始了在 HBM 市场的你追我赶的历程。
2013 年,SK 海力士宣布成功研发 HBM1,定义了这一显存标准,但它和 AMD 一样,好不容易得来的优势却没保持得太久。
2016 年 1 月,三星宣布开始量产 4GB HBM2 DRAM,并在同一年内生产 8GB HBM2 DRAM,后来者居上,完成了对本国同行的赶超,与 HBM1 相比,显存带宽实现了翻倍。
2017 年下半年,SK 海力士的 HBM2 姗姗来迟,终于宣布量产;2018 年 1 月,三星宣布开始量产第二代 8GB HBM2"Aquabolt"。
2018 年末,JEDEC 推出 HBM2E 规范,以支持增加的带宽和容量。当传输速率上升到每管脚 3.6Gbps 时,HBM2E 可以实现每堆栈 461GB/s 的内存带宽。此外,HBM2E 支持最多 12 个 DRAM 的堆栈,内存容量高达每堆栈 24GB。与 HBM2 相比,HBM2E 具有技术更先进、应用范围更广泛、速度更快、容量更大等特点。
2019 年 8 月,SK 海力士宣布成功研发出新一代 "HBM2E";2020 年 2 月,三星也正式宣布推出其 16GB HBM2E 产品 "Flashbolt",于 2020 年上半年开始量产。
2022 年 1 月,JEDEC 组织正式发布了新一代高带宽内存 HBM3 的标准规范,继续在存储密度、带宽、通道、可靠性、能效等各个层面进行扩充更新,其传输数据率在 HBM2 基础上再次翻番,每个引脚的传输率为 6.4Gbps,配合 1024-bit 位宽,单颗最高带宽可达 819GB/s。
而 SK 海力士早在 2021 年 10 月就发布了全球首款 HBM3,并于 2022 年 6 月正式量产,供货英伟达,击败了三星,再度于 HBM 上拿到了技术和市场优势。
三星自然也不甘示弱,在它发布的路线图中,2022 年 HBM3 技术已经量产,2023 年下半年开始大规模生产,预计 2024 年实现接口速度高达 7.2Gbps 的下一代 HBM 技术—— HBM3p,将数据传输率进一步提升 10%,从而将堆叠的总带宽提升到 5TB/s 以上。
讲到这里,大家不免会心生疑问,都说了是三家分内存,这三星和海力士加一块就两家啊,还都是韩国的,另外一家跑哪去了呢?
身在美国的美光当然没有忽视显存市场,作为尔必达的收购者,它对于 3D 堆叠的 TSV 技术怎么也不会陌生,甚至在 HBM 发布之前,还有不少 TSV 技术方面的优势。
但是美光却没跟着 AMD 或英伟达去鼓捣 HBM 技术,而是回头选择了英特尔,搞出了 HMC(混合内存)技术,虽然也使用了 TSV,但它有自己的控制器芯片,并且完全封装在 PCB 基板之上,和 HBM 截然不同,也完全不兼容。
2011 年 9 月,美光正式宣布了第一代 HMC,并在 2013 年 9 月量产了第二代 HMC,但响应者却寥寥无几,第一个采用 HMC 内存的处理器是富士通的 SPARC64 XIfx,其搭载于 2015 年推出的富士通 PRIMEHPC FX100 超算,而后就鲜见于各类产品中。
随着 2018 年 8 月,美光宣布正式放弃 HMC 后,才匆匆忙忙转向 GDDR6 和 HBM 产品的研发,幸好 3D 堆叠技术的底子还在那里,不至于说完全落后于两个韩厂。2020 年,美光正式表示将开始提供 HBM2 产品,用于高性能显卡,伺服器处理器等产品,其在财报中预计,将在 2024 年第一季度量产 HBM3 产品,最终赶上目前领先的竞争对手。
AI 大潮仍然席卷全球,而英伟达 H100 和 A100 显卡依旧火热,HBM 作为内存市场的新蛋糕,却是最鲜美的一块。芯片行业咨询公司 SemiAnalysis 表示,HBM 的价格大约是标准 DRAM 芯片的五倍,为制造商带来了更大的总利润。目前,HBM 占全球内存收入的比例不到 5%,但 SemiAnalysis 项目预计到 2026 年将占到总收入的 20% 以上。
这块鲜美的蛋糕大部分留给了先行者,集邦咨询调查显示,2022 年三大原厂 HBM 市占率分别为 SK 海力士 50%、三星约 40%、美光约 10%,十成里面占一成,美光自认为产品不逊于韩厂,但市场却从不会为某个自恃技术领先的厂商网开一面。
总结
当初尔必达的坂本幸雄认为日本半导体输人不输阵,时任美光 CEO 莫罗特亚在接受采访时也表示,AI 领網域不光有 HBM,还包含高密度 DDR5、美光定制 LP DRAM 以及一部分图形内存,概括来说,就是输了 HBM 但还没在 AI 上认输。
倘若让这俩 CEO 总结失败的教训,恐怕只能发出一句 " 时也,命也,运也,非吾之所能也 " 之类的感慨吧,输当然是不可能输的,美光和尔必达即使倒闭也不会说技术不行,把过错归咎于市场,落了个一身轻松。
再回过头来看,AMD 在 2015 年发布 R9 Fury X 时的判断错了吗?当然没错,内存带宽的的确确到了瓶颈,从 GDDR5 到 GDDR6X 几乎没有进步,但在游戏显卡,可以采用大型缓存作为帧缓冲区,让成本较低的 GDDR 接着上路,但数据中心和 AI 加速卡的带宽问题却非 HBM 不可,成本在这一领網域反倒成了最不起眼的问题。
如今 AMD 调转船头,再战 AI 领網域,希望 HBM 能让他们在这个市场腾飞。