今天小編分享的科技經驗:“AI專用内存”發家史:受傷的總是AMD?,歡迎閱讀。
2015 年 6 月 17 日,AMD 中國在北京望京召開發布會。
這場發布會上,媒體的目光全集中在某款重磅產品之上,它就是全新的 Radeon R9 Fury X 顯卡,其采用代号為 Fiji XT(斐濟群島)的 28nm 制程 GPU 核心,采用 4GB HBM 堆疊顯存,擁有 64 個計算單元(CU)、4096 個 GCN 架構流處理器(SP),核心頻率為 1050MHz,單精度浮點性能達到了 8.6TFlops,而 HBM 顯存擁有 4096 bit 帶寬,等效頻率 1Ghz,顯存總帶寬達到了 512GB/S,除了顯存容量外,各項配置無愧于旗艦之名。
雖說這是 HBM 顯存首次亮相,但 AMD 早已聯合 SK 海力士等廠商潛心研發多年,而 Fury X 作為首款搭載 HBM 的顯卡,自然會被 AMD 寄予厚望。
時任 AMD CEO 的蘇姿豐表示,HBM 采用堆疊式設計實現存儲速度的提升,大幅改變了 GPU 邏輯結構設計,DRAM 顆粒由 " 平房設計 " 改為 " 樓房設計 ",所以 HBM 顯存能夠帶來遠遠超過當前 GDDR5 所能夠提供的帶寬上限,其将率先應用于高端 PC 市場,和英偉達(NVIDIA)展開新一輪的競争。
針對 R9 Fury X 僅有 4GB 顯存,而 R9 290X 新版本卻配備了 8GB GDDR5 顯存這一問題,AMD 事業群 CTO Joe Macri 還特意回應表示,顯存容量其實并不是問題,GDDR5 可以做到很大,但也有着很嚴重的浪費,其實有很多空間都未得到充分利用,AMD 未來會深入研究如何更高效率地利用這 4GB HBM 顯存。
八年多時間過去了,AMD 官網上挂着的 RX 7000 系列全部采用 GDDR6 顯存,當初辛辛苦苦和海力士合作多年才得來的 HBM 顯存早已不見蹤影,只有用于 AI 計算的加速卡還殘留着當初的豪言壯語。
而曾經的對手英偉達,用 A100 和 H100 兩塊顯卡,輕松拿下了萬億美元的市值,坐穩了 AI 時代的寶座,而它們用的顯存,正是 AMD 當初力推的 HBM。
苦研七年作嫁衣
時間再倒回 2015 年,AMD 事業群 CTO Joe Macri 在紐約分析師大會上,接受了媒體的專訪,針對首次落地應用的 HBM 做了一系列回答。
Macri 表示,AMD 自 2009 年開始,就已經着手 HBM 的研發工作,在長達 7 年的時間裡,AMD 與 SK 海力士在内的眾多業界夥伴一起完成了 HBM 的最終落地。
他首先談到了 HBM 顯存的必要性,2015 年主流的顯存規格是 GDDR5,經過多年的使用和發展已經進入了瓶頸期,迫切需要新的替代技術,簡單來講,就是 GPU 的功耗不可能無限制地增長下去,越來越大的高規格顯存正在擠壓 GPU 核心的功耗空間,以前一張卡就 200W 功耗,顯存分到 30W,而之後的大容量顯存卻水漲船高,60W、70W、80W…… 再加上核心的提升,一張顯卡往往有五六百瓦的功耗,也難怪被稱之為核彈卡。
Macri 覺得,顯存面臨的關鍵問題就是顯存帶寬,它取決于顯存的位寬和頻率,位寬都是 GPU 決定的,太高了會嚴重增大 GPU 芯片面積和功耗,所以高端顯卡一直停留在 384/512 位。同時,GDDR5 的頻率已經超過 7GHz,提升空間不大了。另外,GDDR5(包括以前的顯存)都面臨着 " 占地面積 " 的問題。一大堆顯存顆粒圍繞在 GPU 芯片周圍,這已經是固定模式,GDDR5 再怎麼縮小也無法改變,而且已經不可能再繼續大幅度縮小了。
即使在今天來看,AMD 這番關于顯卡功耗的話也挑不出什麼毛病,GDDR5 的頻率确實到了上限,而功耗問題也一直困擾着廠商和消費者,英偉達最新的 RTX 40 系顯卡為了縮減功耗和成本,就對顯存位寬開了刀,功耗倒是小了,但是跑高分辨率遊戲又變得不利索了。
事實上,行業内大部分人都覺得 GDDR 已經不行了到頭了,但還是捏着鼻子繼續用,因為大家的共識是,成熟且落後的技術總比先進但不可靠的技術好,只有 AMD 徹底改變了思路,畢竟這家公司從誕生起,就不缺乏改變的勇氣。
勇氣是有了,不過 AMD 能夠在顯存上革新,還是極大程度上受到了大洋彼岸日本的啟發。
1999 年,日本超尖端電子技術開發機構(ASET)開始資助采用 TSV 技術開發的 3D IC 芯片,該項目名為 " 高密度電子系統集成技術研發 ";2004 年,爾必達開始研發 TSV 技術,同時接受了來自日本政府的新能源與產業技術開發組織(NEDO)的資助;2006 年,爾必達與 NEC、OKI 共同開發出采用 TSV 技術的堆棧 8 顆 128Mb 的 DRAM 架構 ……
什麼是 TSV 呢?TSV 全稱為 Through Silicon Via,是一種新型三維堆疊封裝技術,主要是将多顆芯片(或者晶圓)垂直堆疊在一起,然後在内部打孔、導通并填充金屬,實現多層芯片之間的電連接。相比于傳統的引線連接多芯片封裝方式,TSV 能夠大大減少半導體設計中的引線使用量,降低工藝復雜度,從而提升速度、降低功耗、縮小體積。
這項技術不光能運用于 DRAM 領網域,在 NAND 和 CIS 上也有廣闊的前景,其最早就是在閃存上得以實踐:東芝在 2007 年 4 月推出了具有 8 個堆疊芯片的 NAND 閃存芯片,随後海力士又在 2007 年 9 月推出了具有 24 個堆疊芯片的 NAND 閃存芯片。
2009 年,爾必達宣布已成功開發業内第一款 TSV DRAM 芯片,其使用 8 顆 1GB DDR3 SDRAM 堆疊封裝而來,并在 2011 年 6 月開始交付樣品,TSV 技術正式走上内存這個大舞台。
緊随其後的是韓國與美國廠商,2011 年 3 月,SK 海力士宣布采用 TSV 技術的 16GB DDR3 内存(40nm 級)研發成功, 9 月,三星電子推出基于 TSV 技術的 3D 堆疊 32GB DDR3(30nm 級),10 月,三星電子和美光科技聯合宣布推出基于 TSV 技術的混合内存立方(HMC)技術。
AMD 在收購 ATI 後,就已經打起了顯存的主意,但想要從頭研發全新的顯存标準,光靠自己的 GPU 部門閉門造車顯然是不夠的,于是 AMD 拉來了幾個至關重要的合作夥伴:有 3D 堆疊内存經驗的韓廠海力士,做矽中介層的聯電,以及負責封裝測試的日月光和 Amkor。
HBM 應運而生,前面提到了 GDDR 陷入到了内存帶寬和功耗控制的瓶頸,而 HBM 的思路,就是用 TSV 技術打造立體堆棧式的顯存顆粒,讓 " 平房 " 進化為 " 樓房 ",同時通過矽中介層,讓顯存連接至 GPU 核心,并封裝在一起,完成顯存位寬和傳輸速度的提升,可謂是一舉兩得。
2013 年,經過多年研發後,AMD 和 SK 海力士終于推出了 HBM 這項全新技術,還被定為了 JESD235 行業标準,HBM1 的工作頻率約為 1600 Mbps,漏極電源電壓為 1.2V,芯片密度為 2Gb(4-hi),其帶寬為 4096bit,遠超 GDDR5 的 512bit。
除了帶寬外,HBM 對 DRAM 能耗的影響同樣重要,同時期的 R9 290X 在 DRAM 上花費了其 250W 額定功耗的 15~20%,即大約 38~50W 的功耗,算下來 GDDR5 每瓦功耗的帶寬為 10.66GB/ 秒,而 HBM 每瓦帶寬超過 35GB/ 秒,每瓦能效提高了 3 倍。
此外,由于 GPU 核心和顯存封裝在了一起,還能一定程度上減輕散熱的壓力,原本是一大片的散熱區網域,濃縮至一小塊,散熱僅需針對這部分區網域,原本動辄三風扇的設計,可以精簡為雙風扇甚至是單風扇,變相縮小了顯卡的體積。
反正好處多得數不清楚,不論是 AMD 和 SK 海力士,還是媒體和眾多玩家,都認定了這才是未來的顯存,英偉達主導的 GDDR 已經過時了,要被掃進歷史的垃圾堆了。
壞處嘛,前文中提到的旗艦顯卡僅支持 4GB 顯存算一個,畢竟高帶寬是用來跑高分辨率的,結果顯存大小縮水直接讓 HBM 失去了實際應用意義。
而價格更是壓倒 AMD 的最後一根稻草:HBM1 的成本已不可考,但 8GB HBM2 的成本約 150 美元,矽中介層成本約 25 美元,總計 175 美元,同時期的 8GB GDDR5 僅需 52 美元,在沒有考慮封測的情況下,HBM 成本已經是 GDDR 的三倍左右,一張 RX Vega 56 零售價才 400 美元,一半的成本都花在了顯存之上,GPU 部門本來是要補貼 CPU 部門的,結果現在情況卻要反過來,誰又能擔待得起呢?
因而 AMD 火速取消了後續顯卡的 HBM 顯存搭載計劃,老老實實跟着英偉達的步伐走了,在 RX 5000 系列上直接改用了 GDDR6 顯存,HBM 在 AMD 的遊戲顯卡上二世而亡。
反觀英偉達,卻是以逸待勞,2016 年 4 月,英偉達發布了 Tesla P100 顯卡,内置 16GB HBM2 顯存,帶寬可達 720GB/s,具備 21 Teraflops 的峰值人工智能運算性能。
英偉達在 HBM 上并未像 AMD 一樣深耕多年,怎麼突然反手就是一張搭載了 HBM2 的顯卡,對 AMD 發起了反攻的号角呢?
背後的原因其實還頗有些復雜,Tesla P100 顯卡所用的 HBM2 顯存,并非來自于 AMD 的合作夥伴 SK 海力士,而是隔壁的三星電子,同樣是韓廠的它,在基于 TSV 技術的 3D 堆疊内存方面的開發并不遜色于海力士多少,在奮起直追的情況下,很快就縮小了差距,而英偉達正有開發 HBM 相關顯卡之意,二者一拍即合。
至于 AMD 與聯電、日月光、Amkor 等好不容易搞定的矽中介層與 2.5D 封測,英偉達則是找到了業界的另一個大佬——台積電,看上了它旗下的先進封裝技術 CoWoS(Chip-on-Wafer-on-Substrate),其早在 2011 年就推出了這項技術,并在 2012 年首先應用于 Xilinx 的 FPGA 上,二者同樣是一拍即合。
此後的故事無需贅言,英偉達從 P100 到 V100,從 A100 再到 H100,連續數張高算力的顯卡幾乎成為了 AI 訓練中的必備利器,出貨量節節攀升,甚至超越了傳統的遊戲顯卡業務,而 HBM 也在其中大放光彩,成為了鑲嵌着的最耀眼的一顆寶石。
起了個大早,趕了個晚集,是對 AMD 在 HBM 上的最好概括,既沒有憑借 HBM 在遊戲顯卡市場中反殺英偉達,反而被英偉達利用 HBM 鞏固了 AI 計算領網域的地位,白白被别人摘了熟透甜美的桃子。
三家分内存
在 AMD 和英偉達這兩家 GPU 廠商針鋒相對之際,三家領先的内存廠商也沒閒着,開始了在 HBM 市場的你追我趕的歷程。
2013 年,SK 海力士宣布成功研發 HBM1,定義了這一顯存标準,但它和 AMD 一樣,好不容易得來的優勢卻沒保持得太久。
2016 年 1 月,三星宣布開始量產 4GB HBM2 DRAM,并在同一年内生產 8GB HBM2 DRAM,後來者居上,完成了對本國同行的趕超,與 HBM1 相比,顯存帶寬實現了翻倍。
2017 年下半年,SK 海力士的 HBM2 姗姗來遲,終于宣布量產;2018 年 1 月,三星宣布開始量產第二代 8GB HBM2"Aquabolt"。
2018 年末,JEDEC 推出 HBM2E 規範,以支持增加的帶寬和容量。當傳輸速率上升到每管腳 3.6Gbps 時,HBM2E 可以實現每堆棧 461GB/s 的内存帶寬。此外,HBM2E 支持最多 12 個 DRAM 的堆棧,内存容量高達每堆棧 24GB。與 HBM2 相比,HBM2E 具有技術更先進、應用範圍更廣泛、速度更快、容量更大等特點。
2019 年 8 月,SK 海力士宣布成功研發出新一代 "HBM2E";2020 年 2 月,三星也正式宣布推出其 16GB HBM2E 產品 "Flashbolt",于 2020 年上半年開始量產。
2022 年 1 月,JEDEC 組織正式發布了新一代高帶寬内存 HBM3 的标準規範,繼續在存儲密度、帶寬、通道、可靠性、能效等各個層面進行擴充更新,其傳輸數據率在 HBM2 基礎上再次翻番,每個引腳的傳輸率為 6.4Gbps,配合 1024-bit 位寬,單顆最高帶寬可達 819GB/s。
而 SK 海力士早在 2021 年 10 月就發布了全球首款 HBM3,并于 2022 年 6 月正式量產,供貨英偉達,擊敗了三星,再度于 HBM 上拿到了技術和市場優勢。
三星自然也不甘示弱,在它發布的路線圖中,2022 年 HBM3 技術已經量產,2023 年下半年開始大規模生產,預計 2024 年實現接口速度高達 7.2Gbps 的下一代 HBM 技術—— HBM3p,将數據傳輸率進一步提升 10%,從而将堆疊的總帶寬提升到 5TB/s 以上。
講到這裡,大家不免會心生疑問,都說了是三家分内存,這三星和海力士加一塊就兩家啊,還都是韓國的,另外一家跑哪去了呢?
身在美國的美光當然沒有忽視顯存市場,作為爾必達的收購者,它對于 3D 堆疊的 TSV 技術怎麼也不會陌生,甚至在 HBM 發布之前,還有不少 TSV 技術方面的優勢。
但是美光卻沒跟着 AMD 或英偉達去鼓搗 HBM 技術,而是回頭選擇了英特爾,搞出了 HMC(混合内存)技術,雖然也使用了 TSV,但它有自己的控制器芯片,并且完全封裝在 PCB 基板之上,和 HBM 截然不同,也完全不兼容。
2011 年 9 月,美光正式宣布了第一代 HMC,并在 2013 年 9 月量產了第二代 HMC,但響應者卻寥寥無幾,第一個采用 HMC 内存的處理器是富士通的 SPARC64 XIfx,其搭載于 2015 年推出的富士通 PRIMEHPC FX100 超算,而後就鮮見于各類產品中。
随着 2018 年 8 月,美光宣布正式放棄 HMC 後,才匆匆忙忙轉向 GDDR6 和 HBM 產品的研發,幸好 3D 堆疊技術的底子還在那裡,不至于說完全落後于兩個韓廠。2020 年,美光正式表示将開始提供 HBM2 產品,用于高性能顯卡,伺服器處理器等產品,其在财報中預計,将在 2024 年第一季度量產 HBM3 產品,最終趕上目前領先的競争對手。
AI 大潮仍然席卷全球,而英偉達 H100 和 A100 顯卡依舊火熱,HBM 作為内存市場的新蛋糕,卻是最鮮美的一塊。芯片行業咨詢公司 SemiAnalysis 表示,HBM 的價格大約是标準 DRAM 芯片的五倍,為制造商帶來了更大的總利潤。目前,HBM 占全球内存收入的比例不到 5%,但 SemiAnalysis 項目預計到 2026 年将占到總收入的 20% 以上。
這塊鮮美的蛋糕大部分留給了先行者,集邦咨詢調查顯示,2022 年三大原廠 HBM 市占率分别為 SK 海力士 50%、三星約 40%、美光約 10%,十成裡面占一成,美光自認為產品不遜于韓廠,但市場卻從不會為某個自恃技術領先的廠商網開一面。
總結
當初爾必達的坂本幸雄認為日本半導體輸人不輸陣,時任美光 CEO 莫羅特亞在接受采訪時也表示,AI 領網域不光有 HBM,還包含高密度 DDR5、美光定制 LP DRAM 以及一部分圖形内存,概括來說,就是輸了 HBM 但還沒在 AI 上認輸。
倘若讓這倆 CEO 總結失敗的教訓,恐怕只能發出一句 " 時也,命也,運也,非吾之所能也 " 之類的感慨吧,輸當然是不可能輸的,美光和爾必達即使倒閉也不會說技術不行,把過錯歸咎于市場,落了個一身輕松。
再回過頭來看,AMD 在 2015 年發布 R9 Fury X 時的判斷錯了嗎?當然沒錯,内存帶寬的的确确到了瓶頸,從 GDDR5 到 GDDR6X 幾乎沒有進步,但在遊戲顯卡,可以采用大型緩存作為幀緩衝區,讓成本較低的 GDDR 接着上路,但數據中心和 AI 加速卡的帶寬問題卻非 HBM 不可,成本在這一領網域反倒成了最不起眼的問題。
如今 AMD 調轉船頭,再戰 AI 領網域,希望 HBM 能讓他們在這個市場騰飛。