今天小編分享的科技經驗:誰能卡住英偉達的脖子?,歡迎閱讀。
出品 | 虎嗅科技組
作者 | 丸都山
編輯 | 陳伊凡
頭圖 | 視覺中國
生成式 AI 的風口下,一些行業正在 " 悶聲發大财 "。
從今年 2 月開始,中國台灣廠商 AVC 和雙鴻 ( AURAS ) 股價一路飙升,在端午假期前的最後一個交易日,兩家公司的股價較 4 個月前均實現翻倍,分别收報 249.5 新台币(約合 58.1 元人民币)及 292.5 新台币(約合 68.1 人民币)。
如果對照芯片巨頭英偉達 ( NVEDIA ) 近期股價走勢,會發現三者之間存在着驚人的一致性——這家芯片巨頭公司同樣在這 4 個月内時間實現了股價翻倍。
這顯然不是巧合。
實際上,上述兩家位于中國台灣地區的公司,或多或少與英偉達有關,确切地說是與生成式 AI 相關。AVC 是全球最大散熱模組廠商,也是英偉達 AI 伺服器系統 DGX H100 目前的風冷散熱系統供應商,雙鴻則是 Supermicro(超微電腦)伺服器散熱系統的供應商。
散熱,這個過去不被人們重點關注的產業,正由于 AI 帶來的數據量和計算量的爆發增長逐漸從幕後走向台前,多位從業人士向虎嗅表達了這樣一個觀點:" 今明兩年,AI 行業中可能會出現算力被散熱‘卡脖子’的情況。"
6 月 15 日,在 AMD 發布 APU(加速處理器)MI 300 系列後,AMD 股價由于受到 " 缺少大客戶 " 的質疑下跌 3.6%,但就在同一日,AVC 與雙鴻的股價卻因 AI 芯片出現新玩家的利好應聲上漲 5.8% 和 3.6%。
作為一個與計算機科學共同成長起來的產業,散熱模組廠商們經歷了多次電子信息革命,但當下 AI 的爆發,似乎才真正讓這個行業真實現了 " 翻身 "。
AI 的盡頭是散熱?
當電流通過電阻時,所消耗的電能會全部轉化為熱能,這種現象被稱為電流的熱效應,自計算機誕生以來,從業者們用盡辦法将電子器件的溫度控制在合理的範圍内。
當然,早期的計算機功耗較低,而且整機體積較大,因此不需要單獨設計系統級的散熱解決方案,通常做法就是在計算機背部放置個簡易的風扇,以将熱流導出。
1989 年,英特爾發布了 80486 處理器,人類第一次實現了在微處理器中集成百萬級晶體管,這枚芯片的功耗也水漲船高,在芯片出廠時,英特爾為其配備了一組鋁制的散熱片,再配合機箱上的風扇完成整體散熱。
以今天的視角來看,這種方案還是很簡陋,但它勾勒出了散熱設計最底層的原理:先導熱,再散熱。簡單地來說,導熱就是将熱量在介質中傳送,散熱就是讓熱量盡可能快地從介質向外界散發。
傳統的伺服器散熱方案與計算機散熱原理大致相同,區别在于伺服器所使用的算力芯片由于能耗較高,往往将芯片級散熱系統作為重點,通常來說就是将芯片熱量通過熱管、均熱片等傳導到多褶結構的散熱鳍片上,再通過風扇進行主動散熱。
傳統伺服器散熱器,與台式機基本一致。圖片來源:中關村在線
不過,這種風冷式散熱方案在當前 AI 伺服器上的表現已經明顯力不從心。
原因在于高性能 AI 芯片的功耗在随着算力同步大幅提升。10 年前市面上能買到的最頂級的數據中心 GPU 是英偉達 K40, 其熱設計功耗 ( TDP ) 為 235W,2020 年英偉達發布 A100 時,熱設計功耗接近 400W,到了最新的 H100 芯片,熱設計功耗直接飙升到 700W。
國内散熱技術廠商廣州力及熱管理科技 ( NeoGene Tech ) 創始人陳振賢向虎嗅表示,到了明年,單顆高性能 AI 芯片的熱設計功耗将會突破 1000W。
那麼風冷式散熱對應的散熱極限是多少?國金證券研究所的一份報告指出,伺服器 2U 空間下,250W 大約是風冷的極限,4U 以上空間風冷可以解到 400W-600W。
這裡需要普及下 "U" 的概念,這是美國電子工業協會制訂的标準化尺寸,1U 伺服器的寬度為 48.26 厘米(19 英寸),高度為 4.445 厘米(1.75 英寸)。通常情況下,标準伺服器機櫃的高度為 42U,但這并不意味可以容納 42 枚 1U 伺服器,因為過大的密度會增加散熱負擔。
而如果使用英偉達 H100 芯片的話,在使用風冷散熱模組方案的情況下,就需要用到 4U 的機櫃。
因此,為了提高單一機櫃的功率密度,數據中心近些年開始普遍使用液冷方案。其大致可以分為兩種技術路徑:冷板式 ( Cold Plate ) 與浸沒式 ( Immersion ) ,前者是通過冷板将發熱器件的熱量間接傳遞給封閉在循環管路中的冷卻液體,後者則直接将發熱器件以及電路板整體直接置于液體中。與空氣介質相比,液體的導熱率更高、比熱容更大、吸熱能力也更強。
1U 2x 雙路節點伺服器的冷板式散熱方案,圖片來源:@企業存儲技術
另外在運營成本上,液冷散熱也有較大的優勢。傳統風冷散熱将伺服器芯片熱量吹到數據中心機房内,這要求機房空調溫度必須大幅降低,一位業内人士向虎嗅透露,台積電的數據中心溫度常年維持在零度左右。而液冷散熱模組的設備雖然較為昂貴,但大多屬于一次性成本,後續的能耗成本可以大幅降低。
但這并不意味着目前液冷散熱技術就是一種萬全之策,陳振賢指出,在現有要求降低 PUE(指數據中心消耗的所有能源與 IT 負載消耗的能源的比值)的限制下,既有的冷板式及浸沒式液冷技術也都紛紛面臨着解熱極限的問題。
中科創星董事總經理盧小保也向虎嗅表示,目前無論是風冷還是液冷散熱方案,都進入明顯的發展瓶頸期,未來熱管理相關技術可能會成為 AI 芯片性能釋放的決定性限制因素。
破局點在哪裡?
盡管業内目前還沒有出現公認的 " 最佳解決方案 ",但市場對于 AI 伺服器的需求不會因此陷入停滞。
第三方研究機構 TrendForce 發布的預測指出,2023 年 AI 伺服器(包含 GPU、FPGA、ASIC 等主芯片)出貨量将接近 120 萬台,同比去年增長 38.4%,而 AI 芯片今年出貨量将增長 46%。
有業内人士向虎嗅表示,在今年的 AI 伺服器市場中,英偉達 A100 與 A800 的出貨量将可能會占據 80%,而随着下半年數據中心陸續導入熱設計功耗高達 700W 的 H100 芯片後,行業内既有的散熱技術可能都需要進行一次 " 推倒重建 "。
盧小保認為,傳統的風冷式散熱方案并不是完全沒有開發空間,但前提是導熱器件必須進行更新換代,比如引入環路熱管技術。
目前芯片級風冷散熱模組中,導熱器件主要以熱管為主,它的主體是一根封閉、中空的金屬管,内部有少量工作介質(主要是純水)的毛細結構,運行時依靠介質蒸發吸收芯片熱量,再由風扇将熱量吹走。
熱管工作原理,圖片來源:antpedia
而環路熱管在保留上述特性的同時,導熱能力增加幾倍,而且導熱距離更大,可以傳遞到一米以外甚至理論上可以傳導到十幾米以外,這是該技術在衛星上已經實現的效果。
" 如果環路熱管能做到數米遠,就意味着可以直接将伺服器芯片的熱量導出到數據中心外部,連機房溫度的問題都解決了 ",盧小保指出。
不過作為一種航天工程的衍生技術,要在地面環境下落地應用,技術難度極高,雖然學術界和工業界都有很多團隊在從事這項技術的研發,但真正具備落地商用能力的極少。
同樣,液冷散熱方案也具備更新迭代的潛力。比如結合将冷板與浸沒式散熱的技術特點相結合,在傳統的 1U 或 2U 機櫃槽中接入冷板,再接入浸沒散熱用的單向冷卻液,以實現雙重冷卻循環。
據外媒 Electronics Weekly 報道,前不久美國能源部 ( DOE ) 立項了一個名為 COOLERCHIPS 的研究計劃,䃼助英偉達 5 百萬美元開發此項混合液冷技術,利用兩相冷卻液作為冷板的内循環,非導電冷卻液體則是被直接注入伺服器中做循環。
陳振賢表示,NeoGene Tech 亦自主研發了一種更先進的具有三重液冷循環之伺服器裝置技術,将具備更高功率芯片的散熱及散熱能力,而且無需價格昂貴的兩相冷卻液作為循環,在運營成本上将更優。
此外,NeoGene Tech 還基于冷板式液冷技術開發了一種被稱為牛勁冷泵 ( NeoGene Liquid Cooler ) 液冷散熱器產品,整體高度已經壓縮至 24.5mm,可以滿足數據中心 1U 伺服器機櫃的超高密度布建需求。其最大特點是可通過内部三維蒸氣腔的功能設計,根據芯片功率及功率密度做出解熱及散熱的功能調整。
陳振賢指出,1U 的牛勁冷泵液冷散熱器已經可以服務 TDP 超過 1000W 的高算力芯片。
1U 規格的牛勁冷泵液冷散熱產品,圖片來源:NeoGene Tech
以上提到的技術方案,都是基于過去散熱模組的迭代,那麼是否存在一種技術,可以直接在芯片上做文章?
在今年 3 月,NeoGene Tech 曾公開了一個針對高功率芯片封裝的散熱方案:直接将裸芯片和牛勁冷泵液冷循環系統封裝在一起工作。
陳振賢向虎嗅表示," 在這個技術路徑下,散熱模組不再是芯片外部的獨立器件,它本身就是 IC 元件的一部分,可達到即插即用 ( Plug&Play ) 的目的 "。
這項散熱封裝技術若再搭配具有三重液冷循環之伺服器裝置技術,能夠為數據中心省去所有的二級、三級散熱系統,只需将自我浸沒式伺服器插入機櫃内, 再接入水管及非導電冷卻液管就可以直接使用。當然,該方案對先進封裝工藝有一定的要求。
另一種直接在芯片上做散熱的技術,也與封裝工藝緊密結合,那就是 Chiplet。
簡單地來說,就是将一個單顆 SoC 芯片的功能拆抽成眾多小芯片,然後運用先進封裝技術重組成一個龐大復雜的系統。從芯片散熱的角度來說,Chiplet 不會使芯片整體功率降低,但在拆分後的表面積會增加,也就是說同等熱設計功率下,部門面積内熱流強度會降低。
從這裡也可以看出一個趨勢,那就是在 AI 芯片算力與能耗大幅提升的背景下,芯片散熱問題,或者說熱管理問題,已經不再是一個獨立的學科,而是更加趨近于系統性工程,未來 AI 芯片的天花板,或許真的取決于散熱技術的發展水平。