今天小編分享的科技經驗:算力底座更新,減碳、算力“全都要”,歡迎閲讀。
《中國綜合算力指數報告(2024)》中顯示,截至 2024 年 6 月,中國在用算力中心的機架數量超過 830 萬,算力規模達到 246 EFLOPS(以 FP32 精度計算),智能算力同比增速超過 65%。中國在 2025 年的目标是算力規模超過 300 EFLOPS。
通過數據可以看出,智能算力中心已經成為未來數據中心建設的主要趨勢和方向。
算力底座步入 AIDC 時代
智算中心的火爆可以説一大半的功勞要歸功于以 ChatGPT 為代表的人工智能技術在各行各業掀起了新一輪的革命,讓智算中心成為當下炙手可熱的存在。
回看整個數據中心產業發展可以大致分為三個階段,第一個階段,2010 年以前,中國數據中心行業的主力軍主要是三大電信運營商,以及少量的第三方中立 IDC 服務商,比如成立于 1999 年的世紀互聯,以及成立于 2001 年的萬國數據。這個時期的數據中心大多承載着電信通信的業務為主。
第二階段,2010 年— 2020 年前後,伴随着雲計算產業在中國的快速發展,互聯網成為時代的寵兒,這 10 年間湧現了大量的第三方數據中心供應商,而秦淮數據作為新興的超大規模數據中心廠商,成為順應這一階段高速發展互聯網業務的典型代表。IDC(互聯網數據中心 Internet Data Center)的名号也在此期間得以加強。
2020 年至今,随着企業對于多元算力需求的激增,GPU 開始大量在企業級數據中心得以應用,傳統的 IDC 也開始逐漸向 AIDC 轉變,人工智能技術正在重塑數據中心行業。
在 IDC 向 AIDC 轉變的過程中,用户和企業最容易感受到的一點就是——主流 CPU、GPU 功耗和伺服器節點功耗指數級增長,在秦淮數據 CTO 張炳華看來,當下的 AIDC 要具備高算力、高彈性、大規模、高效能和智能化五大能力,才能應對人工智能大模型帶來的算力供給和能耗挑戰。
高算力方面,随着大模型越來越大,智算中心需要提供更高的算力。從 CPU 到 GPU,從通用計算到異構計算,數據中心的性能提升了很多倍,機櫃的功率密度跳躍式增長,以使用 GB200 的伺服器為例,最大單機櫃功率已達 132kW,這就需要具備高性能的計算和數據處理能力,以支持復雜的人工智能算法和模型訓練。
高彈性方面,為了滿足用户多元化的需求,智算中心需要更彈性。" 目前,智算中心總體在向高效、開放、環保、智能方向發展,這是必然路徑。" 張炳華如是説," 同時 , 作為賦能人工智能發揮價值的核心底座,智算中心基礎設施同樣需要滿足更多差異化、多元化的算力場景需求,要通過彈性設計同時兼容風冷和液冷,兼容 CPU 和 GPU 等不同性能的計算和存儲資源,也要靈活匹配不同的算力部署。"
大規模方面,為了滿足人工智能對于算力龐大的需求,智算中心規模會越來越大,張炳華認為,未來單個智算集群需能提供 5~10 萬卡 GPU 大規模的算力和存儲資源," 要滿足人工智能應用對數據和計算的需求;未來單個 AZ(可用分區)數據中心的 IT 容量将從幾十 MW 級别增長到幾百 MW 級别。" 張炳華告訴钛媒體 APP。
高效能方面,除了提高交付效率外,作為公認的 " 電老虎 ",數據中心的能源消耗和環境保護一直是業内關注的重點,尤其是在 2020 年 9 月中國提出了 "3060" 的雙碳戰略目标之後,如何 " 減碳增效 " 成為 IDC 行業關注的焦點,即便在 AIDC 時代,能效依然是關鍵指标。智算中心的節能環保已經被提升到了一個全新的高度。張炳華對钛媒體 APP 表示,在提高能效方面,智算中心需要充分利用自然資源,采用數據中心全棧式解決方案,通過優化設計和運營策略,實現極簡供電、極致冷卻,降低數據中心的能源消耗,提高能效比。
智能化方面,主要體現在智算中心的智能化管理。復雜性和多樣性的業務需求對數據中心運維工具系統提出了更高要求,傳統運維工具對運維管理的提升構成了嚴重的制約,甚至在一定程度上影響着業務的穩定性和安全性。在張炳華看來,智算中心在為 AI 提供底層支撐的同時,也需要借助 AI 和機器學習的能力,實現數據中心的自動化管理和優化,包括智能監控、智能預測、智能散熱、故障智能定位,提高運營效率。
高算力、碳中和要兼顧
在 AIDC 發展的過程中,如何做到高質量算力與碳中和的 " 既要 .... 又要 ....",已成為眾多 IDC 廠商戰略布局的關鍵。
從能耗占比角度出發,數據中心内部 IT 設備耗能占比超 60%,非 IT 設備能耗不到 40%。其中,空調設備能耗占比最大,超過 20%。目前數據中心節能減排技術焦點主要還是集中在制冷系統。
" 過去 5 年間,GPU 算力增長近 90 倍。" 中國工程院院士劉韻潔曾公開表示,伴随着算力增加而來的就是芯片能耗的增加。目前主流系列處理器功耗已達 350~400TDP/W。這還僅是 CPU 的功耗,而 GPU 的功耗遠遠高于 CPU,以英偉達 H100 為例,構建萬卡的 H100 智算中心集群,其 IT 功耗可達 10MW。并且随着摩爾定律逐漸失效,在後摩爾定律時代下,芯片算力與其功耗仍将大幅提升。
根據 IDC 測算,預計到 2027 年,AI 數據中心容量的復合年增長率 ( CAGR ) 将達到 40.5%,與此同時 AI 數據中心的能源消耗預計将以 44.7% 的 CAGR 增長,到 2027 年達到 146.2 太瓦時 ( TWh ) 。
從技術發展上看,近兩年液冷技術從 "PPT 畫餅 " 逐漸走向了成熟落地應用,據科智咨詢預計,2024 年中國液冷數據中心市場将同比增長 53%,市場規模将增長至 236 億元;預計 2022 — 2027 年,中國液冷數據中心市場将以 59% 的復合增長率持續蓬勃發展;預計到 2027 年,随着 AI 系列應用的規模化落地以及液冷生态的日趨成熟,市場規模将突破千億大關。
這個過程中,不僅是諸如寧暢、浪潮信息這樣的硬體設備供應商涉足這個賽道,IDC 服務商也開始逐漸在液冷領網域開發產品和解決方案。以秦淮數據為例,張炳華告訴钛媒體 APP,為了滿足大模型時代對更大計算所需的冷卻需求,秦淮數據也早已在冷板式液冷和浸沒式液冷技術方面進行布局,目前可支持高達 150kW 的高密度機櫃。
張炳華認為,是否應用液冷主要還是取決于用户對于技術的接受度," 目前大多數用户還是喜歡采用傳統風冷的方案,因為它是解耦的,技術發展也更為(與液冷相比)成熟," 張炳華指出," 同時,以冷板液冷為例,冷卻工質大多采用純水加藥或以純水為基礎的配方液,或者用乙二醇、丙二醇溶液,運行時間久了有管道腐蝕、漏液的風險。"
不過,在張炳華看來,上述的痛點目前行業内已經有一些辦法可以解決,最終影響用户對液冷的選擇,還是硬體設備的耦合度、标準化程度,甚至是成本和生态的完善度," 通過這些舉措可以提升用户對于應用液冷的接受度," 張炳華告訴钛媒體 APP。
無獨有偶,中國信息通信研究院雲計算與大數據研究所總工程師郭亮也曾表示,随着英偉達 Blackwell 架構的 GPU 芯片產品(預計于今年第四季出貨)的部署,将推動液冷散熱方案的滲透率明顯增長,從 2024 年的 10% 左右至 2025 年将突破 20%。
除此之外,張炳華認為,随着技術程度、标準化,以及生态的完善,液冷的部署成本也會越來越低,這也會推動液冷技術在數據中心的應用。據賽迪顧問發布的《2023 中國液冷應用市場研究報告》,2022 年液冷數據中心 1kW 的散熱成本為近 6500 元,相比 2021 年已經下降了 54.2%,預計 2023 年 1kW 的散熱成本有望降至 5000 元左右,與傳統風冷的建設成本已基本持平。
從目前角度出發,張炳華認為風液混合是當前液冷應用較好的一種方式。基于此,秦淮數據開創性地在數據中心中采用 " 液側冷板液冷和風側磁懸浮相變 " 的冷卻組合系統。據張炳華介紹,該技術成功運用于秦淮數據華北某基地的兩棟數據中心項目,"2024 年上半年,項目中負載平穩的機房實際運行 PUE 低至 1.128,全年 WUE 預計僅為 0.15。相較于 IDEC 冷卻技術機房,該項目的冷卻技術大幅降低了電力和水資源消耗,每 100MW 可節約用電 3950 萬度,相當于降低标煤消耗 4850 噸,可節水 88 萬噸,約等于 233 個标準遊泳池的蓄水量。" 張炳華用一個個數據佐證了風液混合是當下滿足企業大規模智算需求的智算中心供冷最優解的觀點。
不只有液冷
除液冷之外,随着技術的發展,近年來數據中心供冷的方式已經從單一的傳統空調機組變得更多樣化,間接蒸發冷卻、磁懸浮冷機組等新一代制冷方式層出不窮,一種新型制冷系統,甚至諸如風液混合的多種制冷方式組合的形式在數據中心大規模應用的場景已經屢見不鮮。
以磁懸浮冷卻機組為例,該系統采用磁懸浮無油離心技術,實現無機械損耗,在免維護的同時,還可進一步提升冷卻系統的靈活性和可靠性,對此,張炳華表示,磁懸浮冷卻系統破解了單機櫃 10 至 35kW 高功率密度的空氣冷卻技術難題,創新的分布式冗餘方案可突破建築條件、氣候、水源制約,實現彈性适配按需部署," 該系統在秦淮數據華北和馬來西亞的數據中心已經得到使用,CLF(制冷負載系數)分别低至 0.08 和 0.15。" 張炳華與钛媒體 APP 分享了幾個應用磁懸浮冷卻系統的案例。
據钛媒體觀察,除了磁懸浮冷卻系統以外,2022 年秦淮數據還與維谛技術聯手發布了名為 " 玄冰 " 的無水冷卻技術,通過控制技術和感應技術高度協同," 玄冰 " 無水冷卻将制冷系統的輸出與環境温度緊密相連,可以充分利用自然冷能降低數據中心能耗,解決了北方地區數據中心所處地水資源匮乏和能耗限制," 每 100MW 規模的數據中心年節水量多達 120 萬噸,相當于 320 個國家遊泳中心水立方标準遊泳池的蓄水量,可滿足 10000 户四口之家的年用水量。" 張炳華介紹到。
除了 IDC 服務商積極布局減碳技術以外,硬體設備廠商也都在這方面進行布局,聯想集團推出了自研的海神(Neptune ™)温水水冷技術。該技術的核心優勢在于能實現 90% 的餘熱回收再利用,熱移除效率最高達 98%,可降低 42% 的能耗,并将數據中心 PUE 可降至 1.1 以下;浪潮信息、超聚變伺服器廠商等也紛紛在冷板式液冷方面進行布局 .....
另一方面,還有不少 IDC 服務商從供電方面,通過提升供電效率,進而降低數據中心碳排放,眾所周知,電在纜線中傳輸的過程中會產生熱量,同時也會消耗掉部分電能,而 " 電 " 作為數據中心不可或缺的唯一能量來源,如何能夠降低傳輸過程中的損耗,提高 " 電 " 在數據中心中的利用效率,同樣成為行業内關注的焦點。
以現有技術來看,采用 DR、RR 供電架構,UPS ECO、高壓直流等技術手段可有效降低 " 電 " 在傳輸過程中的損耗,因減少了逆變的過程,高壓直流一般可達到 96.5% 的利用率,甚至更高。
秦淮數據在算力大會期間發布了全新 " 玄鐵 " 極簡供電架構,對多個供電系統進行預制化、模塊化更新," 相比傳統配電模式,通過一體化集成和與土建解耦的彈性交付能力,‘玄鐵’智能電力模塊 3.0 可以實現整體測試、模塊部署、彈性擴容,大大節省占地面積,縮短現場交付周期。有效解決算力激增下數據中心供配電系統部署周期長、能源效率低、運維成本高等挑戰,保障供電全生命周期的安全可靠。" 張炳華告訴钛媒體 APP。
作為算力底座的數據中心已經步入了新的時代,這個時代下,如何在保證算力供給的前提下,實現碳中和目标,已經成為整個 IDC 行業上下遊需要共同面對的挑戰。(本文首發于钛媒體 APP,作者|張申宇,編輯丨蓋虹達)