今天小编分享的科技经验:算力底座更新,减碳、算力“全都要”,欢迎阅读。
《中国综合算力指数报告(2024)》中显示,截至 2024 年 6 月,中国在用算力中心的机架数量超过 830 万,算力规模达到 246 EFLOPS(以 FP32 精度计算),智能算力同比增速超过 65%。中国在 2025 年的目标是算力规模超过 300 EFLOPS。
通过数据可以看出,智能算力中心已经成为未来数据中心建设的主要趋势和方向。
算力底座步入 AIDC 时代
智算中心的火爆可以说一大半的功劳要归功于以 ChatGPT 为代表的人工智能技术在各行各业掀起了新一轮的革命,让智算中心成为当下炙手可热的存在。
回看整个数据中心产业发展可以大致分为三个阶段,第一个阶段,2010 年以前,中国数据中心行业的主力军主要是三大电信运营商,以及少量的第三方中立 IDC 服务商,比如成立于 1999 年的世纪互联,以及成立于 2001 年的万国数据。这个时期的数据中心大多承载着电信通信的业务为主。
第二阶段,2010 年— 2020 年前后,伴随着云计算产业在中国的快速发展,互联网成为时代的宠儿,这 10 年间涌现了大量的第三方数据中心供应商,而秦淮数据作为新兴的超大规模数据中心厂商,成为顺应这一阶段高速发展互联网业务的典型代表。IDC(互联网数据中心 Internet Data Center)的名号也在此期间得以加强。
2020 年至今,随着企业对于多元算力需求的激增,GPU 开始大量在企业级数据中心得以应用,传统的 IDC 也开始逐渐向 AIDC 转变,人工智能技术正在重塑数据中心行业。
在 IDC 向 AIDC 转变的过程中,用户和企业最容易感受到的一点就是——主流 CPU、GPU 功耗和伺服器节点功耗指数级增长,在秦淮数据 CTO 张炳华看来,当下的 AIDC 要具备高算力、高弹性、大规模、高效能和智能化五大能力,才能应对人工智能大模型带来的算力供给和能耗挑战。
高算力方面,随着大模型越来越大,智算中心需要提供更高的算力。从 CPU 到 GPU,从通用计算到异构计算,数据中心的性能提升了很多倍,机柜的功率密度跳跃式增长,以使用 GB200 的伺服器为例,最大单机柜功率已达 132kW,这就需要具备高性能的计算和数据处理能力,以支持复杂的人工智能算法和模型训练。
高弹性方面,为了满足用户多元化的需求,智算中心需要更弹性。" 目前,智算中心总体在向高效、开放、环保、智能方向发展,这是必然路径。" 张炳华如是说," 同时 , 作为赋能人工智能发挥价值的核心底座,智算中心基础设施同样需要满足更多差异化、多元化的算力场景需求,要通过弹性设计同时兼容风冷和液冷,兼容 CPU 和 GPU 等不同性能的计算和存储资源,也要灵活匹配不同的算力部署。"
大规模方面,为了满足人工智能对于算力庞大的需求,智算中心规模会越来越大,张炳华认为,未来单个智算集群需能提供 5~10 万卡 GPU 大规模的算力和存储资源," 要满足人工智能应用对数据和计算的需求;未来单个 AZ(可用分区)数据中心的 IT 容量将从几十 MW 级别增长到几百 MW 级别。" 张炳华告诉钛媒体 APP。
高效能方面,除了提高交付效率外,作为公认的 " 电老虎 ",数据中心的能源消耗和环境保护一直是业内关注的重点,尤其是在 2020 年 9 月中国提出了 "3060" 的双碳战略目标之后,如何 " 减碳增效 " 成为 IDC 行业关注的焦点,即便在 AIDC 时代,能效依然是关键指标。智算中心的节能环保已经被提升到了一个全新的高度。张炳华对钛媒体 APP 表示,在提高能效方面,智算中心需要充分利用自然资源,采用数据中心全栈式解决方案,通过优化设计和运营策略,实现极简供电、极致冷却,降低数据中心的能源消耗,提高能效比。
智能化方面,主要体现在智算中心的智能化管理。复杂性和多样性的业务需求对数据中心运维工具系统提出了更高要求,传统运维工具对运维管理的提升构成了严重的制约,甚至在一定程度上影响着业务的稳定性和安全性。在张炳华看来,智算中心在为 AI 提供底层支撑的同时,也需要借助 AI 和机器学习的能力,实现数据中心的自动化管理和优化,包括智能监控、智能预测、智能散热、故障智能定位,提高运营效率。
高算力、碳中和要兼顾
在 AIDC 发展的过程中,如何做到高质量算力与碳中和的 " 既要 .... 又要 ....",已成为众多 IDC 厂商战略布局的关键。
从能耗占比角度出发,数据中心内部 IT 设备耗能占比超 60%,非 IT 设备能耗不到 40%。其中,空调设备能耗占比最大,超过 20%。目前数据中心节能减排技术焦点主要还是集中在制冷系统。
" 过去 5 年间,GPU 算力增长近 90 倍。" 中国工程院院士刘韵洁曾公开表示,伴随着算力增加而来的就是芯片能耗的增加。目前主流系列处理器功耗已达 350~400TDP/W。这还仅是 CPU 的功耗,而 GPU 的功耗远远高于 CPU,以英伟达 H100 为例,构建万卡的 H100 智算中心集群,其 IT 功耗可达 10MW。并且随着摩尔定律逐渐失效,在后摩尔定律时代下,芯片算力与其功耗仍将大幅提升。
根据 IDC 测算,预计到 2027 年,AI 数据中心容量的复合年增长率 ( CAGR ) 将达到 40.5%,与此同时 AI 数据中心的能源消耗预计将以 44.7% 的 CAGR 增长,到 2027 年达到 146.2 太瓦时 ( TWh ) 。
从技术发展上看,近两年液冷技术从 "PPT 画饼 " 逐渐走向了成熟落地应用,据科智咨询预计,2024 年中国液冷数据中心市场将同比增长 53%,市场规模将增长至 236 亿元;预计 2022 — 2027 年,中国液冷数据中心市场将以 59% 的复合增长率持续蓬勃发展;预计到 2027 年,随着 AI 系列应用的规模化落地以及液冷生态的日趋成熟,市场规模将突破千亿大关。
这个过程中,不仅是诸如宁畅、浪潮信息这样的硬體设备供应商涉足这个赛道,IDC 服务商也开始逐渐在液冷领網域开发产品和解决方案。以秦淮数据为例,张炳华告诉钛媒体 APP,为了满足大模型时代对更大计算所需的冷却需求,秦淮数据也早已在冷板式液冷和浸没式液冷技术方面进行布局,目前可支持高达 150kW 的高密度机柜。
张炳华认为,是否应用液冷主要还是取决于用户对于技术的接受度," 目前大多数用户还是喜欢采用传统风冷的方案,因为它是解耦的,技术发展也更为(与液冷相比)成熟," 张炳华指出," 同时,以冷板液冷为例,冷却工质大多采用纯水加药或以纯水为基础的配方液,或者用乙二醇、丙二醇溶液,运行时间久了有管道腐蚀、漏液的风险。"
不过,在张炳华看来,上述的痛点目前行业内已经有一些办法可以解决,最终影响用户对液冷的选择,还是硬體设备的耦合度、标准化程度,甚至是成本和生态的完善度," 通过这些举措可以提升用户对于应用液冷的接受度," 张炳华告诉钛媒体 APP。
无独有偶,中国信息通信研究院云计算与大数据研究所总工程师郭亮也曾表示,随着英伟达 Blackwell 架构的 GPU 芯片产品(预计于今年第四季出货)的部署,将推动液冷散热方案的渗透率明显增长,从 2024 年的 10% 左右至 2025 年将突破 20%。
除此之外,张炳华认为,随着技术程度、标准化,以及生态的完善,液冷的部署成本也会越来越低,这也会推动液冷技术在数据中心的应用。据赛迪顾问发布的《2023 中国液冷应用市场研究报告》,2022 年液冷数据中心 1kW 的散热成本为近 6500 元,相比 2021 年已经下降了 54.2%,预计 2023 年 1kW 的散热成本有望降至 5000 元左右,与传统风冷的建设成本已基本持平。
从目前角度出发,张炳华认为风液混合是当前液冷应用较好的一种方式。基于此,秦淮数据开创性地在数据中心中采用 " 液侧冷板液冷和风侧磁悬浮相变 " 的冷却组合系统。据张炳华介绍,该技术成功运用于秦淮数据华北某基地的两栋数据中心项目,"2024 年上半年,项目中负载平稳的机房实际运行 PUE 低至 1.128,全年 WUE 预计仅为 0.15。相较于 IDEC 冷却技术机房,该项目的冷却技术大幅降低了电力和水资源消耗,每 100MW 可节约用电 3950 万度,相当于降低标煤消耗 4850 吨,可节水 88 万吨,约等于 233 个标准游泳池的蓄水量。" 张炳华用一个个数据佐证了风液混合是当下满足企业大规模智算需求的智算中心供冷最优解的观点。
不只有液冷
除液冷之外,随着技术的发展,近年来数据中心供冷的方式已经从单一的传统空调机组变得更多样化,间接蒸发冷却、磁悬浮冷机组等新一代制冷方式层出不穷,一种新型制冷系统,甚至诸如风液混合的多种制冷方式组合的形式在数据中心大规模应用的场景已经屡见不鲜。
以磁悬浮冷却机组为例,该系统采用磁悬浮无油离心技术,实现无机械损耗,在免维护的同时,还可进一步提升冷却系统的灵活性和可靠性,对此,张炳华表示,磁悬浮冷却系统破解了单机柜 10 至 35kW 高功率密度的空气冷却技术难题,创新的分布式冗余方案可突破建筑条件、气候、水源制约,实现弹性适配按需部署," 该系统在秦淮数据华北和马来西亚的数据中心已经得到使用,CLF(制冷负载系数)分别低至 0.08 和 0.15。" 张炳华与钛媒体 APP 分享了几个应用磁悬浮冷却系统的案例。
据钛媒体观察,除了磁悬浮冷却系统以外,2022 年秦淮数据还与维谛技术联手发布了名为 " 玄冰 " 的无水冷却技术,通过控制技术和感应技术高度协同," 玄冰 " 无水冷却将制冷系统的输出与环境温度紧密相连,可以充分利用自然冷能降低数据中心能耗,解决了北方地区数据中心所处地水资源匮乏和能耗限制," 每 100MW 规模的数据中心年节水量多达 120 万吨,相当于 320 个国家游泳中心水立方标准游泳池的蓄水量,可满足 10000 户四口之家的年用水量。" 张炳华介绍到。
除了 IDC 服务商积极布局减碳技术以外,硬體设备厂商也都在这方面进行布局,联想集团推出了自研的海神(Neptune ™)温水水冷技术。该技术的核心优势在于能实现 90% 的余热回收再利用,热移除效率最高达 98%,可降低 42% 的能耗,并将数据中心 PUE 可降至 1.1 以下;浪潮信息、超聚变伺服器厂商等也纷纷在冷板式液冷方面进行布局 .....
另一方面,还有不少 IDC 服务商从供电方面,通过提升供电效率,进而降低数据中心碳排放,众所周知,电在缆线中传输的过程中会产生热量,同时也会消耗掉部分电能,而 " 电 " 作为数据中心不可或缺的唯一能量来源,如何能够降低传输过程中的损耗,提高 " 电 " 在数据中心中的利用效率,同样成为行业内关注的焦点。
以现有技术来看,采用 DR、RR 供电架构,UPS ECO、高压直流等技术手段可有效降低 " 电 " 在传输过程中的损耗,因减少了逆变的过程,高压直流一般可达到 96.5% 的利用率,甚至更高。
秦淮数据在算力大会期间发布了全新 " 玄铁 " 极简供电架构,对多个供电系统进行预制化、模块化更新," 相比传统配电模式,通过一体化集成和与土建解耦的弹性交付能力,‘玄铁’智能电力模块 3.0 可以实现整体测试、模块部署、弹性扩容,大大节省占地面积,缩短现场交付周期。有效解决算力激增下数据中心供配电系统部署周期长、能源效率低、运维成本高等挑战,保障供电全生命周期的安全可靠。" 张炳华告诉钛媒体 APP。
作为算力底座的数据中心已经步入了新的时代,这个时代下,如何在保证算力供给的前提下,实现碳中和目标,已经成为整个 IDC 行业上下游需要共同面对的挑战。(本文首发于钛媒体 APP,作者|张申宇,编辑丨盖虹达)