今天小编分享的财经经验:万卡集群的AI数据中心,到底是如何运作的?,欢迎阅读。
文 | 硅谷 101
2024 年 7 月 22 日凌晨,xAI 创始人 Elon Musk 在推特上正式宣布,在凌晨 4:20 分正式启动了世界上最强的 AI 训练集群。
这个训练集群建设在美国田纳西州孟菲斯市,集合了 10 万个液冷 H100 芯片。
然而,这在当地却引发了居民们的抗议和不满。
这样巨大的 AI 训练集群每天会消耗 100 万加仑的水和 150 兆瓦的电力,因此也是引发了当地环保人士的担心和抗议。
随着万卡集群,甚至十万卡集群成为科技巨头们训练 AI 大模型的标配,这样的巨型数据中心到底意味着什么?
消耗电力好理解,那为什么会消耗如此多的水呢?冷却系统与供电系统等关键基础设施是如何运作的?目前数据中心的主计算芯片开始从 CPU 转向 GPU,这会带来如何的变革?
可能大家对 CPU、GPU 这类计算芯片了解较多,却很少会关注配套的基础设施。
但事实上,它们就像冰山藏在水下的部分一样,不仅是整个数据中心的支柱,还是至关重要的安全枢纽。
我们来揭秘一下万卡集群的数据中心到底是如何运作的,也非常荣幸邀请了专注于数据中心基础设施的公司维谛技术的多位专家一起来探讨,AI 爆发给数据中心的基础设施带来的挑战与机遇。
01 AI 时代数据中心面临的挑战
首先,我们先简单了解下,数据中心的组成结构。
从物理结构上来看,数据中心会划抽成三个系统,主机房、供电系统和冷却系统。
如果咱们把数据中心类比成一支军队,你看这主机房陈列的一排排机柜,像不像前线征战的士兵,它们承担着整个数据中心的核心功能——运算。
而冷却与供电系统则是军队后方的保障机构。冷却系统负责保障士兵的健康与安全,供电系统负责粮草的运送与分配。
此外还有综合管理系统来维护兵器等等,它们就像数据中心的 " 兵部尚书 ",虽然不在一线征战,却起到了关键作用。
如今一些数据中心开始由通用计算转向专用计算,其中以 AI 为主的数据中心被称为 " 智算数据中心 ",主力芯片从 CPU 变成了 GPU,这也将对所有基础设施带来巨大的挑战。
顾华
维谛技术市场营销与产品应用高级总监:
因为传统的 CPU 其实过去十多年的时间一直在采用的 X86 的结构,它 CPU 的功耗,包括伺服器的功耗都相对比较标准和恒定,所以我们在过去的近十多年的时间,看到数据中心的平均的机柜的功率密度,大概一直在 3~5 千瓦左右。
但是现在随着 GPU 的采用,AI 模型的推理和训练,需要集中大量的 GPU 来进行并行的浮点运算,需要通过集群的方式,通过軟體互联通信在非常小的空间里面集中大量的 GPU。
这使得 GPU 的伺服器,包括单机柜的功率密度会迅速的提高。所以我们也看到机柜的功率密度从过去的 5 千瓦,现在迅速的提升到了 10 千瓦、 20 千瓦、 40 千瓦,甚至 80 千瓦、100 千瓦以上。
智算机柜功率密度的提升对基础设施来说,我觉得主要有四大方面的挑战。
首先是给散热能力带来的挑战,第二个方面是给高效的能源供应带来的挑战,第三个是占地面积,第四是快速的部署。
所以,GPU 芯片的迅速更新迭代给数据中心配套设施带来了这四大挑战。如何应对这四个问题,我们先来看看冷却系统,为什么它会如此耗水?
02 冷却系统
Chapter 2.1 冷却系统的重要性
电子器件运行时会产生热量,而芯片对热量尤其敏感,如果过热,轻则触发芯片的自我保护机制,降低运行频率,重则导致伺服器故障,业务中断,甚至烧毁硬體。
随着数据中心的功率密度越来越高,这时如果冷却系统发生故障,留给维护人员的反应时间,可能只有一两分钟。
王超
维谛技术热管理解决方案部高级经理:
如果单机柜到了 10 千瓦,按照我们过去的仿真经验,可能很快,一两分钟,(环境)就能到 30 多度甚至 40 度,那就宕机了。
因此,芯片算力的更新也直接带来了对数据中心冷却系统的更新需求。我们在《抢电、圈地、对赌,深聊科技巨头的千亿美元 AI 能源大战》那期文章里也讲过,随着功率密度的提升,厂商们开始转向液冷方案。
而恰恰是这个液冷,导致了不少环保人士抵制。
除了开头说的 xAI 训练集群外,2023 年乌拉圭民众也联合抗议谷歌建设数据中心,还有新墨西哥州的农民抗议 Meta 数据中心迁入。
大家抵制的原因之一就是,这些数据中心耗水太多,甚至加剧了当地的干旱情况。
那为什么液冷会消耗如此多的水呢?
Chapter 2.2 液冷为何如此耗水
在回答这个问题前,我们需要简单科普下冷却系统的结构。目前冷却系统主要分为两个大类,风冷与液冷。
我们先来聊聊风冷。如果你进入过数据中心,那第一感觉应该是:太吵了!这个噪音就来自于机柜中用于给芯片降温的风扇。
风扇的作用是将芯片的热量散发到空气中,但如果热量全部堆积在空气中,也会降低散热效果,所以还需要空调对空气降温。
空调也分为很多种,我们这里就不一一举例了。
显而易见的是,空气的热交换效率较低,在功率密度不断提升下,必须采用效率更高的散热介质,那就是液体。
液冷散热的原理就是通过水的蒸发潜热带走芯片的热量,液冷散热也分为很多种,目前全球主流的两类是冷板液冷和浸没液冷。
当然在国内还有一种是喷淋液冷技术。喷淋也是一个比较创新的技术,但这个技术目前还是受到了一定的限制,所以不是很多。
冷板液冷是让冷板与芯片紧密贴合,让芯片热量传导至冷板中的冷却液,并将冷却液中的热量运输至后端冷却。
而浸没液冷是将整个主機板都浸没在特定液体中,但对于目前主流的 GPU 设备来说,浸没液冷却不太适用。
维谛技术热管理解决方案部高级经理:
因为所有 GPU 它都是还是按照冷板液冷这种规格来开发的,所以不太适配浸没。
冷却系统会分为一次侧和二次侧,一次侧是将整体热量散走,并与二次侧的冷却分发单元(Cooling Distribution Units,简称 CDU)来交换热量。
通常提到的液冷散热,都是指二次侧,由 CDU 将冷水分配到各个机柜中。而当前的液冷散热系统一次侧大部分也是水冷方式,最终在室外通过水的显热交换和潜热交换带走全部热量。
显热交换是水在加热或冷却过程中,会吸收或释放的热量,水的状态不变。
而潜热交换就是水在相变过程中,如蒸发、凝结、融化、凝固时,吸收或释放的热量,而温度保持不变。
就像咱们天气热时,如果给房间放一盆水,水温慢慢升高,这就是显热交换;同时水会慢慢蒸发,这就是潜热交换,两种交换共同进行,使得水盆上方的空气温度降低。
前面我们说到环保人士抵制 AI 数据中心,就是因为万卡集群的 AI 数据中心,浪费的水实在太多了。
这其实就回到那个规模效应了,如果说咱们只是建一两个数据中心,比如就是像 20 兆瓦,或者甚至即使到 100 兆瓦都没事。但是如果进一步扩大,那个耗水量是非常巨大的,可能会对当地的地下水资源有一定的影响,可以肯定一定会存在数据中心和人抢水的这个问题。
你可能想问,就算水蒸发了,那不是还会变成雨降下来吗?为什么会被称为 " 浪费 " 呢?我们分两个方面来说。
首先,水蒸发后变成云,飘到哪儿降落就不好说了,数据中心就像个抽水机,把当地的水抽走后送到了其他地方,对于原本降雨量低的地区,加剧了干旱情况。
其次,数据中心对水的质量要求也不低,但高质量的水蒸发后,如果降落在污染地或海面,这些水很难再利用了。
同时,使用高质量的水,也意味着数据中心要和居民抢水,甚至可能造成民用水不够的情况。
那为什么一定要用高质量的水呢?
水如果蒸发,它就会跟制冷设备的一些部件会有接触,不管是水滴还是水雾,它到制冷设备上面,如果水质不太好,比如酸碱度不太好,偏酸偏碱都可能会导致腐蚀。如果钙镁离子的含量比较多,就像咱们家里烧开水一样,那可能水垢就会附着在表面上。
一旦水垢附着在换热设备的表面,带来的影响就是换热设备的效率会下降。本来我是 200 千瓦的散热量,但是因为水沟问题,可能会导致它衰减到 80%,甚至更低,那带来的就是冷量可能不够这一类的问题。
有报道称,每个数据中心平均每天要消耗 100 万到 500 万加仑的水,比如开头提到的 xAI 万卡集群,每天消耗 100 万加仑的水,可供 3000 多户家庭使用一天。
而 GPT-3 在训练期间消耗了 700 万吨水,后续的推理阶段,每回答 20 个问题,就相当于倒掉了一瓶 500 毫升的矿泉水。
NPJ 的一份名为《数据中心用水调查》报告显示,数据中心耗水来源 58% 是饮用水,这其中还存在耗水不透明度的问题,长此以往甚至会造成气候风险。
所以也难怪 AI 数据中心会遭到抵制了。
同时,也有企业做过海底数据中心,如此一来不就解决了耗水问题吗?但很遗憾,这就涉及到冷却系统面临的另一大挑战,经济账的问题了。
Chapter 2.3 冷却系统的经济账
海底数据中心就是把伺服器放置在壳体内并沉到海水里,因为海水的温度较低,可以直接为壳体降温,而且不需要额外补充机械能。
听上去是个既节能又环保的方案,但维谛的专家告诉我们,这将对技术提出更高的要求。
因为沉到海水里边,整个数据中心的壳体、包括一些光缆还有电缆之类的,它都要能下海,其实提出了更高的要求。
更高的技术要求,就意味着企业需要在研发上投入更多,但长期来看,这确实是一个创新的解决方案。
除了技术难题外,冷却系统的用电也一直居高不下。有数据显示,冷却系统通常占数据中心平均电力消耗的 40%,不少巨头都在努力降低冷却系统的能源消耗,但搞不好反而会弄巧成拙。
有论文研究称,数据中心每将送风温度提高 1 ° C,可以降低大约 2-5% 的制冷功率,因此数据中心开始呈现把冷却系统温度从 75 ℉(约 23.9 ℃)提高到 85 ℉(约 29.4 ℃)的趋势,连谷歌也采取了这样的做法。
但这个做法还挺危险的,这相当于你設定的温度,距离数据中心能承受最高温度的缓冲区间缩窄了,反倒会导致系统性风险。
比如,2021 年,新加坡一家数据中心运营商为了节省冷却成本,将温度提高到危险的临界水平,结果导致数据中心伺服器大面积故障,这种情况持续了近一周,真是得不偿失。
同时,这篇论文也发出了警告:数据中心受到热攻击的原因之一,是因为采用了激进的冷却策略,也就是系统温度設定的太高,减少了冗余度。
所以如何让冷却系统更节能,成为了 AI 时代的挑战之一。
维谛技术的专家告诉我们,要降低冷却系统能耗,主要分为三大方向。
现在从节能角度来讲,其实是可以分为三大方向。一个是从风侧来做自然冷来做节能,然后另外的话就是水侧自然冷,还有就是氟侧自然冷。
所谓的 " 自然冷 "(Free-Cooling),是指利用室外的低温冷源,来给室内降温,达到降低能耗的一种技术方法。
想象一下冬天我们闷在房间里非常热,如果打开窗户让室外的冷空气进入,房间就凉快了,这就是自然冷。
而风侧自然冷,就是在窗户边放一些风扇向房间吹风,加速室外冷空气进入。
水侧自然冷和氟侧自然冷,则是将导体替换为了水和氟。
风侧自然冷它是受地理条件的限制比较大,因为它是会把新风引到机房里来,对空气质量之类有一定的要求,其实就是即使做新风也是会结合一些机械冷的。从我们来讲,我们还是更专注于水侧自然冷和氟侧自然冷。
氟侧自然冷就是我们常规的风冷空调这个系统,在温度相对来说比较低,以及冬季的时候,来通过氟泵工作来利用室外自然冷源,那这会就不需要开压缩机了,压缩机的功耗就是整个系统里边制冷功耗最大的部分,那如果可以在一部分时间里边把压缩机替换成氟泵,因为氟泵的功率是很低的,那当然可以大大的节约能耗。
水侧自然冷,做节能就是通过室外的一些蒸发之类的,把它的那个冷的能力间接的带到室内来。
风侧自然冷受到地理限制较大,水侧自然冷蒸发的水太多,所以目前既省电又省水的方案,就是氟侧自然冷。
氟侧自然冷它就是一个无水的智能解决方案,天然的它就不需要水,它是靠氟泵、靠冷媒来实现自然冷的,不需要靠水的蒸发。
但这种方式就对技术提出了很大挑战,需要长期的积累经验,才能控制好整套系统。
怎么才能更好的控制,让氟泵的工作时长更长一点点,让氟泵和压缩机的切换能够更加的稳定、更少的波动、然后让它更节能。它的难度是比做水侧自然冷是要更难的,所以最大的难点就还是在于技术储备。
除了节能环保外,如今数据中心还面临着芯片更新的挑战。
我们之前的文章中有提到,英伟达新出的 Blackwell 芯片,由于功耗上升,老旧的数据中心难以直接部署,甚至一些公司由于业务转型,需要将以 CPU 为主的计算设备,更新到以 GPU 为主,如何改造成了当下的难题。
Chapter 2.4 数据中心如何更新?
在 AI 来之前,数据中心的分类其实都是以风冷为主的,那它的单机柜功率密度才 5~10 千瓦,而且其实 10 千瓦的都不是很多了,主要是 5~6 千瓦这样的为主。那现在我要更新智算,首先要把风冷设备的散热量加够,然后再去额外的再去补充液冷部分。
既然冷却系统可以更新,为什么还有些企业会选择花很多资金重建数据中心呢?这就不得不说到,旧机房更新的瓶颈了。
对于制冷它主要就是空间的问题,一般情况下,从我们当前的设计经验来看,制冷设备的空间往往可能是够的。因为原先的单机柜 6 千瓦,现在单机柜 40 千瓦,那单机柜的功率密度提升了 6 倍还多,原先 6 个机柜解决的问题,现在只需要一个机柜。
行业里边有一个说法,就是数据中心的尽头其实是电力,所以咱们在扩容的时候,往往首先要考虑的还是电力的问题。
为什么电力是制约数据中心更新的因素?AI 爆发又给供电系统带来了哪些挑战呢?接下来我们聊聊供电系统。
03 供电系统
Chapter 3.1 AI 给供电系统带来的挑战
我们在 AI 电力争夺战那期文章里讲过,AI 数据中心带来了大量电能消耗,未来将给电网带来供应缺口,其实不止是外部的电网,AI 数据中心内部的供电也同样面临巨大压力,其中很大的因素就在于占地面积。
赵呈涛
维谛技术 ACP 解决方案部高级经理:
因为整个的功率密度提升,供配电和 IT 机房的占比出现了很大的偏差,占地面积成为了一个很大的挑战。
正是因为这些难点,成为了老旧数据中心更新困难的原因,其中最为棘手的就是占地问题。
在解析这个问题前,为了便于大家理解,我们先简单介绍下供电系统的结构。
Chapter 3.2 供电系统结构及占地问题
供电系统的结构主要分为四个层级:市电或发电机将电能输送到变配电系统,变配电系统会给冷却系统、不间断电源(Uninterruptible Power Supply,即 UPS)供电,UPS 再将电能送到主机房的电源分配单元(Power Distribution Unit,即 PDU),由 PDU 给每个机柜分配电能。
其中发电机是为了在市电发生故障时有应急的电力输入,但发电机启动需要一定时间,而 UPS 包含了大容量电池,能保证伺服器继续运行 5 到 15 分钟,为发电机启动争取时间。
当然,供电系统还会根据市电线路数和冗余结构的不同,分为 DR 架构、RR 架构、2N 架构,这里我们就不多赘述了。
那回到占地面积的问题,由于伺服器功耗增加后,需要额外的供电设备,但是,供电设备实在太占地了。
从传统的数据中心建设来看,它会有传统的中压室、低压室、电力室、电池室等等,这些传统的产品都会通过线来做连接,这些物理连接由于它是分散于各个厂家的产品,它的标准的制式、标准的体积都不是很融合,另外一个它们的整个的部署的物理距离,中间的一般都是都会有一些间隙。
所以有限的空间成了制约老旧数据中心更新的痛点,想发展 AI,重建数据中心成了更好的选择。
但数据中心的设计寿命有 20 到 30 年,GPU 换代一般是 3~5 年,总不能隔几年就重建一次吧,为此行业发展出了新的方向,那就是设备一体化。
Chapter 3.3 设备一体化与效率提升
我们针对占地面积的问题,推出了交流直流供配电一体化的电力模组,就像我们传统的组装式的电腦,现在变成了一体机是一样的,我们通过将 UPS、供配电、变压器、补偿、馈电柜多个产品融合为一体,提供了一个工程产品化的一个产品,这样可以将我们占地面积减少至少 30%。
当然我们还有一个新型的解决方案,我们的供配电电力模组,采用背靠背的这种方式,通过上送风,这样的话我们可以把传统的电力层面积再缩小 50%。
缩小其他设备的占地面积不光有利于老旧数据中心的更新,新的数据中心也能带来更高的经济效益,因为腾出来的空间就可以多摆点计算用的机柜、多一些算力,缩短模型的训练与推理时间。
除了缩小设备占地外,供电系统的另一个趋势是提升电能传输效率。
众所周知,每个设备都有电阻,电能在一层层设备的转换中,总会伴随着能量损失,如此一来为了满足伺服器机柜的电能需求,前端的供配电设备需要留有更多冗余、占据更大面积。
而提升传输效率后,不仅能减少设备的数量,还能降低数据中心的能耗,达到节能减排的效果。
那该从哪些方面来提升效率呢?
第一,UPS 我们采用了碳化硅的产品线,将整个的效率提升了很多。第二,我们采用了 SCB 的多晶合金的变压器,第三通过以传统的线缆方式改用铜牌的方式来连接,进一步降低了线路的损耗来提升它整体的效率。
为了提升末端配电的负载,我们推出了 1000 安培的小母线,这样伺服器未来可以扩容 100 千瓦、 150 千瓦。
最后,我们来聊聊顾华提到的第四个挑战,快速部署。有意思的是,行业为此竟然呈现出了 " 预制化 " 的趋势,这能行得通吗?
04 建设周期与快速部署
如今全球的 AI 战正打的火热,急剧增长的算力需求促使着各大公司新建 AI 数据中心,这就对整行业提出了建设速度的要求,毕竟 AI 数据中心早一天上线,就能带来更多经济效益。
大家也在纷纷尝试创新的解决方案,譬如 " 木质数据中心 ",用木材作为关键结构部件,来建设数据中心。
难道他们就不怕遇到地震、台风或者火灾啥的,把整个数据中心都弄没了吗?
其实尽管木质数据中心听上去是个非常激进的概念,但早在 2019 年就有公司就建成并投入使用了。
他们使用的也并不是那种直接从树上锯下的木板,而是名为正交胶合木(Cross-Laminated Timber,简称 CLT)的建筑材料。
这种材料具有极高的强度和均匀性,直接作为承重墙板或者楼板使用都没问题,同时它还有耐火的特性,英国就有栋名为 Stadthaus 的九层楼公寓,采用了 CLT 材料建成。
木质材料不仅能满足环保的要求,还能通过预制化,将整体的建设速度,加快 40%~80%。
当然,数据中心的建设不光是外部建筑,还有内部的基础设施需要定制。而现在,冷却系统与供电设备也走向了预制化的道路。
雷爱民
维谛技术综合解决方案架构部总监:
现在的智算中心,客户可能需要在 6 个月之内建设好,这也是传统建造方式的最快完工时间,而维谛的 360AI 智算解决方案,可以协助客户缩小 50% 左右的时间。
我们在海外和一些算力公司、互联网公司有合作,会根据它需要的算力,来定制全套的预制化基础设施。就是说已经提前把数据中心的基础设施配套好了,同时对里面的供电、制冷、軟體,甚至工程的材料的预制化,都进行了详细的部署。
将设备由定制改为预制,就能大幅节省工程时间,但这其中又会存在匹配性的问题。
不同的客户他确实有很大的需求上的差别,比如政府和金融项目,金融客户他最在乎的就高可靠性,他对创新、绿色持稳健的态度,但是对互联网公司来说,他在乎的就是创新性、成本、部署速度。所以说在这两种客户之间,我们提供的是差异化的服务、差异化的方案和服务。
不同的数据中心,都有自己独特的需求,如果失去了 " 定制 " 这个环节,是否意味着预制化的设备难以大量铺开呢?
专家给我们解释道,所谓的预制化,其实是预制了各个部件的模块,在一个统一的平台下,可以将这些模块按需求来组装,这样就能满足不同的客户。
维谛技术综合解决方案架构部总监:
维谛实际上它在长期的发展和实践里面,它形成了很多标准化的组件,所以说当一项新的需求来临的时候,我们可能优先去选择,在这个积木库里面,去提取一些适合我们这个新的场景的一些部件和组件,这样就可以高效率的搭建出一个适应客户新的需要的,这样的一个产品类型。
打个比方,就像我们买来的乐高积木,其实是很多通用的小块,它既可以拼成汽车,也能拼成飞机。
虽然我们常说,AI 的飞跃源自芯片的积累,然而,为芯片运行打下基石的,是基础设施的技术进步,它们如同无形的 " 兵部尚书 ",在幕后默默支持和调控着前线士兵的作战行动,让 AI 大模型训练顺利推进。
就像之前提到的,士兵的作战效率在提升,那么兵部尚书的水平也要相对提高,这对整个 AI 芯片的上下游市场都提出了更高的要求,是挑战也是机遇。
随着更高能力、更多参数以及更大 AI 模型的投入训练,也许我们会看到数据中心更快的更新迭代,有更多的技术创新来支持 AI 大模型的技术大战。