今天小編分享的财經經驗:萬卡集群的AI數據中心,到底是如何運作的?,歡迎閲讀。
文 | 硅谷 101
2024 年 7 月 22 日凌晨,xAI 創始人 Elon Musk 在推特上正式宣布,在凌晨 4:20 分正式啓動了世界上最強的 AI 訓練集群。
這個訓練集群建設在美國田納西州孟菲斯市,集合了 10 萬個液冷 H100 芯片。
然而,這在當地卻引發了居民們的抗議和不滿。
這樣巨大的 AI 訓練集群每天會消耗 100 萬加侖的水和 150 兆瓦的電力,因此也是引發了當地環保人士的擔心和抗議。
随着萬卡集群,甚至十萬卡集群成為科技巨頭們訓練 AI 大模型的标配,這樣的巨型數據中心到底意味着什麼?
消耗電力好理解,那為什麼會消耗如此多的水呢?冷卻系統與供電系統等關鍵基礎設施是如何運作的?目前數據中心的主計算芯片開始從 CPU 轉向 GPU,這會帶來如何的變革?
可能大家對 CPU、GPU 這類計算芯片了解較多,卻很少會關注配套的基礎設施。
但事實上,它們就像冰山藏在水下的部分一樣,不僅是整個數據中心的支柱,還是至關重要的安全樞紐。
我們來揭秘一下萬卡集群的數據中心到底是如何運作的,也非常榮幸邀請了專注于數據中心基礎設施的公司維谛技術的多位專家一起來探讨,AI 爆發給數據中心的基礎設施帶來的挑戰與機遇。
01 AI 時代數據中心面臨的挑戰
首先,我們先簡單了解下,數據中心的組成結構。
從物理結構上來看,數據中心會劃抽成三個系統,主機房、供電系統和冷卻系統。
如果咱們把數據中心類比成一支軍隊,你看這主機房陳列的一排排機櫃,像不像前線征戰的士兵,它們承擔着整個數據中心的核心功能——運算。
而冷卻與供電系統則是軍隊後方的保障機構。冷卻系統負責保障士兵的健康與安全,供電系統負責糧草的運送與分配。
此外還有綜合管理系統來維護兵器等等,它們就像數據中心的 " 兵部尚書 ",雖然不在一線征戰,卻起到了關鍵作用。
如今一些數據中心開始由通用計算轉向專用計算,其中以 AI 為主的數據中心被稱為 " 智算數據中心 ",主力芯片從 CPU 變成了 GPU,這也将對所有基礎設施帶來巨大的挑戰。
顧華
維谛技術市場營銷與產品應用高級總監:
因為傳統的 CPU 其實過去十多年的時間一直在采用的 X86 的結構,它 CPU 的功耗,包括伺服器的功耗都相對比較标準和恒定,所以我們在過去的近十多年的時間,看到數據中心的平均的機櫃的功率密度,大概一直在 3~5 千瓦左右。
但是現在随着 GPU 的采用,AI 模型的推理和訓練,需要集中大量的 GPU 來進行并行的浮點運算,需要通過集群的方式,通過軟體互聯通信在非常小的空間裏面集中大量的 GPU。
這使得 GPU 的伺服器,包括單機櫃的功率密度會迅速的提高。所以我們也看到機櫃的功率密度從過去的 5 千瓦,現在迅速的提升到了 10 千瓦、 20 千瓦、 40 千瓦,甚至 80 千瓦、100 千瓦以上。
智算機櫃功率密度的提升對基礎設施來説,我覺得主要有四大方面的挑戰。
首先是給散熱能力帶來的挑戰,第二個方面是給高效的能源供應帶來的挑戰,第三個是占地面積,第四是快速的部署。
所以,GPU 芯片的迅速更新迭代給數據中心配套設施帶來了這四大挑戰。如何應對這四個問題,我們先來看看冷卻系統,為什麼它會如此耗水?
02 冷卻系統
Chapter 2.1 冷卻系統的重要性
電子器件運行時會產生熱量,而芯片對熱量尤其敏感,如果過熱,輕則觸發芯片的自我保護機制,降低運行頻率,重則導致伺服器故障,業務中斷,甚至燒毀硬體。
随着數據中心的功率密度越來越高,這時如果冷卻系統發生故障,留給維護人員的反應時間,可能只有一兩分鍾。
王超
維谛技術熱管理解決方案部高級經理:
如果單機櫃到了 10 千瓦,按照我們過去的仿真經驗,可能很快,一兩分鍾,(環境)就能到 30 多度甚至 40 度,那就宕機了。
因此,芯片算力的更新也直接帶來了對數據中心冷卻系統的更新需求。我們在《搶電、圈地、對賭,深聊科技巨頭的千億美元 AI 能源大戰》那期文章裏也講過,随着功率密度的提升,廠商們開始轉向液冷方案。
而恰恰是這個液冷,導致了不少環保人士抵制。
除了開頭説的 xAI 訓練集群外,2023 年烏拉圭民眾也聯合抗議谷歌建設數據中心,還有新墨西哥州的農民抗議 Meta 數據中心遷入。
大家抵制的原因之一就是,這些數據中心耗水太多,甚至加劇了當地的幹旱情況。
那為什麼液冷會消耗如此多的水呢?
Chapter 2.2 液冷為何如此耗水
在回答這個問題前,我們需要簡單科普下冷卻系統的結構。目前冷卻系統主要分為兩個大類,風冷與液冷。
我們先來聊聊風冷。如果你進入過數據中心,那第一感覺應該是:太吵了!這個噪音就來自于機櫃中用于給芯片降温的風扇。
風扇的作用是将芯片的熱量散發到空氣中,但如果熱量全部堆積在空氣中,也會降低散熱效果,所以還需要空調對空氣降温。
空調也分為很多種,我們這裏就不一一舉例了。
顯而易見的是,空氣的熱交換效率較低,在功率密度不斷提升下,必須采用效率更高的散熱介質,那就是液體。
液冷散熱的原理就是通過水的蒸發潛熱帶走芯片的熱量,液冷散熱也分為很多種,目前全球主流的兩類是冷板液冷和浸沒液冷。
當然在國内還有一種是噴淋液冷技術。噴淋也是一個比較創新的技術,但這個技術目前還是受到了一定的限制,所以不是很多。
冷板液冷是讓冷板與芯片緊密貼合,讓芯片熱量傳導至冷板中的冷卻液,并将冷卻液中的熱量運輸至後端冷卻。
而浸沒液冷是将整個主機板都浸沒在特定液體中,但對于目前主流的 GPU 設備來説,浸沒液冷卻不太适用。
維谛技術熱管理解決方案部高級經理:
因為所有 GPU 它都是還是按照冷板液冷這種規格來開發的,所以不太适配浸沒。
冷卻系統會分為一次側和二次側,一次側是将整體熱量散走,并與二次側的冷卻分發單元(Cooling Distribution Units,簡稱 CDU)來交換熱量。
通常提到的液冷散熱,都是指二次側,由 CDU 将冷水分配到各個機櫃中。而當前的液冷散熱系統一次側大部分也是水冷方式,最終在室外通過水的顯熱交換和潛熱交換帶走全部熱量。
顯熱交換是水在加熱或冷卻過程中,會吸收或釋放的熱量,水的狀态不變。
而潛熱交換就是水在相變過程中,如蒸發、凝結、融化、凝固時,吸收或釋放的熱量,而温度保持不變。
就像咱們天氣熱時,如果給房間放一盆水,水温慢慢升高,這就是顯熱交換;同時水會慢慢蒸發,這就是潛熱交換,兩種交換共同進行,使得水盆上方的空氣温度降低。
前面我們説到環保人士抵制 AI 數據中心,就是因為萬卡集群的 AI 數據中心,浪費的水實在太多了。
這其實就回到那個規模效應了,如果説咱們只是建一兩個數據中心,比如就是像 20 兆瓦,或者甚至即使到 100 兆瓦都沒事。但是如果進一步擴大,那個耗水量是非常巨大的,可能會對當地的地下水資源有一定的影響,可以肯定一定會存在數據中心和人搶水的這個問題。
你可能想問,就算水蒸發了,那不是還會變成雨降下來嗎?為什麼會被稱為 " 浪費 " 呢?我們分兩個方面來説。
首先,水蒸發後變成雲,飄到哪兒降落就不好説了,數據中心就像個抽水機,把當地的水抽走後送到了其他地方,對于原本降雨量低的地區,加劇了幹旱情況。
其次,數據中心對水的質量要求也不低,但高質量的水蒸發後,如果降落在污染地或海面,這些水很難再利用了。
同時,使用高質量的水,也意味着數據中心要和居民搶水,甚至可能造成民用水不夠的情況。
那為什麼一定要用高質量的水呢?
水如果蒸發,它就會跟制冷設備的一些部件會有接觸,不管是水滴還是水霧,它到制冷設備上面,如果水質不太好,比如酸鹼度不太好,偏酸偏鹼都可能會導致腐蝕。如果鈣鎂離子的含量比較多,就像咱們家裏燒開水一樣,那可能水垢就會附着在表面上。
一旦水垢附着在換熱設備的表面,帶來的影響就是換熱設備的效率會下降。本來我是 200 千瓦的散熱量,但是因為水溝問題,可能會導致它衰減到 80%,甚至更低,那帶來的就是冷量可能不夠這一類的問題。
有報道稱,每個數據中心平均每天要消耗 100 萬到 500 萬加侖的水,比如開頭提到的 xAI 萬卡集群,每天消耗 100 萬加侖的水,可供 3000 多户家庭使用一天。
而 GPT-3 在訓練期間消耗了 700 萬噸水,後續的推理階段,每回答 20 個問題,就相當于倒掉了一瓶 500 毫升的礦泉水。
NPJ 的一份名為《數據中心用水調查》報告顯示,數據中心耗水來源 58% 是飲用水,這其中還存在耗水不透明度的問題,長此以往甚至會造成氣候風險。
所以也難怪 AI 數據中心會遭到抵制了。
同時,也有企業做過海底數據中心,如此一來不就解決了耗水問題嗎?但很遺憾,這就涉及到冷卻系統面臨的另一大挑戰,經濟賬的問題了。
Chapter 2.3 冷卻系統的經濟賬
海底數據中心就是把伺服器放置在殼體内并沉到海水裏,因為海水的温度較低,可以直接為殼體降温,而且不需要額外補充機械能。
聽上去是個既節能又環保的方案,但維谛的專家告訴我們,這将對技術提出更高的要求。
因為沉到海水裏邊,整個數據中心的殼體、包括一些光纜還有電纜之類的,它都要能下海,其實提出了更高的要求。
更高的技術要求,就意味着企業需要在研發上投入更多,但長期來看,這确實是一個創新的解決方案。
除了技術難題外,冷卻系統的用電也一直居高不下。有數據顯示,冷卻系統通常占數據中心平均電力消耗的 40%,不少巨頭都在努力降低冷卻系統的能源消耗,但搞不好反而會弄巧成拙。
有論文研究稱,數據中心每将送風温度提高 1 ° C,可以降低大約 2-5% 的制冷功率,因此數據中心開始呈現把冷卻系統温度從 75 ℉(約 23.9 ℃)提高到 85 ℉(約 29.4 ℃)的趨勢,連谷歌也采取了這樣的做法。
但這個做法還挺危險的,這相當于你設定的温度,距離數據中心能承受最高温度的緩衝區間縮窄了,反倒會導致系統性風險。
比如,2021 年,新加坡一家數據中心運營商為了節省冷卻成本,将温度提高到危險的臨界水平,結果導致數據中心伺服器大面積故障,這種情況持續了近一周,真是得不償失。
同時,這篇論文也發出了警告:數據中心受到熱攻擊的原因之一,是因為采用了激進的冷卻策略,也就是系統温度設定的太高,減少了冗餘度。
所以如何讓冷卻系統更節能,成為了 AI 時代的挑戰之一。
維谛技術的專家告訴我們,要降低冷卻系統能耗,主要分為三大方向。
現在從節能角度來講,其實是可以分為三大方向。一個是從風側來做自然冷來做節能,然後另外的話就是水側自然冷,還有就是氟側自然冷。
所謂的 " 自然冷 "(Free-Cooling),是指利用室外的低温冷源,來給室内降温,達到降低能耗的一種技術方法。
想象一下冬天我們悶在房間裏非常熱,如果打開窗户讓室外的冷空氣進入,房間就涼快了,這就是自然冷。
而風側自然冷,就是在窗户邊放一些風扇向房間吹風,加速室外冷空氣進入。
水側自然冷和氟側自然冷,則是将導體替換為了水和氟。
風側自然冷它是受地理條件的限制比較大,因為它是會把新風引到機房裏來,對空氣質量之類有一定的要求,其實就是即使做新風也是會結合一些機械冷的。從我們來講,我們還是更專注于水側自然冷和氟側自然冷。
氟側自然冷就是我們常規的風冷空調這個系統,在温度相對來説比較低,以及冬季的時候,來通過氟泵工作來利用室外自然冷源,那這會就不需要開壓縮機了,壓縮機的功耗就是整個系統裏邊制冷功耗最大的部分,那如果可以在一部分時間裏邊把壓縮機替換成氟泵,因為氟泵的功率是很低的,那當然可以大大的節約能耗。
水側自然冷,做節能就是通過室外的一些蒸發之類的,把它的那個冷的能力間接的帶到室内來。
風側自然冷受到地理限制較大,水側自然冷蒸發的水太多,所以目前既省電又省水的方案,就是氟側自然冷。
氟側自然冷它就是一個無水的智能解決方案,天然的它就不需要水,它是靠氟泵、靠冷媒來實現自然冷的,不需要靠水的蒸發。
但這種方式就對技術提出了很大挑戰,需要長期的積累經驗,才能控制好整套系統。
怎麼才能更好的控制,讓氟泵的工作時長更長一點點,讓氟泵和壓縮機的切換能夠更加的穩定、更少的波動、然後讓它更節能。它的難度是比做水側自然冷是要更難的,所以最大的難點就還是在于技術儲備。
除了節能環保外,如今數據中心還面臨着芯片更新的挑戰。
我們之前的文章中有提到,英偉達新出的 Blackwell 芯片,由于功耗上升,老舊的數據中心難以直接部署,甚至一些公司由于業務轉型,需要将以 CPU 為主的計算設備,更新到以 GPU 為主,如何改造成了當下的難題。
Chapter 2.4 數據中心如何更新?
在 AI 來之前,數據中心的分類其實都是以風冷為主的,那它的單機櫃功率密度才 5~10 千瓦,而且其實 10 千瓦的都不是很多了,主要是 5~6 千瓦這樣的為主。那現在我要更新智算,首先要把風冷設備的散熱量加夠,然後再去額外的再去補充液冷部分。
既然冷卻系統可以更新,為什麼還有些企業會選擇花很多資金重建數據中心呢?這就不得不説到,舊機房更新的瓶頸了。
對于制冷它主要就是空間的問題,一般情況下,從我們當前的設計經驗來看,制冷設備的空間往往可能是夠的。因為原先的單機櫃 6 千瓦,現在單機櫃 40 千瓦,那單機櫃的功率密度提升了 6 倍還多,原先 6 個機櫃解決的問題,現在只需要一個機櫃。
行業裏邊有一個説法,就是數據中心的盡頭其實是電力,所以咱們在擴容的時候,往往首先要考慮的還是電力的問題。
為什麼電力是制約數據中心更新的因素?AI 爆發又給供電系統帶來了哪些挑戰呢?接下來我們聊聊供電系統。
03 供電系統
Chapter 3.1 AI 給供電系統帶來的挑戰
我們在 AI 電力争奪戰那期文章裏講過,AI 數據中心帶來了大量電能消耗,未來将給電網帶來供應缺口,其實不止是外部的電網,AI 數據中心内部的供電也同樣面臨巨大壓力,其中很大的因素就在于占地面積。
趙呈濤
維谛技術 ACP 解決方案部高級經理:
因為整個的功率密度提升,供配電和 IT 機房的占比出現了很大的偏差,占地面積成為了一個很大的挑戰。
正是因為這些難點,成為了老舊數據中心更新困難的原因,其中最為棘手的就是占地問題。
在解析這個問題前,為了便于大家理解,我們先簡單介紹下供電系統的結構。
Chapter 3.2 供電系統結構及占地問題
供電系統的結構主要分為四個層級:市電或發電機将電能輸送到變配電系統,變配電系統會給冷卻系統、不間斷電源(Uninterruptible Power Supply,即 UPS)供電,UPS 再将電能送到主機房的電源分配單元(Power Distribution Unit,即 PDU),由 PDU 給每個機櫃分配電能。
其中發電機是為了在市電發生故障時有應急的電力輸入,但發電機啓動需要一定時間,而 UPS 包含了大容量電池,能保證伺服器繼續運行 5 到 15 分鍾,為發電機啓動争取時間。
當然,供電系統還會根據市電線路數和冗餘結構的不同,分為 DR 架構、RR 架構、2N 架構,這裏我們就不多贅述了。
那回到占地面積的問題,由于伺服器功耗增加後,需要額外的供電設備,但是,供電設備實在太占地了。
從傳統的數據中心建設來看,它會有傳統的中壓室、低壓室、電力室、電池室等等,這些傳統的產品都會通過線來做連接,這些物理連接由于它是分散于各個廠家的產品,它的标準的制式、标準的體積都不是很融合,另外一個它們的整個的部署的物理距離,中間的一般都是都會有一些間隙。
所以有限的空間成了制約老舊數據中心更新的痛點,想發展 AI,重建數據中心成了更好的選擇。
但數據中心的設計壽命有 20 到 30 年,GPU 換代一般是 3~5 年,總不能隔幾年就重建一次吧,為此行業發展出了新的方向,那就是設備一體化。
Chapter 3.3 設備一體化與效率提升
我們針對占地面積的問題,推出了交流直流供配電一體化的電力模組,就像我們傳統的組裝式的電腦,現在變成了一體機是一樣的,我們通過将 UPS、供配電、變壓器、補償、饋電櫃多個產品融合為一體,提供了一個工程產品化的一個產品,這樣可以将我們占地面積減少至少 30%。
當然我們還有一個新型的解決方案,我們的供配電電力模組,采用背靠背的這種方式,通過上送風,這樣的話我們可以把傳統的電力層面積再縮小 50%。
縮小其他設備的占地面積不光有利于老舊數據中心的更新,新的數據中心也能帶來更高的經濟效益,因為騰出來的空間就可以多擺點計算用的機櫃、多一些算力,縮短模型的訓練與推理時間。
除了縮小設備占地外,供電系統的另一個趨勢是提升電能傳輸效率。
眾所周知,每個設備都有電阻,電能在一層層設備的轉換中,總會伴随着能量損失,如此一來為了滿足伺服器機櫃的電能需求,前端的供配電設備需要留有更多冗餘、占據更大面積。
而提升傳輸效率後,不僅能減少設備的數量,還能降低數據中心的能耗,達到節能減排的效果。
那該從哪些方面來提升效率呢?
第一,UPS 我們采用了碳化硅的產品線,将整個的效率提升了很多。第二,我們采用了 SCB 的多晶合金的變壓器,第三通過以傳統的線纜方式改用銅牌的方式來連接,進一步降低了線路的損耗來提升它整體的效率。
為了提升末端配電的負載,我們推出了 1000 安培的小母線,這樣伺服器未來可以擴容 100 千瓦、 150 千瓦。
最後,我們來聊聊顧華提到的第四個挑戰,快速部署。有意思的是,行業為此竟然呈現出了 " 預制化 " 的趨勢,這能行得通嗎?
04 建設周期與快速部署
如今全球的 AI 戰正打的火熱,急劇增長的算力需求促使着各大公司新建 AI 數據中心,這就對整行業提出了建設速度的要求,畢竟 AI 數據中心早一天上線,就能帶來更多經濟效益。
大家也在紛紛嘗試創新的解決方案,譬如 " 木質數據中心 ",用木材作為關鍵結構部件,來建設數據中心。
難道他們就不怕遇到地震、台風或者火災啥的,把整個數據中心都弄沒了嗎?
其實盡管木質數據中心聽上去是個非常激進的概念,但早在 2019 年就有公司就建成并投入使用了。
他們使用的也并不是那種直接從樹上鋸下的木板,而是名為正交膠合木(Cross-Laminated Timber,簡稱 CLT)的建築材料。
這種材料具有極高的強度和均勻性,直接作為承重牆板或者樓板使用都沒問題,同時它還有耐火的特性,英國就有棟名為 Stadthaus 的九層樓公寓,采用了 CLT 材料建成。
木質材料不僅能滿足環保的要求,還能通過預制化,将整體的建設速度,加快 40%~80%。
當然,數據中心的建設不光是外部建築,還有内部的基礎設施需要定制。而現在,冷卻系統與供電設備也走向了預制化的道路。
雷愛民
維谛技術綜合解決方案架構部總監:
現在的智算中心,客户可能需要在 6 個月之内建設好,這也是傳統建造方式的最快完工時間,而維谛的 360AI 智算解決方案,可以協助客户縮小 50% 左右的時間。
我們在海外和一些算力公司、互聯網公司有合作,會根據它需要的算力,來定制全套的預制化基礎設施。就是説已經提前把數據中心的基礎設施配套好了,同時對裏面的供電、制冷、軟體,甚至工程的材料的預制化,都進行了詳細的部署。
将設備由定制改為預制,就能大幅節省工程時間,但這其中又會存在匹配性的問題。
不同的客户他确實有很大的需求上的差别,比如政府和金融項目,金融客户他最在乎的就高可靠性,他對創新、綠色持穩健的态度,但是對互聯網公司來説,他在乎的就是創新性、成本、部署速度。所以説在這兩種客户之間,我們提供的是差異化的服務、差異化的方案和服務。
不同的數據中心,都有自己獨特的需求,如果失去了 " 定制 " 這個環節,是否意味着預制化的設備難以大量鋪開呢?
專家給我們解釋道,所謂的預制化,其實是預制了各個部件的模塊,在一個統一的平台下,可以将這些模塊按需求來組裝,這樣就能滿足不同的客户。
維谛技術綜合解決方案架構部總監:
維谛實際上它在長期的發展和實踐裏面,它形成了很多标準化的組件,所以説當一項新的需求來臨的時候,我們可能優先去選擇,在這個積木庫裏面,去提取一些适合我們這個新的場景的一些部件和組件,這樣就可以高效率的搭建出一個适應客户新的需要的,這樣的一個產品類型。
打個比方,就像我們買來的樂高積木,其實是很多通用的小塊,它既可以拼成汽車,也能拼成飛機。
雖然我們常説,AI 的飛躍源自芯片的積累,然而,為芯片運行打下基石的,是基礎設施的技術進步,它們如同無形的 " 兵部尚書 ",在幕後默默支持和調控着前線士兵的作戰行動,讓 AI 大模型訓練順利推進。
就像之前提到的,士兵的作戰效率在提升,那麼兵部尚書的水平也要相對提高,這對整個 AI 芯片的上下遊市場都提出了更高的要求,是挑戰也是機遇。
随着更高能力、更多參數以及更大 AI 模型的投入訓練,也許我們會看到數據中心更快的更新迭代,有更多的技術創新來支持 AI 大模型的技術大戰。