今天小編分享的互聯網經驗:傳統數據中心,如何通過改造提升能效、節能減排?,歡迎閲讀。
文|楊俊、真梓
數據中心作為數字經濟的基礎產業,承載着大量的計算、存儲等需求。
但随着雲計算、AI 的發展,傳統數據中心出現了資源利用率低、無法滿足用户需求等情況。
河南聯通樞紐局就曾面臨這樣的問題。
河南聯通鄭州第二長途樞紐局建設于 2002 年,是國家通信幹線重要的網絡組成部分。随着業務增長,傳統小規模老舊機房由于機房空間有限,供配電、暖通等系統陳舊且能耗高,逐步難以承接大規模計算、存儲和傳輸業務。同時,在國家碳達峰、碳中和戰略的背景下,數據中心作為能耗大户,還要顧及節能減排的重要任務。
痛點在前,從 2021 年開始,中國聯通河南分公司聯合中興通訊等多方合作,進行數據中心的改造計劃。改造計劃包括采用 VRM 智能雙循環氟泵多聯空調、iDCIM 系統和智能母線等方案,使老舊數據中心機房空間利用率得到提高的同時,也大幅降低能耗。
數據中心的 PUE 值,也就是電能利用效率反映了數據中心的能效水平。這個值大于 1,越接近 1 表明非 IT 設備耗能越少,即機房的能效水平越好。經過此次改造,二長數據中心的 PUE 值從原來的 1.6X 下降到 1.3X,能效水平得到提升。此外,部署 iDCIM 管理系統,幫助二長數據中心提升 20% 資源利用率,增強運維能力,減少 50% 運維工時,實現高效低成本運維。
" 目前我們的綜合 PUE 下降了 15%。" 河南聯通高級工程師雷宇介紹," 采用 VRM 智能雙循環氟泵多聯空調以後,也解決了我們室外機沒有地方放的問題。解決高落差機房空調的問題,節能效率提升 50%。"
近期,河南聯通高級工程師雷宇、中興通訊數據中心國内市場總監馬濤以及中興通訊數據中心中國運營商市場總監張偉和 36 氪等多家機構分享了河南聯通鄭州第二長途樞紐局的改造情況和經驗。
以下内容經編輯整理:
Q:河南聯通鄭州第二長途樞紐局為什麼會進行此次改造?具體有哪些方面的提升?
雷宇:鄭州第二長途樞紐局現在已經 20 年。這個數據中心有幾個特點,一是樓層非常高,另外設備也都比較舊。這棟樓在最初設計的時候,一些承重以及中間的隔斷都不太符合新型數據中心的部分标準,只适用于此前的低功率機櫃,另外在管理方面相對比較分散。
從節能減排方面的提升來看,此前二長數據中心最大的功耗只能到 1、2KW。室外機都在北邊的鋼梁上,因為室外機的密度太大,所以很容易造成熱導效應。當室外温度高于 25 度到 35 度以上,室外機基本上都會進行熱保護導致空調停機。而經過改造後,采用 VRM 空調,首先它的 V 字型室外機造型,整體空間比較小,可以集中放置。其次通過目前的空調以及風力熱通道,整體的 PUE 達到近 1.3。相比于此前的 1.6 左右,效果提升了不少。另外通過目前的 iDCIM 系統,可以實現 AI 調節能耗,通過一些自動的温控調節,避免了一些因為人為誤操作造成的不必要損失,温控調節變得更加的智能,也達到節能的效果。
而且經過改造更新之後,目前無論是用電還是空調使用都是達到了國 A 标準。現在采用的精确送風,在機櫃功率密度可以達到六千瓦,是原來的幾倍。因此我們可以承接一些新的更高算力的業務。通過采用智能母線方案,模塊化設計與裝配,省去傳統的列頭櫃。項目當前建設機櫃總計 1420 個,部署智能母線方案後機房的出櫃率提高約 6% 以上。
此前我們的機櫃是兩米左右,可能放不下一台伺服器,但現在可以放兩到三台,空間上的整體效益得到了成倍的增長。
下一步将繼續在效率提升方面發力,從以前的普通算力向智算方面融合。
Q:目前 AI 迅速發展,對于算力的需求越來越高,二長數據中心對于未來算力需求的加速有什麼考量?
雷宇:算力除了計算能力,帶寬也是非常重要的。帶寬方面,我們采用了業界最先進的 400G 以上的高性能的路由器,在數據傳輸方面提供超寬通道。
在計算能力方面,目前經過改造之後,業務承接得到提升,我們也在逐步引進智算需求服務,包括前一段洽談的字節跳動的需求,還有聯通自用的部分公有雲的智算。而且目前和華為、百度、小米的合作洽談都在跟進中,我們未來會将智算業務進一步提升。
Q:目前越來越多的企業在開發大模型或利用大模型做項目,二長數據中心經過改造後,可以對這些企業提供哪些幫助?
雷宇:此前運營商的業務主要集中于代理商賣帶寬,賣機架等,相當于賣資源。而目前經過提升智算能力之後,可以改變算力服務的商業模式,我們也可以通過承接 AI 訓練等需求開展一些新的業務。比如一些做大模型或通過大模型做應用的 AI 公司可以把這些訓練量承包給我們這種智算企業,這樣我們就可以從賣資源向賣算力,承接訓練量來開展新的業務。而且這可以避免業内重復建設數據中心,這些企業只需要專注于 AI 應用就可以。而我們既有 " 雲 " 的能力也有 " 網 " 的能力,在這方面有獨特的優勢。
Q:在改造過程中有遇到哪些難點?又是如何解決的?
馬濤:對于老舊機房改造相比新建數據中心會面臨一些挑戰,新建的數據中心一般會提前做好基建,規劃設計。而老舊機房的機房是已經按照原來的基建做好的,現在需要對老舊機房做新的技術應用,這就會受到限制,比如樓層高度以及單層的淨高。另外内部布局、室外空間以及一些樓層之間的管線對于數據中心的改造都帶來極大的挑戰。
其實我們在改造的項目當中,一般從幾個方面去解決相關的問題。第一,在進行前期的方案設計。前期需要結合項目的實際情況,充分做好項目的場地工勘,充分做好相關方案的認證,包括客户側、外部的一些資源的聯合的評審。在設計階段,項目的方案最優化,盡量能夠提前識别出可能存在的一些問題。
第二,在重要的項目施工前,需要保障部分參數的實際性落地,會借助一些相應的手段進行相關的論證。包括采用 BIM 仿真後,再在項目中進行實施。另外通過建立模型,通過模型識别可能出現的一些故障問題。比如説管線是否可以從這裏布局,會不會有什麼影響,盡可能減少項目中施工的問題,減少故障率,這也可以縮短項目執行的周期。
第三,項目改造過程中可能會產生相關的供應工序問題。數據中心改造需要的人員、物料很多,如何安排物料的順序、協調供應商供貨的時間,這些都是常見的問題。我們會依托于強大的供應鏈資源,包括人員駐場,貨物的及時達到,以及對現場設定合理的施工工序,避免出現問題。
最後是項目的管理,中興通訊的管理系統,在一些項目當中,會采用 AI 技術實現智慧工地,對施工過程做一個最大化的管理,減少風險。
這些是一些常見的問題和解決辦法。一些典型的問題,比如吊裝的時候預見一些暴雨,或者是一些比較惡劣的天氣,對室外施工帶來很大挑戰,對這種情況我們肯定會結合項目情況進行相關調整。
Q:如何看待當下很多數據中心都在采用液冷伺服器?如何看待目前的液冷技術?
馬濤:首先液冷方面是大勢所趨,目前相關的智算,大模型,AI 等所需的算力要求單機的功率密度很大,在此後的大模型訓練中,機櫃的功耗需求可能在 20 千瓦近 30 千瓦,甚至 50 千瓦以上,針對這種高密度需求,機櫃采用傳統的風冷技術是沒法實現的。
針對液冷來説,目前在業界主流的散熱技術,一個是冷板式,一個是浸沒式,第三個就是噴淋式。
這三種技術,目前產業鏈最成熟、使用案例最多的是冷板式液冷。冷板式液冷能夠适配于 20 千瓦到 60 千瓦的單機櫃的功率密度範圍。中興通訊目前主要集中在冷板式液冷研發上。針對冷板式液冷,我們已經推出了自研的 300 千瓦 CDU。
針對不同場景下的智算、超算比較好的解決方案也是冷板式液冷。所以中興通訊也會繼續關注液冷技術的發展,也會和客户一起探索、研究,推動全網域的發展。
張偉:關于液冷我補充一個數據。今年北京通信展上,三大運營商發布了液冷白皮書。其指出在 2023 年要進行液冷技術驗證,2024 年進行規模測試,且針對明年新增的算力裏的 10% 要采用液冷技術。在 2025 年使用比例要達到 50% 以上。所以液冷的趨勢以及產業鏈完善程度是不斷向前推進的。