今天小編分享的科技經驗:明年底,上海智算總規模将超70E,歡迎閲讀。
專家:政策應鼓勵扶持大模型應用國產算力
作者/ IT 時報記者 郝俊慧
編輯/ 郝俊慧 孫妍
截至 2024 年 6 月,上海算力綜合指數全國排名第三,全市已建數據中心标準機架數 57.4 萬個,建成通用算力規模達 7.7EFLOPS(FP32),智能算力部署提檔更新,已建大型智算中心 12 個,智能算力總規模超過 54EFLOPS(FP16),處于全國領先地位,預計到 2025 年底,上海智算總規模将超過 70EFLOPS(FP16)。這是《IT 時報》記者在 11 月 26 日舉行的第三屆算力網絡與數字經濟論壇暨 2024 年 " 算力浦江 " 總結大會上了解到的。
大會發布了《上海市算力基礎設施發展報告》(2024)(以下簡稱《報告》),《報告》撰寫者之一,上海市通信學會 " 算力浦江 " 專委會主任委員、中國信通院華東分院院長廖運發在發布時指出,上海智能算力在數量規模、算力供給等方面均處于全國前列,同時近 116 EB 的存力量級在全國各省級行政區規模排名第四。
同日,由中國信通院工物所、泰爾英福、同濟大學、上海人工智能實驗室、國家(上海)新型互聯網交換中心牽頭,聯合上海聯通、有孚、沐曦、天數智芯、無問芯穹、華為等多家部門進行的跨網域異構算力網絡實驗驗證成果發布。
經過近一年試驗探索,通過優化底層異構芯片的通信傳輸、跨網域調度能力以及大模型并行訓練策略等,截至目前,異構混訓效率可達 97.5%,跨網域異構混訓效率可達 90%,有效驗證了跨網域異構算力網絡調度可行性及效率。
超大型數據中心已有 13 個
作為上海一年一度算力基礎設施發展情況的系統總結,《報告》全面展現了全市數據中心的算力規模、存力規模、算網運力、空間布局、綠色算力、產業生态等方面的發展現狀,其中一系列重磅數字是首次公布。
從數據中心規模類型看,上海在用數據中心(指單數據中心物理标準機架數超過 100 個)數量為 127 個,其中超大型數據中心 13 個、大型數據中心 46 個、中小型數據中心 68 個。
大部分數據中心已接入省級以上骨幹網絡。據統計,全市數據中心接入國家級骨幹網 16 個、省級骨幹網 75 個,占比分别為 13%、59%,即七成以上數據中心均已接入省級以上骨幹網絡,超全國平均水平十六個百分點。同時,接入城網域網的數據中心有 19 個,占比 15%。
《報告》顯示,未來上海将積極推進此類型數據中心納入省級以上骨幹網,實現跨城市、跨區網域網絡連接互聯互通。
算力調度方面,上海構建了一張城市級高速全光算力環網,上海以基礎電信運營商、上海新型互聯網交換中心為主體構建了 "3+1+N" 的算力網絡調度體系,其中三大電信運營商負責跨區網域的算力網絡調度,新型互聯網交換中心負責本市算力中心之間的算力網絡調度。截至 2024 年 10 月,新型互聯網交換中心已完成 19 個網絡節點建設,覆蓋全市 24 家重點數據中心企業。
長三角算力樞紐建設方面,長三角(上海)算力互聯互通平台建設工作已啓動,平台建成後将在長三角地區形成 " 跨地網域、跨主體、跨架構 " 的算力資源标準化互聯互通,實現算力資源高效供需匹配。基礎電信企業已啓動超過 3500 公裏本地和長途光纜工程建設,打通長三角一體化示範區算力樞紐節點和蕪湖樞紐節點的算力網絡。
加速構建綠色算力體系
随着大數據的深度滲透和人工智能技術的突破性進展,全球算力正展現出強勁而穩定的增長态勢。IDC 數據顯示,到 2027 年,全球 非結構化數據将占到數據總量的 86.8%,達到 246.9ZB, 全球數據總量從 103.67ZB 增長至 284.30ZB, 復合年均增長率為 22.4%, 保持穩定增長态勢。
算力之争,就是能源之争。
《報告》顯示,截至今年 6 月,全市數據中心 IT 機房建築面積已超 500 萬平方米,且以商業用電為主,總配電量超 415 萬 KVA,相較于全國均處于前列。
因此,上海對新建智算中心 PUE 值、存量改造智算中心 PUE 值、智算中心内綠色能源使用占比、液冷機櫃數量占比等綠色算力關鍵指标提出了全新的要求。
數據顯示,近年來,全市數據中心 PUE 能效結構優化顯著,測試結果顯示,全市有 19 家數據中心的實測 PUE 在 1~1.3 之間,占全部數據中心的 14.9%,PUE 在小于 1.5 的數據中心數量為 56 個,占比 44.1%,提供綠色算力已成為各家數據中心的普遍共識。
新型液冷逐漸成為數據中心的主流轉型方向。目前,全市數據中心采用風冷制冷方式有 59 家,占比 46%,采用水冷、混合制冷方式的數據中心數量分别為 45 家、17 家,占比分别為 35%、13%。《報告》認為,随着數據中心高性能伺服器、高功率機櫃的使用量越來越大,先進計算中心等新型技術設施建設越來越多,數據中心的制冷方式結構也将發生顯著改善,水冷、液冷、混合制冷等新型制冷方式需求也越發強勁。
算力供需矛盾仍然突出
不過,雖然上海在打造算力高地的征途中已成績斐然,但放眼未來,目前上海算力產業發展仍存在不少挑戰。
" 算力市場還存在供需對接的矛盾,雖然我們建了這麼多算力,但還是有很多用户找不到算力,或者找不到合适的算力。可有些時候,我們的算力提供又容易陷入同質化競争,導致算力建設和發展有一點不良趨勢。" 大會圓桌論壇環節,一位嘉賓坦言,上海公共算力服務平台還需進一步優化,以緩解算力的供需矛盾。
随着 AI 大模型發展推動算力結構更新,上海仍然面臨高質量算力供給和國產高端芯片短缺的挑戰。一方面,大模型訓練所需的算力資源極為龐大,對計算性能和存儲能力提出了極高要求。上海雖已建成多個高性能計算中心和智算中心,但在面對大規模、高復雜度的 AI 大模型訓練任務時,仍将存在算力供給壓力。另一方面,算力資源的分配和調度也面臨挑戰,表現在找算力難、調算力難、用算力難等方面,尤其是具備高可用性、高性價比、高靈活性的高質量算力供給更為缺乏。然而,國產算力在性能、穩定性、兼容性上還有差距,尚未形成全棧服務能力,高端 AI 芯片短缺,且缺乏豐富的工具集、數據集、參數集,進一步導致市場上算力 供需矛盾突出。
上述嘉賓認為,根本解決方案還是要支持國產化算力,但從現實情況來看,政府在支持國產芯片建設上比較積極,可整個社會需求卻還沒上來,導致有很多國產算力池空置," 今後政府應該對需求方和用户使用國產化算力,有更多的鼓勵和扶持,讓國產算力能繁榮起來。"
此外,在全球氣候變化和綠色低碳發展背景下,算力中心的節能減排和可持續發展問題愈發凸顯。
上海華鲲振宇智能科技有限責任公司副總經理程子敬指出,目前中國算力中心建設存在三個挑戰:一是随着 GPU 芯片性能的提升,單片功耗越來越大,因此產生的發熱量也直線上升,如果仍沿用舊有的風冷方式,芯片很容易在大模型訓練時自動降頻,這顯然是不符合投資預期的;第二個挑戰仍與電力有關,目前很多已有的數據中心是按照通算伺服器标準建設的,單機櫃可用電量有限,一旦更換為耗電量更高的 GPU 智算伺服器,很可能一個 42U 高的機櫃只能放兩台伺服器,在北上廣等地價昂貴的城市,這是不可承受的成本;三是國產卡與國際先進 GPU 性能差距依然明顯,要想實現同樣參數規模的大模型訓練,國產算力集群需要的卡數和電能可能是國際先進集群的兩倍以上,這也是一筆巨大的成本,而且不可持續增長。因此,他認為,必須加強算力中心的節能技能研發和應用,長期來看,先進的液冷散熱技術成本是可控的。
《報告》也建議,用能管理逐漸從能耗 " 雙控 " 向碳排放 " 雙控 " 轉變,對于在算力中心所用的綠色能源,不再納入能耗總量和強度控制,對于綠色能源就近建設的重點智算中心,對電力資源進行直供試點,不額外增加上網電價。
排版/ 潘璐
圖片/ IT 時報 算力浦江
來源/《IT 時報》公眾号 vittimes
請加「星标」不錯過我們
>