今天小編分享的科技經驗:國家隊入場,為智算中心再添一把火,歡迎閱讀。
日前,國務院國資委召開的 AI 人工智能專題推進會火爆全網,受到了行業的廣泛關注。
會議要求,中央企業要主動擁抱人工智能帶來的深刻變革,把加快發展新一代人工智能擺在更加突出的位置。會議強調 " 要夯實發展基礎底座,把主要資源集中投入到最需要、最有優勢的領網域,加快建設一批智能算力中心 ";" 強化需求牽引,加快重點行業賦能,構建一批產業多模态優質數據集,打造從基礎設施、算法工具、智能平台到解決方案的大模型賦能產業生态 "。
會上有 10 家中央企業籤訂倡議書,表示将主動向社會開放人工智能應用場景。作為國民經濟的重要支柱,央企在人工智能領網域的布局和發展更是備受關注。央企加速布局人工智能,将為相關行業帶來新的發展機遇,同時也體現了國家對于人工智能的高度重視和大勢所趨。
随着全球 AI 技術的快速發展,智能算力已成為推動經濟增長和社會進步的關鍵要素。中國作為全球最大的經濟體之一,正積極應對這一技術變革,加強智能算力的研發和應用,以提升國家競争力。
在深入了解中國在智算市場的布局之前,先來了解一下什麼是 " 智能算力 "?我們日常生活中都有哪些時候會接觸到智能算力?
何為智能算力?
按照《中國算力白皮書(2022 年)》的定義,算力主要分為四部分:通用算力、智能算力、超算算力、邊緣算力。通用算力以 CPU 芯片輸出的計算能力為主;智能算力以 GPU、FPGA、AI 芯片等輸出的人工智能計算能力為主;超算算力以超級計算機輸出的計算能力為主;邊緣算力主要是以就近為用戶提供實時計算能力為主,是前三種的組合。
單從概念上看似乎覺得有一些遙遠,但實際上,智能算力已經深入到了我們生活的方方面面。倘若說起春節檔電影中的特效、渲染和人臉識别,或者是我們日常使用的智能客服、語音翻譯等應用,這些背後都離不開智能算力的支持。
如果說人工智能是創新的加速器,那麼智算中心則可以為各類技術創新提供支撐。
大模型引發算力缺口,中國需要多少智能算力?
2023 年眾多大模型產品發布,基于大模型的 AIGC 技術在文本生成、知識回答、影像生成、邏輯推理等方面表現出遠超預期的效果,吸引了大量用戶與市場關注。
據不完全統計,截至 2023 年 10 月,中國大模型創新主體共 254 家,分布于 20 餘個省市 / 地區,其中,北京 122 家,數量居全國首位。截至 2024 年 1 月,備案上線大模型 38 款,占全國近一半。百度發布文心一言 4.0,用戶規模過億,日均調用量達千萬次;智譜 AI 研發第四代基座大模型 GLM4,開源版全球下載量超 1000 萬次,是目前開源影響力最高的國產大模型;百川智能發布實現全球最長上下文視窗的大模型 Baichuan2,開源版僅四個月全球下載量超 600 萬次;中科院自動化所發布全球首個千億參數多模态大模型紫東太初 2.0。在深度學習框架方面,百度飛槳知名度與使用率均處國内第一梯隊,國内市占率近 36%,截至 2023 年 12 月底,已凝聚 1070 萬開發者,服務 23.5 萬家企事業部門。
在實際應用中,利用 AI 技術自動生成内容的生產方式打造的 " 數字人 " 效果媲美真人水平;人工智能預測蛋白質結構給基礎研究帶來全新的研究手段;人工智能驅動的聊天機器人能夠學習和理解人類的語言并與人類進行對話;華為雲開發的 " 盤古氣象大模型 " 在預報台風軌迹和登陸時間方面大顯身手 ……
看得見的 AIGC 蓬勃發展背後,是看不見的智能算力在支撐。大模型爆發掀起了新一輪 AI 熱潮,也改變了智能算力需求與格局。
工業和信息化部、中央網信辦、教育部、國家衛生健康委、中國人民銀行、國務院國資委等六部門聯合印發的《算力基礎設施高質量發展行動計劃》提出到 2025 年,中國算力規模超過 300EFLOPS,智能算力占比達到 35%。
說到這裡可能會有人發問:FLOPS 是什麼?300EFLOPS 是什麼水平?
FLOPS 是算力的部門,衡量算力資源每秒進行浮點運算的次數,是 Floating-point operations per second 的英文縮寫。它常被用來估算電腦的執行效能,尤其是在使用到大量浮點運算的科學計算領網域中,比如機器視覺相關影像處理的訓練與推理。
FLOPS 前面加上字母表示更大的算力部門:
一個 MFLOPS(megaFLOPS)等于每秒一百萬(=10^6)次的浮點運算。
一個 GFLOPS(gigaFLOPS)等于每秒十億(=10^9)次的浮點運算。
一個 TFLOPS(teraFLOPS)等于每秒一萬億(=10^12)次的浮點運算。
一個 PFLOPS(petaFLOPS)等于每秒一千萬億(=10^15)次的浮點運算。
一個 EFLOPS(exaFLOPS)等于每秒一百億億(=10^18)次的浮點運算。
下面舉幾個例子方便了解:通過大量數據樣本進行人工智能模型訓練時,根據數據規模、檢測效果、模型類别的不同,訓練一次的算力需求大概為 2-19PFLOS 不等;在人臉、語言識别的推理過程中,根據識别精度、并發數量等的不同,對算力的需求跨度可能從 10GFLOPS-64TFLOPS,智能駕駛為完成環境感知、決策避障、自車定位等功能時的算力需求大概為 8TFLOPS。
截至 2023 年 6 月底,全國在用數據中心機架總規模超過 760 萬标準機架,算力總規模達到 197EFLOPS,位居全球第二。
在大模型需求驅動下,智算中心項目如雨後春筍般湧現。
30 餘座城市搶建智算中心
随着下遊算力需求的集中爆發和 " 東數西算 " 的推進,各級政府、運營商、互聯網企業紛紛開啟智算中心建設計劃。據國家信息中心與相關部門聯合發布的《智能計算中心創新發展指南》顯示,目前全國正在建設或提出建設智算中心的城市已經超過 30 個,經典案例包括京津冀大數據智算中心、長沙 5A 級智能計算中心等。
智算中心建設的企業主體則包括三大電信運營商和部分互聯網企業。運營商推動建設的智算中心具有一定公共服務屬性,成為政府主導的算力基礎設施建設的良好補充。以百度、阿裡、騰訊為代表的互聯網企業也紛紛建設智算中心,以推動自身業務發展、更好地推動客戶人工智能場景落地。
前瞻結合至頂智庫統計,截至 2023 年 8 月,中國已投入運營和在建的智算中心分布在北京、上海、南京、杭州等多個城市。從區網域分布來看,中國智算中心集中于東部地區和中部地區。其中,東部地區智算中心數量達 25 個,占比 62.5%,排名第一,以京津冀和長三角地區為主 ; 中部地區占比 17.5%,排名第二 ; 西部和東北地區的智算中心數量占比分别為 12.5% 和 7.5%。
值得注意的是,北京是發力智算中心的主要地區之一。北京在海澱、朝陽、經開區、石景山、門頭溝、大興、豐台等區均布局智算中心,目前已建成智能算力總規模約 5000P。
近日,石景山區北重科技文化產業園的四跨廠房已開啟火熱的改造施工,建成後初期将具備 610P 的算力,相當于 30 萬台高性能電腦的計算能力,可供一個人工智能大模型在 30 秒内完成對近 1000 萬張圖片的學習和識别,預計今年 10 月即可建成投用。
剛剛開年就動作頻頻
新年伊始,各大運營商便積極行動起來,紛紛加強在智能計算中心領網域的布局。
1 月 8 日,中國移動智算中心(武漢)在武漢未來科技城開放運營,已建成 1500PFLOPS 服務能力,到今年底計劃擴容至 6800PFLOPS,成為華中地區規模最大的智算中心。
1 月 22 日,上海電信在上海點亮 " 大規模算力集群暨人工智能公共算力服務平台 ",計劃 2024 上半年在上海規劃建設到達 15000 卡,總算力超 4500P,其中單池新建國產算力達萬卡,預計成為國内首個超大規模國產算力液冷集群。
1 月 30 日,中國聯通人工智能創新中心成立儀式在京舉行。值得注意的是,2023 年 11 月 24 日中國聯通長三角(蕪湖)智算中心項目才正式開工。
可以看到電信、移動、聯通三大電信運營商正在聚力 " 東數西算 " 數據中心集群建設,全力推進各自相關項目,加快打造全國算力中心城市和智算中心,促進數字經濟與實體經濟深度融合。
AI 伺服器是智算中心建設中最關鍵的設備
AI 伺服器是智算中心建設中投入比重最大、最為關鍵的設備。
據市場研究機構 IDC 的最新報告顯示,從 2022 上半年到 2023 年上半年,中國 AI 伺服器市場規模成長了 54%,其中 GPU 伺服器依然是主導地位,占據 92% 的市場份額,達到 30 億美元。同時 NPU、ASIC 和 FPGA 等非 GPU 加速伺服器以同比 17% 的增速占有了 8% 的市場份額,達到 2 億美元。
2023 年上半年,從廠商銷售額角度看,浪潮、新華三、寧暢位居前三,占據了 70% 以上的市場份額;從伺服器出貨台數角度看,浪潮、坤前、寧暢位居前三名,占有近 60% 的市場份額。
AI 伺服器依賴高性能芯片供給。中國市場面臨的算力缺口給國内的芯片發展帶來新的機遇。中國本土的 AI 芯片廠商發展正處于快速增長的階段并取得了顯著的成就,吸引了大量的投資和關注。這些企業在 AI 芯片設計、算法優化、生產制造等方面具備了一定的實力和競争優勢。此外,中國政府的政策支持也起到了重要的推動作用。2023 年上半年,中國加速芯片的市場規模超過 50 萬張。從技術角度看,GPU 卡占有 90% 的市場份額;從品牌角度看,中國本土 AI 芯片品牌出貨超過 5 萬張,占比整個市場 10% 左右的份額。
從國產 AI 伺服器所需的 AI 加速芯片的供應商來看,目前國内阿裡巴巴(含光系列)、百度(昆侖系列)、華為(昇騰系列)等雲服務提供商都有自研的雲端 AI 加速芯片。還有寒武紀(思元系列)、海光信息(深算系列)、燧原科技、天數智芯、壁仞科技、摩爾線程、沐曦等。此外,景嘉微、龍芯中科等也在研發雲端 AI 加速芯片。
從 2023 年上半年的數據來看,中國 AI 伺服器芯片國產化率較去年出現了下降,比例從去年的 15% 左右下降到 10% 左右。這主要是因為高端訓練伺服器的需求大幅增長,而國產芯片性能難以跟上。
為了進一步提升國產 AI 伺服器的性能,不僅需要芯片廠商在技術上持續創新,提高芯片的性能和穩定性,還需要這些芯片廠商深入了解市場需求,開發出更符合實際應用場景的芯片產品。同時,政府、企業和研究機構也應加大投入,支持國產芯片產業的發展,為其提供更多的研發資源和市場機會。
如何讓智算中心真正用起來?
智算中心建成後,如何令其在運營過程中發揮更大的作用,依舊是一個非常關鍵的問題。
當下智算中心已逐漸賦能區網域產業集群發展,但值得注意的是,其在多元算力融合、上下遊協同、建設應用聯動、能源消耗、使用價格等方面仍面臨諸多挑戰。
比如:通用算力和專用算力還有待融合。在自動駕駛、智慧醫療、智慧城市等不同場景中,算力需求不同。單一化算力方案難以滿足多元算力需求,不能兼顧多產業和多領網域。
算力、算法和數據協同不足。這些年來建設的智算中心,不同的芯片平台、算法模型、數據庫、應用層面部分處于垂直一體化 " 孤島 " 狀态,軟硬體兼容性問題有待改進。
投資建設運營有待聯動。智算中心投資、建設和運營往往由不同主體負責。前期建設部門往往對建設後運營的模式、服務标準投入不足,出現了管頭不管尾、建設運營割裂的現象,影響客戶體驗。
碳排放和能耗高。設備自身的能耗排放帶來非常大的挑戰,比如 OpenAI 公司的超大規模預訓練模型 GPT-3 訓練所需的耗電量為 19 萬千瓦時,相當于 2021 年人均用電量的 228 倍。
投資成本和應用價格待規範。智算中心的投建成本較高,部分智算中心每 100P 半精算力的投資成本高達 5 億 -6 億元,遠遠高出正常市場價格,同時使用成本也較高,比如據保守估計 GPT-3 大模型訓練費用超過 1200 萬美元。
智算中心建設需要結合建設基礎、當地或區網域產業特色,分類引導施策,改建并行,發展與數字經濟相适應的智算中心;還需要選擇合理的建設和運營模式,實現長效運營、促進有序布局,保證智算中心所釋放的經濟社會效益最大化。
如今中國智算中心產業發展正在克服 1.0 時代的挑戰進入 2.0 時代,中國在智算中心的建設中,始終堅持以算力融合、軟硬協同、建運一體、能耗低碳、成本優化、需求牽引、安全可信為基礎,穩步推進智算中心的發展。