國產GPU重大利好！“中國英偉達”千卡集群已就位

今天小編分享的科學經驗：國產GPU重大利好！“中國英偉達”千卡集群已就位，歡迎閲讀。

算力基礎設施建設，北京市有了最新的大動作——

《北京市算力基礎設施建設實施方案（2024-2027 年）》。

其中，《方案》在 " 保障措施 " 中提出了對企業利好的辦法：

對采購自主可控 GPU 芯片開展智能算力服務的企業，按照投資額的一定比例給予支持，加速實現智算資源供給自主可控。

對主動進行綠色節能改造的存量數據中心，按照投資額的一定比例給予支持。

對企業擴大資金的舉措，意在提升人工智能算力券政策效能，鼓勵企業用好智能算力資源，加快推動大模型賦能行業應用。

除此之外，在《方案》的規劃目标中，也釋放出了一個重要的信号——智算資源供給集群化：

改變智算建設 " 小、散 " 局面，集中建設一批智算單一大集群。

到 2025 年，本市智算供給規模達到 45EFLOPS，2025-2027 年根據人工智能大模型發展需要和國家相關部署進一步優化算力布局。

為何會如此？這就要結合當下算力市場的需求和供給展開來看了。

一方面，自從 ChatGPT 問世引爆 AIGC 以來，大模型的數量可謂是極速增長，單是北京這一座城市，就已經擁有122家大模型創新團隊，約占全國的一半，大模型數量更是居全國首位。對于算力市場的需求之大可見一斑。

不僅如此，随着 Sora、Suno 等應用的問世，大模型的發展已然加速駛入多模态階段，AI 算力的需求在Scaling Law為主旋律的當下還會持續上漲。

△圖源：由 DALL · E 3 生成

另一方面，AIGC 誠然帶火了 "N 卡 "，但目前着眼于全球已然是一卡難求的态勢，并且因稀缺導致其價格日益水漲船高。

而且單從 GPU 的性能角度來看，即便是英偉達也只能接受加速計算到達了臨界點的事實，算力供給方需要另一種方式來進行計算——

通過芯片與芯片間的連接技術，一步步構建出大型AI 大規模算力集群。

聚焦到國内，其實這種 " 集群 " 模式也已經緊鑼密鼓地在展開，國内已有不少廠商在不斷探索和實踐，例如雲計算巨頭華為雲、AI 芯片公司摩爾線程等等。

以摩爾線程為例，就在前不久他們發布了名為誇娥（KUAE）的智算集群解決方案，旨在以一體化交付的方式解決大規模 GPU 算力的建設和運營管理問題，可以大幅降低傳統算力建設、應用開發和運維運營平台搭建的時間成本。

從這一點來看，國内市場算力的發展是與《方案》所提出的 " 智算資源供給集群化 " 是相契合的，也從側面印證着國產 GPU 智算集群已經到了勢在必行的階段。

然而，路線雖已清晰，但在實踐過程當中，尤其是 GPU 數量達到千卡甚至萬卡時，集群落地并非是件易事。

那麼難點都有什麼？國產 GPU 又是如何應對的？我們繼續往下看。

千卡 GPU 集群落地痛點

首先我們需要了解 GPU 集群在實際落地過程中的規模會達到什麼量級。

以 Llama 3 為例，在它問世之際，Meta 就公布了其基礎設施詳情：

我們在兩個定制的 24K GPU 集群上做訓練。

與之類似的，馬斯克的 Grok 2 據悉訓練已經用了 20000 張 H100，Grok 3 更是傳出需要驚人的 100000 張；即使是參數量僅為 30 億的 Sora，GPU 的數量也估算在 4200 至 10500 張之間。

而事實上，當下要滿足一些基礎模型的算力需求，千卡集群已然是标配一樣的存在；這不僅僅是因為千卡是大集群的基本單元，更是因為百卡或更小規模的 GPU 數量往往滿足不了大模型訓練需求，只能是實驗性的。

但智算集群中 GPU 的數量也還只是一方面，之于 GPU 本身，在諸如訓練大模型等落地過程中的難點也是不少。

因為建設集群本身還是一個非常復雜的系統性工程，它不僅是堆 GPU 這麼簡單，從一個 GPU 到一個伺服器，再到把它們組成群，期間包含了硬體的網絡、存儲、軟體、再到大模型調度等各種細節因素，均會影響到集群的最終性能。

例如同樣是 Llama 3，Meta 在介紹基礎設施的時候還提到了一個關鍵信息：

當在 16K GPU 上同時訓練時，我們有效地實現了每個 GPU 超過 400 TFLOPS 的計算利用率。

若是每張卡的利率用不夠高，很顯然就會降低最終智算集群的效率。

再如分布式訓練過程中，一張卡壞掉就會影響整體的訓練，對于千卡甚至更大規模的集群來説，這種情況出現的概率就會更高；因此對于千卡集群的穩定性和可靠性也提出了極高的要求。

聚焦到國產智算集群，還需得具備可以兼容主流 GPU 軟體的能力（例如 CUDA），由此才能應對更多且日新月異的主流大模型任務。

……

一言蔽之，構建千卡智算集群難，構建國產千卡智算集群難上加難。

如何破局？

雖説困境重重，但也正如上文所言，摩爾線程已經在探索與實踐，并且他們在構建千卡智算集群這件事上也已交出了" 高分作業 "。

我們不妨以摩爾線程的誇娥（KUAE）智算中心解決方案為例，來看下構建國產 GPU 智算集群的破局之道。

整體來看，誇娥（KUAE）智算中心解決方案是一個以全功能 GPU 為底座，軟硬體一體化的全棧的解決方案。

之所以叫做全棧，是因為誇娥的能力是觸及到了構建 GPU 智算集群中的方方面面，包括最底層的基礎設施建設、中間層的智算集群管理，以及上層的大模型服務。

首先來看基礎設施。

從内容上來看主要包含誇娥（KUAE）計算集群、RDMA 網絡與分布式存儲三大方面。據了解，其建設周期只需 30 天，可支持千億參數模型的預訓練、微調和推理，可實現高達 91% 的千卡集群性能擴展系數。

并且基于大規模智算加速卡MTT S4000和雙路 8 卡 GPU 伺服器MCCX D800的能力，誇娥集群還支持從單機多卡到多機多卡，從單卡到千卡集群的無縫擴展。

據悉未來将推出更大規模的集群，以滿足更大規模的大模型訓練需求。

其次是集群管理平台。

這一軟硬體一體化平台主要是用于 AI 大模型訓練、分布式圖形渲染、流媒體處理和科學計算等工作，深度集成全功能 GPU 計算、網絡和存儲，提供高可靠、高算力服務。

通過這個平台，用户可靈活管理多數據中心、多集群算力資源，集成多維度運維監控、告警和日志系統，幫助智算中心實現運維自動化。

最後是模型服務。

覆蓋了大模型預訓練、微調和推理全流程，支持所有主流開源大模型。通過摩爾線程 MUSIFY 開發工具，可以輕松復用 CUDA 應用生态，内置的容器化解決方案，則可實現 API 一鍵部署。

這個平台意在提供大模型生命周期管理，通過簡潔、易操作的互動界面，用户可按需組織工作流，大幅降低大模型的使用門檻。

那麼實際效果如何？

據了解，摩爾線程目前已經支持了包括 LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、玉言等在内的各類主流大模型的訓練和微調：

以 200B 訓練數據量為例，智源研究院 70B 參數 Aquila2 可在 33 天完成訓練

1300 億參數規模的模型可在 56 天完成訓練

至于剛才提到的千卡 GPU 集群落地難的種種細節，摩爾線程也有自己的應對策略。

例如在提高集群算力利用率這件事上，摩爾線程采用軟硬體協同設計和端到端的并行策略，通過對集群通信庫的算法、網絡拓撲和硬體的規格進行精心設計與配置，實現了高度的集群兼容性。

具體到技術，則是綜合利用了 MTLink 和 PCIe，使得通訊性能提升一倍，綜合調優下 MFU 提升幅度超過 50%。

在穩定性方面，摩爾線程在根兒上先保證 GPU 的質量，從卡出廠開始便進行多項嚴格的檢測。

其後，摩爾線程還開發了集群系統監控和診斷工具，有助于篩選和快速定位到有問題的卡和伺服器，可以自動恢復和硬體替換。

并且結合異步檢查點（Checkpoint）加速，寫的時間從 10 分鍾降到秒級，讀的速度從 40 分鍾降到 2 分鍾；即使是遇到訓練異常，系統也可以自動重新拉起。

在可擴展性方面，誇娥目前已經支持了包括 DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale 在内的業界主流分布式框架。

除此之外，還融合了多種并行算法策略，包括數據并行、張量并行、流水線并行和 ZeRO，且針對高效通信計算并行和 Flash Attention 做了額外優化。

最後，在兼容性方面，摩爾線程代碼移植 Musify 工具，可快速将現有的主流遷移至 MUSA，零成本完成 CUDA 代碼自動移植。

借助摩爾線程元計算統一系統架構 MUSA，用户還可以復用 PyTorch 開源社區的大量模型算子，降低開發成本。

整體而言，摩爾線程的誇娥智算集群全棧方案的優勢可以歸結為八點，即：覆蓋主流大模型、兼容 CUDA 等主流生态、斷點續訓、大語言模型分布式訓練、加速推理、高性能通信、高性能存儲，以及高可靠性。

它就像把所有復雜的方案打包成了一把鑰匙，交付到用户手上開箱即用。

而且摩爾線程的誇娥（KUAE）智算集群解決方案不只是説説那麼簡單，是已經做到了上崗。

據了解，誇娥目前已經完成了三個千卡智算集群的落地，分别位于北京亦莊、北京密雲和南京。

不僅如此，摩爾線程仍在持續譜寫着 " 打造國產 GPU 集群 " 的篇章。

就在前不久，摩爾線程與清華系創業公司無問芯穹達成合作，成為第一家接入無問芯穹并成功完成千卡級别大模型訓練的國產 GPU 公司。雙方聯合推進基于誇娥（KUAE）千卡智算集群的 "MT-infini-3B" 合作大模型實訓，目前性能已在同規模模型中跻身前列。

并且無問芯穹 CEO公開肯定了誇娥（KUAE）的實力：

經驗證，摩爾線程誇娥千卡智算集群在性能、穩定性、易用性和算力利用率上均有優異表現，可以為千億參數級别大模型訓練提供持續高效的高性能算力支持。

由此可見，摩爾線程的誇娥千卡智算集群是得到了實踐驗證的那種，那麼最後一個問題便是：為什麼是摩爾線程能率先落地？

其實早在 2022 年的時候，團隊便已經設定了建集群的大方向與策略，這是因為當時 A100 算力也是處于緊缺的狀态，國内市場急需能夠替代它的產品。

從 GPU 功能情況來看，摩爾線程是在唯一可以對标英偉達的國產 GPU 企業，雖然單芯片性能還有差距，但若是集成起來便可解決單一性的不足。

而随着 2023 年大模型的火爆，這種 GPU 集群式的方向就顯得更加正确，畢竟黃仁勳在發布 B200 之際就表示 " 我們需要更大的 GPU，如果不能更大，就把更多 GPU 組合在一起，變成更大的虛拟 GPU"。

因此，現在回頭再看摩爾線程當時的策略和決定，确實是具備前瞻性的。

總而言之，有實力，有技術，有戰略，也有成績，摩爾線程還将在國產 GPU 的發展道路上帶來怎樣的驚喜，是值得期待了。

參考鏈接：

[ 1 ] https://www.mthreads.com/product/KUAE

[ 2 ] https://jxj.beijing.gov.cn/zwgk/zcjd/202404/t20240425_3637629.html

[ 3 ] https://ai.meta.com/blog/meta-llama-3/

— 完 —

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~