中國智算建設潮背後，誰在推動十萬卡集群

今天小編分享的科技經驗：中國智算建設潮背後，誰在推動十萬卡集群，歡迎閲讀。

中國雲廠商在十萬卡集群上表現得更為理性，是什麼在推動它們展開技術準備？‍‍‍‍

文｜趙豔秋‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

‍‍‍‍‍‍‍‍‍

編｜牛慧‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

在打造十萬卡集群上，幾家國内頭部企業已有動作。

在 11 月 12 日舉辦的百度世界 2024 大會上，百度集團執行副總裁、百度智能雲事業群總裁沈抖透露，為了支撐大模型進一步的高速發展，百度在打磨十萬卡集群能力方面，已在兩大問題上取得關鍵突破。與此同時，字節和阿裏在智算上投入巨大，今年以來，華為也聯合廠商在攻克更大規模集群。

是否有必要打造十萬卡集群？過去 24 個月，由于大模型超級應用還未出現，中國業界出現了反思——大模型全球性的狂熱，究竟是一場新的技術革命，還是新一輪泡沫？

在這次大會上，百度創始人李彥宏披露了一個數字，文心大模型日均調用量達到15 億，而6 個月前是 2 億。" ‘應用來了’，代表了我們對大模型和生成式 AI 當下的認知和判斷。" 李彥宏稱。這個在下半年突然變得陡峭的曲線，在一定程度上給出了佐證。

這也是當下中國雲廠商開展技術準備的現實考量。由于投入和芯片上的限制，中國雲廠商的表現并不激進。但他們在客户快速增長的需求下，也在分步走向十萬卡集群。

企業智算投資的熱情高了

百度傑出系統架構師王雁鵬，最近幾個月頻繁接觸到高校客户，" 他們對算力的需求在增多 "。

今年諾貝爾物理學獎、化學獎都頒給了人工智能相關專家，引發了廣泛關注。" 大家最興奮的是，原來AI for Science要由各種不同的模型去做，但現在搞蛋白質的、搞數學的 ......都可以‘揉’到大模型的方式中來，核心架構甚至全都是 transformer。" 王雁鵬告訴數智前線。高校的熱情普遍提高了，最近預算變多，都拿到資金建設智算基礎設施。

像上海交通大學，已轉變傳統科研模式，期望科學與 AI 更緊密的結合。他們與百度智能雲合作建成了自己的 AI for Science 科學數據開源開放平台，支撐白玉蘭科學大模型的訓練。依托 AI for Science 平台，上海交大已在 Nature Computational Science 封面，發表了 AI+ 城市的科學成果。在公開招投标平台上，近期更多高校發布智算相關招标公告。

車企是當下智算的采購大户。" 我們調研，用户已願意為好用的智駕買單。" 一位大型車企人士説。而且，端到端智駕技術，比原來由很多小模型串聯起來的智駕 " 更拟人化 "，成為行業的主流方案。明确的方向，讓車企投入意願更強烈。該人士判斷，未來 1~2 年内，車企智算算力會再翻兩番左右。

" 在教育行業，最大的夢想就是實現大規模因材施教。" 好未來集團 CTO 田密説，"AI 老師讓我們看到了一絲曙光。有了大模型，所有的 AI 教育科技都值得重做一遍。" 大模型可以解題、講題、口語練習、批改作業，為學生做個性化學習推薦。

" 大廠可以從零開始做，小廠通過 API 調用或微調、RAG 就可以。作為中廠或垂直領網域的龍頭企業，我們還是要基于最優秀的開源模型，做好後訓練。" 田密説。去年，好未來推出九章大模型 MathGPT。為此，好未來在百度智能雲上，自有和租賃數千卡，這在教育行業中是最好最高的。大模型在以各種形式落地，如學習機、App，也通過 API 向社會開放，手機、平板、PC 和新能源車都開始了調用。

在餐飲行業，消費者已不知不覺用上了大模型技術。" 百勝中國是最早開始使用生成式 AI 的餐飲企業。" 百勝中國 CTO 張雷説。它是國内規模最大的餐飲公司。在人們經常使用的 App 小程式、外賣平台各渠道中，百勝采用了百度智能雲的客悦 AI 智能客服系統，解決肯德基、必勝客在線點餐中非常多樣化的服務需求，每天已協助處理超 15 萬次消費者溝通。

張雷稱，未來将以 AI 原生方式，在管理、運營、生產和交易的各個方面進行技術重構。

從去年開始，國家電網基于文心大模型和千帆平台，結合電力行業高質量數據，在共創電力行業大模型基礎底座，在調度、設備、營銷等六大專業領網域探索 AI 原生應用。近期國網就會正式對外發布相關成果。

" 我理解，所有行業都已被 transformer 給重構了。" 好未來田密説。越來越多的大中型互聯網企業、車企、頭部央企等，都在訓練自己的行業或企業大模型。

他們的共同特點是，有大量私網域數據和獨有業務，有研發力量，但不會從頭去訓練通用大模型，而是在開源或商用模型上做深入的後訓練，适配各類場景，搭建自己的數據飛輪，并有商業預期。這些企業的需求，也進一步拉動了智算市場。

值得關注的是，在大模型範式下，算力與算法的重要性開始對等了，這讓企業的投入占比發生了變化。

" 我們算了一筆賬。四五年前開始研發智駕時，要投入相當多的算法和規則開發工程師，人力、數據和算力的投入比是 6：2：2。" 一位車企人士説，" 但現在端到端智駕研發，需要更大的算力。我們初步預測，上述比例将變為 2：3：5，50% 甚至更高的投入是算力。"

有趣的是，這些龍頭企業無論采用公有雲，還是自建數據中心，都不約而同找到了雲廠商。" 我們主動找到了百度智能雲。" 好未來田密説，"你會發現，在 Infra（基礎設施）的投入上，只有大廠才能做得這麼細致。"

而 IDC 中國研究總監劉麗輝介紹，到 2026 年，半數以上的企業，都會與雲廠商達成生成式 AI 基礎設施、相關平台工具等方面的合作。

壓力給到了雲廠商

百度王雁鵬觀察，在投入踴躍的企業中，行業龍頭典型的算力需求在 1000 卡 ~5000 卡規模，而大模型創企的需求則在萬卡水平。

這些企業在訓練和推理過程中，遇到了各種問題，他們對智算基礎設施提出了四個主要的訴求——高速網絡互聯、集群穩定性、資源利用率、大模型訓練和推理工具等。而這些需求與 CPU 雲時代截然不同。

比如有人把 GPU 比作賽車，要讓賽車性能發揮到極致，就要給它建立專業賽道。在搭建 GPU 集群時，企業要求雲廠商提供一個更好的網絡硬體互聯架構。

穩定性是一件要命的事。CPU 的功耗只有兩三百瓦，GPU 已經 1500 瓦了。黃仁勳因此被戲稱為 " 核彈狂魔 "。功耗高代表着集成度高，這就容易出故障。" 我們算過，一個千卡集群，按照現有市場價格，一天的租金是二三十萬元。平台穩定性不好了，我們的損失就很大。" 一家車企人士説。而視頻大模型企業生數科技人士告訴數智前線，他們核心的訴求是 " 穩定性 "。平台穩定，确保他們在視頻生成的核心技術 " 高一致性 " 上實現突破。

資源利用率也是企業最關注的問題，因為 GPU 太貴了，利用率左右着 ROI。

而這些訴求，把壓力給到了雲廠商。" 過去一年多，大模型正在重構 AI 計算模式。" 一位雲廠商的資深人士説，" 我從來沒有看到過任何一個技術浪潮，能夠像這一輪大模型，從上到下對我們的技術有如此大的颠覆。"

此前，基礎設施是以 CPU 為核心的體系。它的核心點是極致彈性、極致性價比，大家最大的驅動力是提效降本。

到了大模型時代，基礎設施轉向了極致高密、極致互聯與極致規模。國外今年已從十萬卡向百萬卡集群邁進。用不了太長時間，可能一個數據中心，就會 " 縮到 " 一個機櫃裏或一個節點上。

基礎設施從過去的提效降本，轉變成一個全面追求技術創新，來驅動整個業務大發展的階段。每一個從業者也都在朝着如何能夠去追趕上 scaling law 的發展去奔跑。在一次會議中，百度集團副總裁侯震宇介紹，最近幾年，在百度内部提及最多的是 800G/T 級互聯、高密存儲、異地異網異構調度、訓推一體 .....

由于過去十多年在整體 AI 上的投入，百度從 2009 年開始，在中國互聯網企業中第一家開始使用 GPU 做集群加速，2021 年已建成三四千卡單一任務的 GPU 集群，并逐步形成了有豐富技術棧的百度百舸異構計算平台。

"CPU 的 IaaS 是一個通用平台，但 GPU 的 IaaS 不一樣，更追求 GPU 算力端到端的性能最優，要給它提供更厚的技術棧，算力才容易發揮出來。" 百度王雁鵬對數智前線解釋。

基于百度百舸的技術棧，解決了龍頭企業在算力上的問題。在長安汽車，最初 GPU 綜合利用率不太高。長安汽車和百度智能雲，應用百舸平台，做好訓練任務的編排和調度，GPU 利用率提升了 40% 以上。

視頻大模型創企生數科技稱，基于百度百舸穩定的超大算力集群，在 OpenAI 推出 Sora 僅 40 天後，推出了自研視頻大模型 Vidu。在訓練中，他們應用了百舸平台的算力集群的任務分發、隊列調度和訓練加速，" 縮短了 Vidu 的研發周期 "。

" 我們迭代的速度是非常快的，無論是新功能，還是模型基礎能力上。" 在 Vidu 上線逾百日之際，生數科技在 11 月 13 日推出 Vidu 1.5 新版本，率先攻克 " 多主體一致性 " 難題。

由于最早在市場上推出模型，生數科技已在影視、動畫、文旅有落地。比如，近期漫威電影《毒液 3》的中國水墨風格 AI 宣傳片，就是 Vidu 生成的。

奔向十萬卡

國内雲計算廠商還在更進一步，但他們的做法和考量也更理性和現實。

在海外，美國市場在經歷了一個充分有效的競争後，之前很熱鬧的大模型公司都在賣身，今年做基礎大模型的企業已迅速收縮到五家—— OpenAI、Anthropic、Meta、谷歌，以及馬斯克旗下的 xAI。

而這些巨頭的算力競争門檻已達到十萬卡規模。微軟計劃到明年底，向 OpenAI 提供約 30 萬個英偉達最新 GB200 圖形處理器。但 OpenAI 似乎并不滿意，也與甲骨文達成了協定，甲骨文正在設計一個超級數據中心，将達到一千兆瓦電力，轉換過來就是 50 多萬卡英偉達 GPU；

Meta 的小扎也不甘落後，稱 Llama 4 模型正在一個 10 萬片 H100 GPU 集群上訓練；馬斯克的 xAI 今年 7 月已建成十萬卡集群，并将在未來幾個月内再增加 10 萬卡，其中 5 萬卡将是英偉達 H200。

在百度世界 2024 大會上，沈抖披露，百度已解決了 10 萬卡集群兩個難題。一個是在一雲多芯情況下，兩種芯片混合訓練效能折損，控制在 5% 以内，這是業界領先水平。這一技術是針對芯片供應緊張，以及部分企業對國產算力有強需求而研發。

另一個難題是跨地網域機房部署，百舸将單一訓練任務集群的性能折損控制在 4% 以内，這也是業界領先水平。它解決的是電力問題和機房空間問題。10 萬卡集群一天要吃掉 300 萬千瓦時電力，相當于北京東城區一天的居民用電量；所需的占地，相當于 14 個标準足球場。它通過高效拓撲結構、跨地網域無擁塞高性能網絡和高效模型并行訓練等方案，在橫跨幾十公裏的多機房上實現。

不過，業界如今有一個疑問，OpenAI 在 2020 年提出的 Scaling Law 是否還成立？是否有必要追趕十萬卡集群？王雁鵬坦言，他們看到Scaling Law 确實在放緩。這也是 OpenAI o1 比較火的一個原因，它采用強化學習（Self-play）模式，開創了模型 scaling 的新維度。

一些國内龍頭企業，其實在半年多前已将更多精力轉向強化學習。通過算力創造更多數據，由人們給每一步打分、做數據标注，通過獎勵模型去強化它，讓模型更智能。

強化學習讓模型訓練對算力的需求也降低了不少。但這并不意味着國内就原地踏步在數千卡到萬卡集群。大模型正進入更多產業，王雁鵬預估，明年算力需求還會以訓練為主，算力需求在高速增長，企業對算力在性能和成本上，也提出進一步的訴求。

" 比如大模型創企，他們有很強的融資壓力，所以對成本的訴求非常強。" 王雁鵬説。

當下，公有雲是企業進行大模型訓練的主流方式。雲廠商常常采用 "服務一個企業，搭建一個集群的方式"。但這種方式存在明顯劣勢，即在企業訓練任務不處于高峰期時，集群中的計算資源處于閒置狀态，造成資源浪費。而當 10 萬卡集群出現後，雲廠商就可以依靠這個大型集群，為眾多企業提供服務，根據不同企業的需求，動态分配計算資源，不僅提高了資源利用率，也降低了企業的成本。

" 當我們能解決了十萬卡集群技術，比如上述的跨地網域 RDMA 技術、多芯混訓技術、容錯技術，就可以不需要建一個大的單一機房，而是把幾個機房融合在一起，提供一個更好的雲平台，也給大家一個更好的成本。多芯技術也是一樣的邏輯。" 他進一步説。

在與國内企業的相互合作和推動下，中國雲廠商正在加速平台建設，推動大模型技術浪潮，在市場的快速演進。

進群、轉載或商務合作聯系後台

文章精選