算力荒緩解，自主化智算還有必要嗎？

今天小編分享的科學經驗：算力荒緩解，自主化智算還有必要嗎？，歡迎閲讀。

2023 年大煉模型興起，全球範圍内都出現了算力供不應求、一卡難求的情況。各地紛紛興建數據中心、智算中心，來解決國產大模型的算力短缺問題。

今年算力市場又倒向了另一個方向，算力開始過剩和大量閒置了。

主要體現在，高端顯卡囤積居奇的生意不好做了，"GPU 倒爺 " 的朋友圈已經從 " 欲購從速，過時不候 "，變成了 "A100/H100 滞銷，幫幫我們 "。而算力租賃市場，理想情況下的上架率應該是 80%，但很多集群只能達到 30% 甚至更低，投入大量資金建設的算力閒置，租不出去。

于是一種聲音開始甚嚣塵上，認為算力荒已經緩解了，供過于求，應該放慢自主化智算的建設。還有人説，智算中心建的太多了，大模型都用不完了。

發展自主化智算，到底還有沒有必要？

還記得 2023 年算力荒焦灼、智算建設突飛猛進的時候，倪光南院士曾提到過：各地盲目建設各種低水平智算中心，讓人唏噓不已，一定要警惕 " 技術房地產 " 和 " 數字爛尾樓 "。所謂 " 技術房地產 "，就是算力資源賣不出去，只能變成一堆放着伺服器的磚頭水泥房子，閒置在那裏。

短短一年多時間，從算力短缺到算力過剩，究竟是怎麼發生的？目前來看，閒置算力主要集中在三種情況：

1. 用不起。英偉達的高端顯卡 GPU 是 AI 訓練的首選，2023 年一度一卡難求。以 N 卡為主的智算資源閒置，一是因為巨頭們此前已經大量囤積采購了 GPU，需求減少；二是炒作之後價格昂貴，即使價格回落，中小企業還是用不起。在很多讨論 " 算力過剩 " 的評論區，我們總能看到 " 降價試試 " 的留言，説明高端 AI 算力的需求仍在，只是昂貴的 N 卡被價格勸退了。

2. 不好用。國產卡組成的算力集群，也存在上架率不高、資源閒置的問題，主要是不好用。因為國產卡的集中度不高，一個千卡或萬卡集群，往往是由各類國產算力卡組成的，異構算力之間的協同調度，涉及大量工程化細節，沒有做好就無法開箱即用。勉強用了，又時不時出現業務中斷、算效不高、恢復訓練慢等各種問題，導致客户流失。這類被迫閒置的國產算力，正是沒有考慮配套，盲目建設的低水平智算中心。

3. 用不上。" 百模大戰 " 之後，企業不再大煉模型，預訓練的算力需求也就大幅下降，算力市場開始轉向以推理算力為主。但推理市場的爆發，需要一個過程，目前 AI 的行業滲透率還比較低，總體不到 10%，很多企業對 AI 的投入以嘗試為主，還沒有大規模爆發。所以，訓練用算力開始出現閒置，而推理用算力還未大規模崛起，因此短缺問題尚未完全顯現。

低水平算力的閒置與過剩，再一次警醒我們：一個繁榮健康的算力市場，關鍵不是建出來，而是用起來。

這種情況下，仍然大力發展自主化智算，還有必要嗎？

我們認為，這個問題的答案不該有猶豫，要旗幟鮮明地，鼓勵自主化智算基礎設施的繼續建設、加速建設。

首先，從長期看，國内智算屬于後發，基礎仍然薄弱。

中國智算的進步速度是很快的，但也要客觀看到，美國這樣的 IT 先行者，從 20 世紀 90 年代以來就在 IT 建設上大力投入。根據彼得森國際經濟研究所的消息，在 2024 年美國在電子制造業建設方面（主要是芯片）的投資，就超過了 1996 年至 2020 年（24 年的時間跨度）的總投資。而產業界，xAI、Meta、OpenAI 等海外 AI 巨頭，都在積極布局十萬卡、五十萬卡規模的智算集群。

所以，國内自主化智算近年來的發展雖然迅猛，也是在積極補課，打牢基礎。這時候如果停止，不僅會前功盡棄，還會讓中美在 AI 基礎設施上的差距進一步拉大。

從近期看，自主化 AI 算力需求仍然沒有得到充分滿足，算力荒仍在。

一方面，海外 AI 算力進口受到限制，極不穩定。目前，國内 AI 訓練芯片市場英偉達占據了 80%～80% 的市場份額，要避免威脅供應鏈安全，這種情況必須盡快改變。上海的 " 算力浦江 " 智算行動實施方案（2024 — 2025 年）要在 2025 年，實現新建智算中心的國產算力芯片使用占比超過 50%；《北京市算力基礎設施建設實施方案（2024 — 2027 年）》則提出，2027 年要具備 100% 自主可控智算中心建設能力。

三年左右，從不到 20% 發展到 100%。所以，如今的自主化智算不是太多了，而是還不夠。

與此同時，算力需求仍在增長。大模型的規模法則仍在繼續，以 Sora 為代表的視頻生成模型對算力的需求量是 LLM 大模型的數倍，已經出現了 " 一棟樓放不下一個模型 "" 一個模型需要多個集群 " 的情況，超萬卡智算中心是必不可少的基礎設施，目前國内的十萬卡集群還遠遠不足。

此外，大煉模型的階段雖然結束了，但基礎模型的市場集中度提高和能力提高，又會釋放 AI 應用需求，促進 AI 的行業滲透率、普及率，導致 AI 推理算力的需求爆發，急需要更多高質量算力來滿足。目前部分國產 AI 算力集群的利用率極高，西安昇騰智能科技有限公司的人工智算中心算力使用率就高達 98.5%；曙光在長沙的 5A 級智算中心，也吸引上百家企業入駐，實現萬餘個商業應用接入。因此，随着產業智能化更新的繼續推進，國產 AI 算力荒不是已經解決，而是從現在開始重視和應對。

互聯網產業的核心，當然不是寬帶和機房，但沒有 " 寬帶高速公路 "，就沒有美國互聯網經濟的爆發；移動互聯網的核心，也不是基站，但沒有廣泛覆蓋的 4G 基站，就沒有智能手機和移動應用軟體的興起。AI 大模型也是一樣， AI 作為一種依附在基礎設施之上的軟體技術，核心不是智算，但沒有自主化智算，國内 AI 絕不可能獨善其身、獨自蓬勃發展。

因此，自主化智算并不存在過剩，更不該就此放慢發展。

綜上，" 國内 AI 算力過剩 "，是個假問題，" 如何合理地推進自主化智算的建設 "，才是真問題。

解決這個真問題，國内智算產業已經來到了承上啓下的新階段。不僅要追求把智算中心 " 建起來 "，還要能運營好、用起來。

因此，智算廠商的競争，也從售賣硬體資源與智算解決方案，轉變為多維度、綜合性、長期服務的競争。比如華為昇騰 AI 全棧、中科曙光的 " 立體計算 "、寧暢的 " 全局智算 "、聯想的 " 萬全生态 "，新華三的 "1+N" 智算等，以更全面的能力，支撐自主化智算的建設運營。

追求全面，并不意味着胡子眉毛一把抓，目前來看，智算廠商們主要集中解決自主化 AI 算力的幾個痛點問題：

1. 異構問題。目前，國產 AI 芯片還無法規模化出貨，市場集中度較低，因此都是以混合算力的形式，來加入智算集群。多元異構算力的協同調度、管理、算效、業務可靠性等，面臨很多技術挑戰。如果一個企業或開發者，要針對 ABCD 不同廠商的卡進行适配開發，是不可能的。所以，就需要智算廠商提供相應的系統平台，屏蔽底層異構硬體的復雜性，讓大家用好國產算卡。比如聯想的萬全異構智算平台，實現異構化 AI 算力的管理與調配；新華三面向異構智算的智能管理平台，一站式應對多樣化的 AI 應用場景。

2. 算效問題。解決 " 低質量算力過剩，自主化高質量算力不足 " 的結構性問題，需要進一步提高國產 AI 的性能。面對工藝制程的限制，可以通過軟硬體系統的無縫配合，從而實現國產算卡性能的充分釋放。以昇騰為例，就與昇思緊密結合，為各類智算場景提供高性能的自主化 AI 算力，深圳鵬城實驗室的 " 鵬城雲腦Ⅱ " 就依托昇騰實現了中國首個自主可控的 E 級智能算力平台，可以提供不低于 1000Pops 的整機 AI 計算能力。

3. 運營問題。如今，一些地方在智算中心建設之前，開始提出上架率、收益率等要求，需要保證項目投運後有一定的使用率。同時，也會要求建設方提供設計、使用、運營等一體化服務，避免智算中心因無人運營而成為 " 數字爛尾樓 "。以用促建、以服促用，已經是自主化智算發展的必然潮流。比如新華三與杭州市合作，打造 " 圖靈小鎮 "，培育 AIGC 產業和數字人才；中科曙光 " 立體計算 " 主張 " 算力建設、應用賦能、生态共生 " 三位一體，推動多元算力向新質生產力轉化，目前已經在 5A 級智算中心落地實踐。