如果沒有AI算力，大模型這場戰役我們可能勝不了

今天小編分享的科學經驗：如果沒有AI算力，大模型這場戰役我們可能勝不了，歡迎閲讀。

沒想到，在 ChatGPT 爆火後的一年裏，竟然出現了一個隐藏 "Boss" ——

量子位獲悉，百度、360 等互聯網大廠均已開始基于昇騰部署 AI 模型；而知乎、新浪、美圖這樣全速推進 AI 業務的公司，背後同樣出現了華為雲昇騰 AI 雲服務的身影。

明面上，大模型帶動了 N 卡炙手可熱；但另一面，國產算力提供者中的頭部企業華為也浮出水面。

有意思的是，上述提到的玩家，目前展現的共性也非常明顯：無一例外都是有場景的互聯網玩家。

簡單解釋，就是這些公司在大模型變革之前，基本都在各自的行業中有穩定的業務生态，也有核心的商用場景。

毫無疑問，他們需要更快更高效讓大模型引擎轉動，可以更快產生最直接的價值，雲算力是最合适的選擇。

國内算力市場，悄然生變

解題就得從大背景展開，國内算力市場的供給和需求，正在產生方向性變化。

首先是資源的供給，也就是提供算力的市場，出現了變化。

從去年開始，國内市場就出現了 "N 卡難求 " 的情況。為此英偉達輪番推出特供版 GPU，在算力和功率上一再縮水，但還是受到限制。最近才有風聲的 HGX H20 和兩款新的 GPU，也被曝可能推遲到明年 2 月或 3 月才能發布。

一系列算力供給縮水動作，使得國内市場上已有的英偉達系列顯卡進一步稀缺，算力一個月内漲價 50% 甚至 100% 已是常态。

據《經濟參考報》介紹，由于算力資源持續緊張，國内算力服務公司如匯納科技，已經在 11 月中旬拟将所受托運營的内嵌英偉達 A100 的高性能算力伺服器算力服務收費同步上調 100%。

與此同時，國内互聯網廠商因大模型急速增長的算力需求，又加劇了這種緊張的局面。

先是國内大模型數量激增，10 月份統計數據顯示，國内已發布了 238 個大模型。

每一個大模型背後都意味着海量算力的投入，綜述《A Survey of Large Language Models》顯示，650 億參數大模型 LLaMA，在2048 塊 80G A100上訓練了 21 天；而 700 億大模型 LLaMA 2，同樣用了2000 塊 80G A100訓練。

然而，AI 算力需求還會持續上漲。

據 OpenAI 測算，自 2012 年以來，人工智能模型訓練算力需求每 3~4 個月就翻一番，每年訓練 AI 模型所需算力增長幅度高達 10 倍。

△圖源 OpenAI

顯然，随着 AI 成為全球產業的增速引擎，算力作為背後的驅動力自然關注不小，甚至出現了 " 誰能争搶到算力，誰就更有先發權 " 這樣的説法。

一方面，如果算力跟不上，無法搭上 AI 這班快車，直接面臨的結果就是在競争中落于下風，甚至可能被行業抛棄。

360 公司創始人周鴻祎曾經談到，公司如果沒有搭上 ChatGPT 這班車，很有可能會被淘汰。

與之相反，如果及時跟進潮流，公司就能憑借已有場景，快速在行業競争中獲得優勢。像是一度裁員 12% 的美版頭條 BuzzFeed，在宣布和 OpenAI 合作使用 ChatGPT 幫助創作内容後，股價一度暴漲 119%。

另一方面，算力的充足與否，又直接決定了擁有 AI 技術和產品的公司，能否提供長期穩定的服務，從而在這場競争中擁有先發權。

即使是在這場潮流中占據主導話語權的 OpenAI，也面臨算力緊張而無法滿足用户需求、被迫将用户 " 拱手相讓 " 的問題。

例如前不久，ChatGPT 出現了幾次流量過大、伺服器承載不下導致應用響應崩潰的情況，導致國外用户争相湧向谷歌 Bard 和 Anthropic 的 Claude 2；付費訂閲產品 GPT-4，同樣因為伺服器流量爆炸而出現 " 暫停訂閲 " 的情況。

但當下算力受限的情況，導致傳統互聯網企業要想快速跟上 AI 大模型相關的業務，無法再單單依靠 " 買卡 " 這一條路。

畢竟光是等待算力龍頭如英偉達發卡的時間，很可能就已經錯過了這一波風口。

相比之下，有場景的互聯網玩家，一旦有合适的算力，就能更快接入 AI 大模型相關的業務，從而在這場競争中獲得先發話語權。

在這樣的需求下，像華為雲這樣的國產算力玩家，再度成為國内互聯網廠商們關注的對象。

作為有算力、能提供雲服務、最早适應大模型打法的雲廠商之一，華為雲究竟為何能在一眾算力供給者中脱穎而出，為有場景的玩家們所看好？

為什麼是華為雲？

在行業調研中，行業玩家們對大模型時代的雲服務，有 4 大普遍性訴求：

算力可持續

高效長穩

簡單易用

開放兼容

而之所以選擇華為雲，從其 " 對症下藥 " 的技術細節就能管窺一二。

其架構由下至上，包括 AI 算力、異構計算架構、AI 框架、AI 平台、大模型、工具鏈幾個層級，由此構成一個算力充沛、高效穩定、低門檻廣生态的雲底座。

1、算力可持續

可持續的算力能從最根本上緩解行業玩家們的算力焦慮，同時也是大模型快速煉成、應用落地的基本保障。

在這方面，華為雲打造了貴安、烏蘭察布、蕪湖3 大 AI 雲算力中心，提供 3 大主節點及 30+ 分節點，支持 AI 算力即開即用。

昇騰 AI 集群也在今年全面更新，集群擴展至16000 卡，成為業界首個萬卡集群。它可支持萬億參數大模型分布式訓練。

此外在保障算力資源合理分配方面，華為雲支持資源彈性伸縮，可根據業務需求實際情況，自動增加或縮減伺服器實例或帶寬資源，可在保障業務能力的同時節約成本。

2、穩定高效

先來看穩定性。

由于大模型訓練過程比傳統分布式訓練更復雜，導致訓練所需計算集群規模空前增加、涉及器件數量往往在百萬 / 千萬級别。如果單器件發生故障，就可能導致集群訓練中斷，且故障原因定位定界復雜。

這就使得當前大模型訓練更容易出現故障，訓練時間被拉長。

以 Meta 的 OPT-17B 訓練為例，理論上在 1000 個 80G A100 上訓練 3000 億個單詞，需要 33 天。實際訓練卻使用了 90 天，期間出現了 112 次故障。其中主要問題是硬體故障，導致手動重啓 35 次，自動重啓約 70 次。

△OPT-175B 意外中斷情況

在這方面，華為雲昇騰 AI 雲服務支持裸金屬集群進行大模型訓練，無虛拟化損失，并行訓練效率提升 100%。從處理器、算子、框架、平台全鏈路垂直協同優化，主力場景性能是業界平台的1.5 倍以上。

以盤古大模型（2000 億參數）在 2048 卡上的訓練為例，實現了30 天訓練不中斷，長穩率達到 90%，斷點恢復時長控制在 10 分鍾以内。

此外華為雲還實現了千卡預訓練故障自動診斷恢復，增強智能運維工具能力，實現分鍾級信息獲取、2 小時定界、24 小時提供解決方案。

△華為常務董事、華為雲 CEO 張平安

再來看高效性，這是場景玩家們的迫切需求。

但是千億參數大模型在訓練中需要大量的梯度、參數等進行同步，集群很難實現線性加速比。即，增加了一倍的計算集群規模，但是計算量無法同比增加。比如：

1024 卡集群：計算和通訊比例為 7:3

2048 卡集群：計算和通訊比例為 4:6

華為雲昇騰 AI 雲服務通過模型 + 集群的混合并行策略，讓模型切分更加平衡，從而實現集群接近線性加速比。

1024 卡集群：計算和通訊比例為 85:15

2048 卡集群：計算和通訊比例為 80:20

4096 卡集群：計算和通訊比例為 70:30

以及在訓練成本方面，華為雲昇騰 AI 雲服務使用 CAME 優化器，相較于業内常用方案可節約 50% 内存用量。

要知道，大模型的海量參數會導致訓練時内存消耗空前增加，進一步導致訓練成本升高。CAME 優化器專為大模型訓練而來，獲得了 2023 年 ACL 傑出論文獎。

3、簡單易用降低開發門檻

如今 ChatGPT 引爆的大模型趨勢已經全面鋪開，來自千行百業的玩家們都迫切想要快速将大模型接入自己的業務中。

但是大模型開發又是一個復雜的系統工程，從頭開始自己摸索會影響落地速度。

所以雲服務廠家們紛紛推出了簡單易用的開發工具。比如華為雲提供了全鏈路工具鏈，雲化免配置、開箱即用，可實現 5 倍速開發大模型。

它包括大模型開發工具套件，可自動化、半自動化數據工程，效率提升 3 倍，5 分鍾快速構建應用開發。

調試調優部分包含 1400+ 算子沉澱，30+ 可視化調優部署工具；提供豐富的 API 能力，可調用盤古大模型 100+ 能力集。

還能将典型模型遷移效率提升到2 周内搞定，實現主流場景自主遷移。

4、構建開放兼容生态

最後，并非所有場景玩家都需要從頭構建大模型。選擇在已有基礎大模型上進行微調或者直接使用，是更加降本增效的方案。

那麼對于開發者、行業玩家而言，有更多選擇就很重要了。

基于這一點業内需求，華為雲上線了百模千态社區，企業和開發者能直接使用業界主流的開源大模型，如 Llama、GLM 等。同時聚合數據集、模型、實踐等 10 萬 +AI 資產。

為了滿足開發者的不同偏好，昇騰 AI 雲服務已兼容 TensorFlow、PyTorch、RAY、Caffe 等 AI 框架。

進入昇騰 AI 雲服務百模千态專區，僅需 3 步即可開發自己的大模型。

基于如上雲服務能力，華為雲已經給業内諸多玩家提供了大模型使能服務。

比如美圖僅用 30 天就将 70 個模型遷移到了昇騰，同時華為雲和美圖團隊一起進行了 30 多個算子的優化以及流程的并行加速，AI 性能較原有方案提升了 30%。

昆侖萬維和華為雲籤署戰略合作，雙方将在華為雲昇騰算力領網域展開全面深入合作，致力于打造企業專屬模型，支持企業級 AI 應用，持續賦能千行萬業應用創新與場景落地。

△華為雲 CTO 張宇昕

在當前算力稀缺、資源不足的情況下，這些場景玩家選擇與華為雲這樣的雲廠商聯手，來快速增強自身 "AI 硬實力 "。

而這種大背景之下，也湧動着當前的產業趨勢：

技術創新的曲線開始趨于平緩，商業創新的曲線開始發力。

其中，增速最快的，自然是有場景、有業務的玩家。

場景玩家如何把握 AI 落地機遇

ChatGPT 發布一年以來，AIGC 已行至下半場。

上半場，國内外掀起一股基礎大模型技術争鋒浪潮，" 百模大戰 " 态勢之下，湧現出一批 AI 初創公司。

這些公司或掌握底層 AI 架構基礎、或有搭建上層 AI 工具的經驗，依靠技術發布了不少有創意且吸睛的產品，融資更是拿到手軟。

然而，随着相關技術逐漸從開疆拓網域走向穩定成熟，AIGC 產業也出現了新的變化。

下半場，AI 技術公司開始追求產業落地，不少初創公司更是在尋求擴大生态圈的方式。

相比之下，有場景的互聯網公司，通過觀察 AIGC 技術優勢，依托生态優勢、加上算力基礎，就能快速擴大影響力，進而在公司中取得話語權。

在這種情況下，技術和場景玩家的身位也在悄然發生變化——

技術玩家，需要 " 拿錘找釘 "，面臨進一步擴張技術生态和產品場景的難題。

雖説這些玩家已經具備了成熟的基礎大模型或工具鏈技術，但技術仍舊需要找到場景，才能進一步穩定出圈。

相比之下，場景玩家成為了 " 拿釘找錘 " 的一方。

依托已有場景需求和穩定用户生态，這些玩家只需将 AIGC 技術融入業務，就能進一步實現降本增效。

然而，即便是 AIGC 技術趨于成熟的當下，想要快速跟進也并非易事，除了底層的算力搭建以外，大模型所需的訓練和加速等技術也并非就能 " 一蹴而就 "。

在這樣的下半場态勢中，像華為雲這樣底層算力、AI 相關技術和平台、生态三者齊備的國内雲廠商，在場景玩家的發展中進一步起到了催化劑的作用。

底層算力上，華為雲依托自研的昇騰處理器打造的超大規模 AI 集群，已經由 4000 卡更新到 16000 卡集群，能支持萬億級模型訓練，不僅速度更快，訓練周期也更穩定；

AI 相關技術和平台上，除了 AI 算力之外，華為雲還為開發者提供了完善的工具和資源，解決了 AI 大模型部署從訓練、加速到不同框架适配這些難題，進而基于已有的研發經驗，給廠商提供運營所需的技術服務；

AI 生态上，華為雲已經與 150 多家夥伴、200 多家客户，共同構築了 20 多個行業大模型以及 400 多個 AI 應用場景，加速行業智能化更新。

所以，在當前國際大環境下，有場景的玩家，只需要借助像華為雲這樣的雲廠商提供的技術服務，就能快速将下半場大模型機遇變成紅利，而華為雲也能給國内的互聯網企業提供更多選擇。

現有的趨勢，也能説明這一點。

美圖首個懂美學的 AI 視覺大模型發布當天，股價單日上漲 21.28%，随後更是受到國内影像編輯工具行業的廣泛關注；

拓維信息發布的交通 CV 大模型，如今已在高速公路稽核等行業場景得到應用，這 1 年一來股價上漲了 129.44% ……

顯然，這些玩家基于自身已有的業務，再依托雲廠商提供的大模型和算力，就能快速将場景勢能發揮到最大優勢。

但無論選擇什麼類型的雲廠商、做出怎樣的判斷，國内互聯網企業都依舊需要回到當前的大環境下，結合客觀形勢做出判斷。

在國外算力購買愈發困難的當下，面臨新一輪 AI 競争趨勢，如何讓算力像水電一樣即取即用，是所有國内企業都應當要思考的問題。

事實上，如今中國的算力水平實際上已經位居世界第二，占全球市場比重達 25%，從 2017 年到 2022 年的復合增長率達到 48.8%。

當更多的企業願意投資算力、交易算力，就能推動算力產業進一步降本增效，加快算力向現實生產力轉化。

— 完 —

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~