今天小編分享的互聯網經驗:華為的一場信心之戰,歡迎閱讀。
圖片系 AI 生成
" 信心,比黃金和貨币更重要。"
2008 年經濟危機之時,金融風暴席卷全球,來勢很猛、速度很快,使西方各大國無不疲于奔命,雖然采取了多種措施救市,提振本國經濟,無奈效果不佳。
" 在經濟困難面前,信心比黃金和貨币更重要。" 中國發聲并挺身而出,站在了應對金融危機的最前沿。
此時此刻,恰如彼時彼刻。無論是宏觀經濟環境的封鎖,還是世界產業鏈的逆全球化,企業像是時代海洋裡的一葉扁舟,努力地找尋方向,努力地讓自己不至于頃刻翻覆。
華為可能是最有感觸的一家,一方面,本次華為被置于戰場前線,受到了最為猛烈的炮火轟擊;另一方面,華為上一次嚴重危機,正是 2008 年經濟危機所造就。
經歷過危機的老華為人有些熟悉,同樣是在公司保持連年增長的勢頭上,然後突然發生黑天鵝事件,華為的應對也有一些相似,大致的三部曲可以理解為,先聚焦主業,強調利潤和現金流;再激活組織活力,讓能打糧食的人到一線;最後也是最關鍵的一步,創新致勝,确保自己的創新跟上時代。
2022 年,華為創始人任正非在内部講話中提到,如果按計劃在 2025 年我們會有一點點希望,那麼我們要先想辦法度過這三年艱難時期,生存基點要調整到以現金流和真實利潤為中心,不能再僅以銷售收入為目标。
到了 2024 年,華為實現全球銷售收入 8621 億元,同比增長 22.4%,創下 2021 年之後的新高,淨利潤 626 億元,經營收入開始恢復。
至此為止,華為還不能說完成度過危機的三部曲。任正非曾提到," 中國 99% 的公司可以與美國合作,他們沒有受到制裁,他們的芯片算力比我們的高,他們能買到的東西比我們好。在這樣的條件下,未來幾年我們能不能為生存活下去?我們還在掙扎中,内部還在講怎麼克服很多困難。"
自 2019 年 5 月 16 日開始,華為連續幾年遭遇制裁,烈度不斷更新,耗費了大量的人力、物力、财力恢復業務連續性,不止是為了确保基本的經營,更是要在美國封禁最嚴苛的領網域蹚出一條路。
華為依舊處于危機之中,如果不能在 AI 算力領網域成為世界第二極,那麼華為逃不過這場慢性衰落,可能在國内有足夠的生存空間,但在國際市場失去競争力,對于中國 AI 產業來說,大概也是如此。
華為公司常務董事、華為雲計算 CEO 張平安
華為以及中國 AI 算力產業都需要信心,遠比當下的現金流和利潤還重要得多,這也是為何當華為雲計算 CEO 張平安拿出了 AI 基礎設施架構突破性進展—— CloudMatrix 384 超節點之後,迅速吸引了中國 AI 產業的集中關注。
歷史上多數企業由危轉機的拐點,往往都是用颠覆性創新開啟新一輪增長周期。
"天下苦英偉達久矣"
英偉達攫取了大模型行業發展至今的絕大部分利潤,幾乎壟斷了 AI 算力,全世界不少聰明的頭腦都在思考同一個問題,如何突破英偉達的 " 封鎖 ",不僅僅是國内 AI 產業,國外的訴求同樣迫切。
如果用一個關鍵詞來形容 AI 算力產業," 冰山之下 " 大概最為合适。微軟、谷歌、亞馬遜等雲計算巨頭加速自研 AI 芯片,削弱對英偉達的依賴,國内廠商受限于宏觀環境,更難獲得最新的 AI 算力產品,不得不在產業鏈缺失的條件下自研。
所有人都能看到水面之上的英偉達," 擠牙膏式 " 更新迭代着自己的產品,更大的算力、帶寬,更強的生态綁定,榨幹 AI 產業的每一分資本支出,但是國内和國外廠商的諸多 AI 算力研究還潛藏在水面之下,等待合适的時機。
一個時代有一個時代的計算架構,英偉達取代英特爾如此,其他廠商要對标甚至取代英偉達,也需要以年為周期的持久投入,以及一點幸運,畢竟誰能想到做遊戲顯卡,能成 AI 算力巨擘。
沒有一家廠商,比華為更想在水面之上自由呼吸,海外巨頭在自研和采購英偉達之間尚有妥協空間,華為以及對 AI 算力有需求的所有中國企業别無他法。
在介紹 CloudMatrix 384 超節點之前,有必要引入英偉達的 NVL72,2024 年英偉達 GTC 大會上,最大的亮點不是 Grace Blackwell 架構,不是 NVLink domain,不是精度軟體優化液冷等等,這些單點技術突破都足夠優異且常規。
但是 NVL72 這個極致壓縮又極致耦合的架構,為萬億級大模型訓練和推理層面提供了前所未有的性能。
在訓練方面,與上一代產品相比,通過 32k GB200 NVL72 訓練 1.8 萬億參數的 GPT-MoE 模型性能可提升 4 倍。推理方面,GB200 NVL72 加上 FP4 精度和第五代 NVLink 等諸多技術,與上一代產品相比整體效率提升了 30 倍。
簡單理解,大模型的 Scaling Law 意味着算力越大,模型越智能,而随着模型規模的增大,每增加相同數量的參數或計算資源,獲得的性能提升逐漸減少,但是 NVL72 這種架構提供了更強的算力,且實現了平均 token 成本更低的 Scale-up。
中國 AI 算力產業在單點層面還追不上英偉達產品,專為萬億大模型優化的 AI 算力集群,似乎又把戰局拉得越來越遠,此時,CloudMatrix 384 超節點出現了。
被DeepSeek送上風口
面向 AI 時代的海量算力需求,華為雲基于 " 一切可池化、一切皆對等、一切可組合 " 的新型高速互聯總線架構推出 CloudMatrix 384 超節點,實現從伺服器級到矩陣級的資源供給模式轉變。
CloudMatrix 384 超節點
CloudMatrix 384 具備 " 高密 "" 高速 "" 高效 " 的特點,通過全面的架構創新,在算力、互聯帶寬、内存帶寬等方面實現全面領先。
寥寥數語不足以顯示 CloudMatrix 384 超節點的價值,先上結論,CloudMatrix 384 超節點是在芯片制程、模型精度、HBM 帶寬等基礎條件均受限的情況下,在實際業務場景中擊敗了英偉達同等對标產品的創新,走出國内突破 AI 算力封鎖的跨越性一步。
譬如其中的高速互聯總線,能夠将 GPU、CPU 等各種不同的計算設備,都可以實現直接互聯,不需要經過 CPU 中轉通信,這是大參數模型仍然能取得高性能的前提。
少有人知道,CloudMatrix 384 超節點的誕生,背負着怎樣的壓力。在基礎算力不如英偉達的情況下,内部也有不少人持懷疑态度,技術是理性的,但創新需要一些感性思維。
昇騰和英偉達先天存在差異,英偉達的路線不能照搬,這是一條必須自己蹚出來的路。有 NVL72 在先,國内 AI 算力廠商自然會嘗試同等規模的算力集群,但是要不要做到 384 節點這麼大,這意味着更大的不确定性。
成本直線上升不說,而且結果預期并不明确,不是堆節點就能堆出來大算力集群,國内其他廠商如果處理不好網絡等一系列相關問題,更多的節點只會意味着更多的浪費,產品也沒有競争力。
彼時大模型的發展脈絡還不清晰,384 節點的大膽預研可能會造成浪費,錯失一些關鍵機會,華為雲承受着巨大的壓力,創新的同義詞就是風險,但是如果不做,跟在英偉達後面永遠不可能超過英偉達。
新技術的發展,總是有一些不約而同的 " 巧合 ",當 DeepSeek 的出現改變了大模型行業的走向,華為雲驚喜地發現,此前有些模糊的預判得到了證實,上層大模型驅動底層 AI 基礎設施朝着超節點的方向演進。
DeepSeek 的模型訓練采用 MoE 架構,MoE 模型通過門控網絡動态選擇激活的專家,如 DeepSeek-V3 每層包含 257 個專家,每次僅激活 8 個專家,這導致不同 GPU 節點間需要頻繁交換數據,在訓練過程中會因 All-to-All 通信導致 GPU 閒置等問題。
此外,MoE 模型裡專家可能 " 冷熱不均 ",有的專家被頻繁調用,有的閒置,同時傳統單機 8 卡架構無法滿足 MoE 模型對專家數量的擴展需求。
DeepSeek 開源大模型不僅是算法的勝利,其突出價值表現在從底層優化 AI 模型的可能性,起初 DeepSeek 在英偉達 H100 的基礎上做訓練,但是外部團隊很難復現 DeepSeek 模型的效果的效率,即便用同樣的 H100 也不行。
随後 DeepSeek 公布了一系列軟體倉庫,相當于把自己的調優過程做成了教程,但是行業發現,若采用單機部署方案,最終的性能遠不如 DeepSeek 官方公布的部署方案,且至少有數倍成本差距。更具挑戰的是,雖然 DeepSeek 公開了大 EP 并行方案,但技術難度較大,業内還沒有其他團隊快速復現這一部署方法。
回過頭看,DeepSeek 在 AI 基礎設施層面做大量的工程創新是無奈之舉,英偉達巴不得大模型訓練用更多的卡,DeepSeek 用更少的卡實現了更優的計算效果,一定程度上影響了英偉達 GPU 的銷量。
在 DeepSeek 之後,英偉達才優化了自己的 GPU,使其适合 MoE 架構的訓練,這更像是一種被動式的響應客戶需求。但是華為雲 CloudMatrix 384 超節點不同,在 DeepSeek 之前,華為雲其實并不完全确定 CloudMatrix 384 超節點是否能讓客戶願意買單。
市場會獎勵押中未來的創新者,華為雲目前是業界唯一采用對等架構超節點技術提供算力服務的雲廠商,數據顯示:CloudMatrix 384 超節點的算力提升幅度高達 50 倍,達 300Pflops,相比 NVL72 提升 67%;網絡帶寬提升了 1 倍;超節點的内存(HBM)帶寬則提升了 1.13 倍。
這不是 PPT 數據,而是實際業務場景中的效果。矽基流動聯合華為雲基于 CloudMatrix 384 超節點昇騰雲服務和高性能推理框架 SiliconLLM,用大規模專家并行最佳實踐正式上線 DeepSeek-R1。
該服務在保證單用戶 20TPS 水平前提下,單卡 Decode 吞吐突破 1920Tokens/s,可比肩 H100 部署性能。同時,經過主流測試集驗證及大規模線上盲測,在昇騰算力部署 DeepSeek-R1 的模型精度與 DeepSeek 官方保持一致。
以往對标英偉達同等產品的國内算力卡,在實際業務場景可能要打個五折,甚至低至兩折,基于華為對标 H100 的算力卡,華為雲實現了在單芯片性能略遜的情況下,通過一系列優化措施超過 H100 的業務效果。
華為雲是如何做到的?
坦誠而言,在 AI 算力層面,包括華為在内的國内算力,距離英偉達還有不小的差距,但是華為雲另辟蹊徑,在前方沒有路标的情況下,找到了一條突破英偉達封鎖的路線。
華為的解決方案是 " 用非摩爾定律的方法解決摩爾定律的問題 ",單個芯片算力不足,就用 Chiplet 來封裝,同樣的芯片數量依然不足達到 NVL72 的水平,那就上升一層做系統級創新,結合華為在聯接領網域的老本行,以及其他系統級優化能力,實現了比 NVL72 更高的集群算力利用率。
華為公司副總裁張修征也指出:" 應以空間換算力、帶寬換算力、能源換算力,應把算力、存力、運力、電力作為一個復合要素考慮,這一系統性思維在剛剛發布的 CloudMatrix 384 超節點上體現得尤為明顯。"
不同于業界此前的方案,CloudMatrix 384 超節點技術跳出單點技術限制走向系統性、工程性的創新,從 " 堆芯片 " 走向 " 拼架構 ",走出突破 AI 算力封鎖的跨越性一步,讓許多 AI 應用落地難題有了迎刃而解的契機。
張修征強調:" 伴随架構創新的突破,昇騰 AI 雲服務在推理效率、模型精度上已經持平于業界領先水平,在某些領網域如智駕等已經領先于業界,這或将徹底終結大家的算力焦慮。"
48 台 384 卡的緊耦合互聯,打造成一個超級雲伺服器,實現算力規模 50 倍提升,值得一提的是,英偉達用了 72 個 GPU,華為雲用了 384 個 NPU,在性能實現趕超的情況下,功耗只是小幅提升,而不是等比例提升。
但這也不得不帶來另一個煩惱,當大模型算力集群變得愈發復雜,數千根光纖的物理互動、高密的算力和網絡設備,液冷支撐體系等,一般企業難以維護 CloudMatrix 384 超節點這樣的基礎設施,華為雲也提前考慮到了難題,給出了解決方案。
傳統雲服務以單台伺服器為交付單元,超節點通過 " 雲的方式 " 來提供服務,對用戶來說性價比是遠遠大于自建數據中心。
一是超節點建設成本高,自建費時費力,芯片更新換代快,采用自建 IDC 方式,将會大大增加客戶的建設成本。
二是超節點運維難度高,因其架構復雜,涉及到的運維工具更多。支持大模型的智算中心故障率要遠高于普通數據中心,華為雲獨有的系統能力,可以幫助超節點長穩智能地運維,能更好地幫助客戶解決問題。
張平安表示,面向智能世界,華為雲致力于做好行業數字化的 " 雲底座 " 和 " 使能器 ",加速千行萬業智能化。依托 AI 全棧能力,華為雲将堅定打造 " 自主創新、安全可信 " 的 AI 算力底座,依托昇騰 AI 雲服務推動各行各業 AI 快速開發落地。
《孫子兵法 · 謀攻篇》寫道:故上兵伐謀,其次伐交,其次伐兵,其下攻城。攻城之法,為不得已。英偉達的存在讓很多人感到無力,懷疑中國算力產業能不能、需要多久才實現算力第二極的目标。
某種意義上 AI 產業之争就是信心之争,中國算力產業需要更多諸如 CloudMatrix 384 超節點之類的創新,烏雲依舊在,也可能長時間籠罩在頭頂,但至少我們看到了一道裂縫,信心比什麼都重要,這才是華為雲之于中國 AI 產業更重要的意義。(本文首發于钛媒體 APP)