今天小編分享的科技經驗:AI時代,伺服器廠商能否打破薄利的命運?,歡迎閲讀。
文 | 光錐智能,作者|劉俊宏,編輯|王一粟
AI 大模型正在引發新一輪的 " 算力焦渴 "。
近日,OpenAI 剛發布的 o1 大模型再次刷新了大模型能力的上限。對比上一次迭代的版本,o1 的推理能力全方位 " 吊打 " 了 GPT-4o。更優秀的能力,來自與 o1 将思維鏈引入進了推理過程。在 o1 對問題 " 一邊拆解一邊回答 " 的過程中," 環環相扣 " 的思維鏈讓答案也變得更加 " 靠譜 "。
思考模式的更新,也意味着更大的算力需求。由于模型原理是在 LLM 訓練額外添加了 RL(強化學習)的 Post-Training(後訓練),這意味着一次推理和訓練所需的算力将再次增加。
"AI 研究中遇到的最大困難就是缺少算力—— AI 本質就是暴力計算。" 華為副董事長、輪值董事長徐直軍此前總結道。
于是,近幾年科技大廠對 AI 基礎設不斷加大投入,除了英偉達股價不斷升高,賣 "AI 鏟子 " 的 AI 伺服器廠商們也在本季度迎來了翻倍的業績增長。
并且,随着 AI 算力下一步的需求增長和基礎設施下放,伺服器廠商們有望憑借 AI 賺得越來越多。
廠商們業績的 " 高歌猛進 ",是伺服器與 AI 深度結合的結果。
其中在 AI 訓練環節,伺服器大廠們紛紛采用不同方式加速整個 AI 訓練過程,讓異構計算的 AI 伺服器,成為一台高效的 AI 訓練任務 " 分發機 "。另一邊,在解決算力硬體緊缺的問題中,AI 伺服器廠商也結合大型伺服器集群的運營經驗,落地了各種讓英偉達、AMD、華為昇騰、Intel 等廠商 GPU 混訓大模型的平台。
伴随着對 AI 從訓練到硬體優化的深入理解,越來越了解 AI 的伺服器廠商也在從原本賣硬體組裝的身份,提升着在 AI 產業鏈的價值。
其中,聚焦到智算中心建設層面,不少伺服器廠商已經根據 AI 需求調整了 AI 伺服器集群的硬體基礎設施。并且,随着對國產算力芯片的深度結合,基于 AI 伺服器廠商自己定制的解決方案正在廣泛落地。
另一邊在軟體層面,更懂 AI 的伺服器廠商也在開始挖掘 AI 在基礎設施中的生產力屬性。伴随着伺服器廠商推出的 AI 大模型、Agent,伺服器廠商與 AI 應用客户業務的結合也愈發緊密,從而進一步獲得更多軟體層面的解決方案收入。
毫無疑問,AI 時代的變革也改變了整個算力載體的行業邏輯。
AI 伺服器廠商們正在以各種方式為用户帶來更密集、更高效的算力供應。在當下的 " 算力焦渴 " 時代,AI 伺服器廠商正在成為愈發重要的 " 賣水人 "。
AI 行業," 賣鏟子 " 的先賺錢了
AI 大廠們的加速投入,讓 " 賣鏟子 " 的 AI 伺服器廠商開始賺錢了。
根據 IT 桔子數據顯示,截止到 9 月 1 日,AI 相關上市公司整體還是虧損居多。其中,15 家盈利的 AI 上市公司累計淨利潤為 27.8 億元,虧損的 19 家累計淨額為 62.4 億元。
AI 尚不能讓行業實現整體盈利,一個原因是 AI 巨頭們仍處于加速投入階段。
據統計,今年上半年,國内三家 AI 巨頭(BAT)在 AI 基礎設施上的資本支出總額高達 500 億元人民币,比去年同期的 230 億元人民币,增長了一倍多。全球範圍,随着亞馬遜在上季度增長了 18% 的固定資本開支,再次進入了資本擴張周期。微軟、亞馬遜、谷歌、Meta 等美股 "Mag7" 們,也達成了繼續加碼 AI 的共識。
" 對 AI 投資不足的風險,遠超投資過度風險。"谷歌母公司 Alphabet 首席執行官 Sundar Pichai 顯然非常激進,并不認為目前是投資泡沫。
而借着加大投入的風口,提供 AI 基礎設施的 AI 伺服器玩家們 " 大賺特賺 "。
其中,全球老牌伺服器廠商惠普和戴爾在 AI 時代迎來了 " 第二春 "。根據惠普最新披露的業績(2024 三季度)顯示,其伺服器業務同比增長 35.1%。戴爾上季度财報顯示(對應 2024 年 5 月— 2024 年 7 月),其伺服器和網絡業務營收同比增長 80%。
同樣在國内廠商中,聯想在最新一季财報中提到,受 AI 需求增長,其基礎設施方案業務集團季度收入首次突破 30 億美元,同比增長 65%。浪潮的中報數據顯示,公司實現歸屬于上市公司股東的淨利潤為 5.97 億元,較去年同期增長 90.56%。神州數碼這邊,其歸屬于上市公司股東的淨利潤為 5.1 億元,同比增長 17.5%,旗下神州鲲泰 AI 伺服器實現收入 5.6 億元,同比增長 273.3%。
業績超過 50% 以上的增長,是 AI 伺服器大規模落地的結果。
除了雲廠商,運營商是 AI 伺服器的主要需求方。自 2023 年開始,運營商們加大了對 AI 算力的布局。其中,電信和移動對 AI 伺服器的需求增長了一倍以上。
同時,基于智算中心的需求也在快速推動 AI 伺服器落地。根據 Intel 旗下 AI 芯片公司 Habana 中國區負責人于明揚在 2024 全球 AI 芯片峰會上的分享,近三年來大約有 50 多個政府主導的智算中心陸續建成,目前還有 60 多個智算中心項目正在規劃和建設。
旺盛的 AI 伺服器需求,改寫了整個伺服器行業的增長結構。
根據 TrendForce 集邦咨詢近期發布的一份報告顯示,在今年大型 CSPs(雲端服務供應商)對 AI 伺服器的采購下,以產值估算,預計 2024 年 AI 伺服器產值将達 1870 億美元,成長率達 69%。作為對比,一般伺服器的預計年出貨量增長僅為 1.9%。
未來,随着 CSP 逐步完成智算中心的建設,AI 伺服器還将會随着更廣泛的邊緣計算需求,進一步加速增長。AI 伺服器的銷售環節,也将随着 CSP 大批量集中采購切換至企業邊緣計算的小批量購買。
換句話説,AI 伺服器廠商的議價權和盈利能力,将随着采購模式的變化進一步提升。
伺服器廠商接下來還會靠 AI 賺的越來越多。如此趨勢,跟 AI 伺服器客户漫長的回本周期拉開了巨大差距。
以算力租賃的商業模式作為參考,行業内早就合計出了一筆賬。算上智算中心配套的設備(存儲、網絡),在不考慮算力價格每年下降的前提下,采用英偉達 H100 作為算力卡的投資回報周期長達 5 年,采用性價比最高的英偉達 4090 顯卡,回報周期也在兩年以上。
如此一來,如何幫客户用好 AI 伺服器,成了整個伺服器行業最核心的競争方向。
加速、穩定,AI 伺服器廠商各顯神通
" 大模型落地過程復雜,涉及分布式并行計算、算力調度、存儲分配、大規模組網等多種先進技術和流程支持。" 對于 AI 伺服器落地應用中需要解決的問題,新華三集團智慧計算產品線高級產品經理馮良磊曾總結道。
上述難題,對應着 AI 伺服器落地的兩大類問題——算力優化和大規模使用。
一位銷售人員對光錐智能也介紹到," 常見的客户需求,其一是硬體指标,第二是 AI 訓練的支持能力,最後還有大規模集群的能力。"
其中,算力優化部分主要對應着 AI 伺服器的異構計算問題。目前,行業提供的解決方案主要分為優化算力分配和異構芯片協作的兩個大方向。
由于 AI 伺服器的運作模式不再是 CPU 獨立處理任務,而是 CPU 與算力硬體(GPU、NPU、TPU 等)的協作。當前行業的主流解決模型,是用 CPU 把計算任務拆解到專用算力硬體。
這種算力分配模式,與英偉達 CUDA 的基本原理相同。CPU 同時 " 帶動 " 的算力硬體越多,整體算力就越大。
異構計算算力分配原理
對應到伺服器硬體層面的改變,是 AI 伺服器成了可以堆疊算力硬體的 " 積木 "。AI 伺服器的體積開始 " 加大加粗 ",從通用伺服器的 1U(伺服器高度基本部門)更新至目前常見的 4U、7U。
針對算力進一步優化,不少伺服器廠商提出了自己的方案。例如新華三的傲飛算力平台支持對算力和顯存按 1% 和 MB 的細粒度切分,并按需調度。聯想的萬全異構智算平台則是以知識庫的形式,自動識别 AI 場景、算法和算力集群。客户只需輸入場景和數據,即可自動加載最優算法,并調度最佳集群配置。
在另一邊的異構芯片協作上,主要解決的是不同算力硬體伺服器之間的協同問題。
由于英偉達 GPU 長時間将處于供不應求的狀态,不少智算中心會選擇将搭載了英偉達、AMD、華為昇騰、Intel 等廠商 GPU 混用,或多種 GPU 混訓一個 AI 大模型。如此一來,整個 AI 訓練環節就會出現通信效率、互聯互通、協同調度等一系列問題。
AI 伺服器搭載不同廠商 AI 芯片占比 來源:TrendForce
" 伺服器集群訓練 AI 的過程,可以簡單理解成‘一輪一輪’的進行。一個任務先被拆解到所有算力硬體,結果匯總後再更新至下一輪計算。如果過程配合不好,比如有的 GPU 算的慢,或者通信不暢,相當于其他算力硬體要‘一起等’。輪數多了,整個 AI 訓練時長就被極大拖延。" 對于異構算力硬體協作解決的實際問題,一位技術人員對光錐智能舉了一個形象的例子來解釋。
目前,解決該問題的主流方案是利用雲管系統(包括調度、PaaS 和 MaaS 平台)對整個 AI 訓練(和神經網絡)進行精細拆分。
例如,新華三的方案是建設一套異構資源管理平台,通過開發統一的集合通信庫實現對不同廠商 GPU 的納管,從而屏蔽不同廠商之間的差異。百度百舸異構計算平台的多芯混合訓練方案,是将各類芯片融合成一個大集群,再支持整個訓練任務。
大同小異的解決方案,其目标正如無問芯穹聯合創始人兼 CEO 夏立雪總結," 打開水龍頭前,我們不需要知道水是從哪條河裏來的。"
異構計算問題解決後,意味着智算集群可選擇的硬體種類得以徹底解放。伺服器、算力芯片、AI Infra 等廠商之間的配合,也有了協同效應,共同維護着 AI 伺服器組建大規模算力集群的穩定性。
參考 Meta 公司使用算力集群的經驗,AI 大模型訓練并非 " 一帆風順 "。據統計,Meta 16K H100 集群的同步訓練中,曾在 54 天内出現了 466 次作業異常。如何讓伺服器集群在出現問題後快速回到運行狀态,主流的解決方案是在訓練過程中加一道 " 防火牆 "。
例如,聯想的解決方案是 " 用魔法打敗魔法 "。通過使用 AI 模型預測 AI 訓練故障的方式,聯想的解決方案能在斷點前優化備份。超聚變和華為昇騰則采用了簡單直接的對策。當檢測到節點故障時,自動隔離故障節點後,從最近的 Checkpoint 點恢復訓練。
整體來看,AI 伺服器廠商在了解 AI,實現算力優化和穩定性更新的過程中,提升自己的附加值。
借助 AI 對行業的改造,AI 伺服器的玩家們正在以垂直一體化的姿态,讓伺服器這個經典 ToB 行業煥發出新的價值。
AI 讓伺服器廠商更有價值?
復盤歷史,伺服器廠商們一直被 " 困在 " 微笑曲線的中間地帶。
第三次工業革命之後,随着伺服器市場空間越來越大,一批又一批的伺服器廠商誕生。
在 PC 時代,Wintel 聯盟的 X86 架構,催生了戴爾和惠普兩家國際伺服器巨頭。在雲計算時代,大量的數字化需求催生了浪潮、工業富聯等一系列 OEM 廠商。
然而,就在伺服器廠商在每年幾百、幾千億營收的華袍下,淨利潤率卻常年為個位數。在浪潮開創的 JDM(聯合設計制造)模式下,極致的生產制造帶來的是淨利率僅為 1-2 個點。
" 微笑曲線形成的原因,并不是因為制造環節本身的問題。是不能掌握產業鏈核心技術和專利,只能标準化生產,無法具備不可替代性的結果。" 對于伺服器廠商的困境,一位國泰君安電子分析師對光錐智能如此解釋道。
在 AI 時代,伺服器廠商的價值正在随着 AI 重新定義算力應用而改變。對 AI 的垂直整合能力,成了當下伺服器廠商角逐的中心。
聚焦到硬體層面,不少伺服器廠商已經深入到了智算中心的建設環節。
例如針對 PUE(電源使用效率),新華三、浪潮、超聚變、聯想等廠商紛紛推出了液冷整機櫃的解決方案。其中,新華三除了推出了硅光交換機(CPO)來降低整個機房的能耗外,還對整個網絡產品線都進行了 AI 優化。另一邊,在突破英偉達算力芯片限制層面,神州數碼、聯想等廠商在積極推進國產算力芯片的落地,共同實現中國芯片產業彎道超車。
在軟體層面,伺服器廠商還在積極挖掘 AI 的生產力屬性,讓業務不局限于賣硬體。
最常見的,是伺服器廠商推出的 AI 賦能平台。其中,神州數碼在神州問學平台上就整合了模型算力管理、企業私網域知識和 AI 應用工程模塊。神州數碼通過原生 AI 平台的方式,将 Agent 能力融入到伺服器的使用環節,讓用户的使用過程 " 越用越好用 "。
神州數碼副總裁李剛對此評價稱," 我們需要有這樣一個平台,用于内嵌企業被環境驗證過的 Agent 知識框架,同時還可以不斷地去積澱新的 Agent 框架,這個就是神州問學 AI 應用工程平台的價值所在。"
新華三則是充分結合網絡產品已有的優勢,利用 AIGC 實現了通信領網域的異常檢測、趨勢預測、故障診斷和智能調優。除了運維環節,新華三還發布了百業靈犀 AI 大模型,試圖用通用大模型 " 帶動 " 行業大模型的方式,進入到不同行業客户的業務環節,進而擴張原本 ToB 硬體的業務範圍。
" 通過不斷的科技創新和持續的產品打磨,尋求 AI 潮流中的新突破,釋放 AI 基礎設施的新動能。"
正如聯想集團副總裁、中國基礎設施業務群總經理陳振寬總結,伺服器廠商正是在不斷加深 AI 垂直一體化的進程中,收獲了如今利潤率大漲的成果。
跳出制造的伺服器廠商們,正在迎來屬于自己的 AI 大時代。