今天小編分享的科技經驗:全力挑戰英偉達!微軟發布首款數據處理芯片,推動伺服器性能提升400%,歡迎閱讀。
(圖片來源:微軟官網)
北京時間 11 月 19 日晚 Microsoft Ignite 2024 大會上,美股科技巨頭微軟公司推出了一系列關于 Azure 雲計算和 AI 相關的服務和軟硬體產品。
其中,微軟推出了其首款用于内部業務的數據處理器 Azure Boost DPU。
作為微軟的首款内部 DPU 芯片,Azure Boost DPU 旨在高效、低功耗地運行 Azure 數據中心的工作負載,将傳統伺服器的多個組件整合到一塊芯片中,并将高速以太網和 PCIe 接口以及網絡和存儲引擎、數據加速器和安全功能集成到一個完全可編程的片上系統中。微軟預計,未來配備 DPU 的 Azure 伺服器,将以現有伺服器四倍(400%)的性能運行存儲工作負載,同時功耗降低三倍。
中科馭數創始人、CEO 鄢貴海對钛媒體 App 表示,這是 DPU 的應用方主動推動 DPU 進入規模化應用的标杆案例,對 DPU 後續更快速發展有利。DPU 就是為智算和未來的高性能計算的特點來 " 定制 " 的,而國内也在逐步完善自主 DPU、CPU、GPU 等計算基礎設施,需立足于與自主的計算平台的融合發展,共同進步,并且讓 " 可用性 " 與 " 先進性 " 并重發展。
13 億收購整合近兩年後,微軟推出首款 DPU 芯片
具體來說,DPU(Data Processing Unit)是面向以數據為中心的計算的新一代數據處理器,集完整的數據中心功能于單芯片,和 CPU 及 GPU 一起構成新型計算的三大支柱,用于處理某些數據處理任務,包括數據流量的安全性和網絡路由。旨在幫助減少與特定工作負載(包括 AI 工作負載)相關的核心計算任務對 CPU 和其他芯片的負載。
通俗地講,如果把一台計算機或伺服器比作一個團隊,CPU 相當于這個團隊的 " 大管家 ",負責思考并處理各種業務;GPU 是 " 美工 ",專攻影像處理;DPU 則相當于 " 前台 ",負責打包、拆包 " 數據包 ",提升整個團隊的工作效率。
英偉達首席執行官黃仁勳曾指出,CPU、GPU 和 DPU 将成為數據中心的基礎。在他的願景下,CPU 将負責一般處理,GPU 将為加速計算提供動力,而 DPU 将管理數據流。
過去幾年,英偉達、AMD、谷歌、亞馬遜等企業都在自研 DPU 芯片。
其中,英偉達于 2019 年開始提供其 BlueField 系列 DPU;AMD 自 2022 年以來一直在銷售其 Pensando DPU;亞馬遜 AWS 的 Nitro 卡提供類似 DPU 的功能;而谷歌則與英特爾合作開發可執行許多與 DPU 相同功能的芯片。
早在 2022 年 12 月底,微軟收購了前蘋果和瞻博網絡工程師創立的公司 DPU 制造商 Fungible,總交易額約 .9 億美元(約合人民币 13.76 億元)。收購後,Fungible 團隊加入了微軟的基礎設施工程部門,因此,Azure Boost DPU 可能起源于該團隊。
分析師 Dylan Patel 曾表示,在交易之前,Fungible 曾嘗試融資,但未能成功,并試圖将自己出售給 Meta Platforms," 微軟考慮與 Fungible 合作設計芯片,但最終決定低價收購這家公司、員工和知識產權。"
因此這意味着,微軟 Azure Boost DPU 直接對标英偉達 DPU,并且加上微軟定制 CPU 等,這将減少微軟對英偉達 AI 伺服器芯片 H100/A100 的依賴。
"Azure Boost DPU 專為 Azure 上的橫向擴展、可組合工作負載而設計,可為其雲基礎設施提供跨存儲、網絡、加速等方面的效率。" 微軟表示。但微軟沒有透露更多的基礎測試信息,也沒有提到 Azure 客戶何時可以看到這些收益。
此外,微軟這次還宣布推出 Azure 内部雲安全芯片 HSM,Azure 容器應用無伺服器 GPU 公開預覽版,和面向 HPC 客戶及其應用程式的最新基于 CPU 的虛拟機 Azure HBv5 等。
Azure 集成硬體安全模塊 ( HSM ) 是一款全新的内部雲安全芯片,它允許将籤名密鑰(基本上是數字加密籤名)和加密密鑰(用于加密數據的位串)包含在安全模塊中,而不會影響性能或增加延遲。微軟表示:" 從明年開始,Azure Integrated HSM 将安裝在微軟數據中心的每台新伺服器上,以增強 Azure 硬體集群對機密和通用工作負載的保護。"Azure Integrated HSM 是微軟繼 Pluton 之後推出的第二款安全芯片,Pluton 是一款内置于英特爾、AMD 和高通處理器中的面向消費者的芯片。這也是該公司對其雲競争對手專有解決方案的回應:AWS 的 Nitro 處理某些安全任務,而谷歌在谷歌雲伺服器中内置了一個名為 Titan 的安全芯片。
無伺服器 GPU 由 NVIDIA A100 GPU 和 NVIDIA T4 GPU 逆行加速,可輕松擴展并靈活地執行實時自定義模型推理和其他機器學習任務;
HPC 虛拟機 Azure HBv5,針對計算流體動力學、汽車和航空航天模拟、天氣建模、能源研究、分子動力學、計算機輔助工程等領網域進行優化,有四個處理器共同工作,提供近 7 TB/s 的内存帶寬,與最新的裸機和雲替代方案相比,這高出 8 倍,比 Azure HBv3 和 Azure HBv2(第三代 EPYC 和第二代 EPYC Rome)高出近 20 倍,比接近硬體生命周期末期的 4-5 年 HPC 伺服器高出 35 倍。
微軟表示,Azure Boost DPU 是其通過硬體創新增強基礎設施系列的最新成員。" 随着我們不斷突破可能的界限,我們仍致力于提供創新,使我們的基礎設施更強大、更高效、更具可擴展性,以滿足客戶不斷變化的需求。"
市場規模将近 400 億,AI 正加速全球半導體市場
事實上,DPU 帶來的效率提升對超大規模企業來說頗具吸引力,這些企業受 AI 需求的推動,正在建設越來越大、耗電量越來越大的數據中心。微軟在 2022 年表示,由于其能耗不斷增長,其數據中心能源成本将增加 8 億美元。
據 Allied Analytics 稱,到 2031 年,DPU 芯片的市場價值可能達到 55 億美元(約合人民币 398.26 億元),接近 400 億規模。
值得注意的是,國内也有很多初創公司在做 DPU 芯片產品,比如,中科馭數、雲脈芯聯、星雲智聯、雲豹智能等。此外,阿裡、百度、騰訊也在近幾年針對自身伺服器進行自研與外購 DPU,針對的主要功能在于數據,存儲與安全方面。
如今,AI 大模型使得算力需求的迅猛增長,而基于傳統 IT 架構建構的軟硬體體系結構愈發無法滿足數據中心對大規模、高帶寬和低延遲的訴求,而全新的 DPU 技術,将引領數據中心從依賴單核、單機算力的架構向分布式集群計算的架構演進。
鄢貴海表示,大模型數據中心與傳統數據中心最大的區别之一就是互連網絡的帶寬延遲要求都更高、以及相對扁平的拓撲結構。DPU 正好是應對高帶寬低延遲,支持各種突發網絡流量分發、大流量聚合的引擎,可以讓數據在各個計算節點間更高效的流動,而無需 CPU 的操作和幹擾。
" 降低對單一供應商的依賴是商業上的一個慣常思維吧, 對于供應鏈可靠性和成本都有好處,無可厚非。但是 DPU 還是屬于技術門檻比較高、周期比較長的產品,所以,英偉達、微軟等科技巨頭還是有一些天然的優勢的。國内也在逐步完善自主 CPU、GPU 等計算基礎設施。" 鄢貴海認為,國内的 DPU 的研發還是要立足于與自主的計算平台的融合發展,共同進步;同時也要吸收國際一線廠商在一些新的體系架構和應用支撐上的成功案例,把 " 可用性 " 與 " 先進性 " 并重發展。
IDG 資本合夥人李骁軍曾表示,作為與 CPU、GPU 并列的大芯片,DPU 推動着數據中心基礎架構的革新,深耕 DPU 領網域,不僅需要充分理解大規模雲廠商的業務需求、定義架構特性,同時還要具備大芯片的工程實現能力。
" 重大平台轉變即将到來 ",微軟 CEO 薩蒂亞 · 納德拉 ( Satya Nadella ) 在會上表示,Copilot 是 AI 的用戶界面,它正在迅速成為工作的組織層,并決定工作如何完成。Copilot AI 平台将改變各個級别的人們有效和高效的工作方式,AI Agent 将是重點。
展望 AI 的未來,納德拉指出,"AI 的問題在于計算機根本不在乎,而我們卻在乎。在這一切快速變化中,我們始終堅守我們的使命,那就是讓地球上的每個人、每個組織都能取得更大的成就,利用這項技術為團隊和世界帶來改變。技術不是為了技術而技術,而是要将技術轉化為真正的成果,技術的變革力量可以推動業務增長,提高效率和運營平衡(杠杆)。"
納德拉強調,AI 技術技能将改變人們的生活,事實上,它已經改變了。
(本文首發于钛媒體 App,作者|林志佳,編輯|胡潤峰)