今天小編分享的科技經驗:“雙英”開戰中國AGI市場,歡迎閲讀。
ChatGPT 的橫空出世,不但為行業指明了可行的 AI 技術落地方向,也掀起新一輪 AI 硬體技術比拼。但 AGI 和 LLM 通過 ChatGPT 帶動至今,尚無能和英偉達 GPU 正面對決的 AI 產品。
就像當年漢武帝那句 " 寇能往,我亦能往 " 名言,前有 AMD,後有英特爾,都用實際行動亮明了 " 英偉達能做,我亦能做 " 的态度。
7 月 11 日,英特爾以中國市場為目标,推出高端 AI 處理器 Habana Gaudi 2,支持加速 AI 訓練和推理任務。特别之處在于,這是一顆搭載在英特爾至強 CPU 之上的 AI 加速器。也就是説,這并不是 GPU。
Gaudi 2,給予了市場在 GPU 之外的新選擇。英特爾能否憑此,成功将英偉達拉下馬?
第二種選擇有哪些優點
Gaudi 2,在 2022 年 5 月已在海外發布。這次發布了中國定制版,就像英偉達為中國市場推出專門的合規版 "A800" 和 "H800"。
Gaudi 2 由 Habana Labs 研發,這家公司成立于 2016 年,總部在以色列,是一家為數據中心提供可編程深度學習加速器的 AI 芯片創業公司。2019 年,Habana Labs 推出首代 Gaudi;當年 12 月,為其早期投資人英特爾以 20 億美元的代價收購。
目前,Habana Labs 共推出兩個系列的 AI 產品。其中,用于 AI 訓練的為 Gaudi(高迪)系列,而用于 AI 推理的則為 Goya(戈雅)系列。
此次英特爾為中國市場推出的是定制版 Gaudi 2,這也是 Habana Labs 設計的第二代 AI 硬體加速器。單個伺服器包含 8 個加速器設備(HPU:Habana Processing Units),每個設備包含 96GB 内存;顯存容量為 96GB HBM2E,顯存帶寬高達 2.4TB/s。
英特爾執行副總裁、數據中心與人工智能事業部總經理 Sandra Rivera 沒有詳細介紹 Gaudi 2 的參數,但 " 性價比 " 得以被重點強調;同時,英特爾 Labs 首席運營官 Eitan Medina 還強調了 Gaudi 2 相對于國際版在百兆端口數量上雖有所減少,但 " 從客户使用情況來看,預計影響會非常小 "。
目前,就已知的信息看,浪潮信息已采用 Gaudi 2,已有支持 8 顆 Gaudi 2 深度學習加速器的新一代 AI 伺服器 NF5698G7 落地。另據英特爾稱,紫光新華三、超聚變和百度智能雲也會成為 Gaudi 2 用户。
簡單説,Gaudi 2 深度學習加速器以首代 Gaudi 高性能架構為基礎,采用台積電 7nm 工藝,專為訓練大語言模型構建。
以 MLCommons MLPerf 基準測試(主流 AI 性能測試基準)看,Gaudi 2 整體性能高于英偉達 A100,但弱于英偉達 H100。運行 ResNet-50 的每瓦性能約是英偉達 A100 的 2 倍,運行 1760 億參數的 BLOOMZ 模型時,其每瓦性能約為 A100 的 1.6 倍。
MLPerf 每年做兩次測評。在今年 6 月的測評中,除了英偉達 H100,Gaudi 2 是唯一一套向 GPT-3 大模型訓練基準提交性能結果的解決方案。
除了适配 GPT 大模型(基于 Transformer 架構),在最近的 Hugging Face 評估中,Gaudi 2 在大規模推理方面的表現,包括運行 Stable Diffusion(高通端側模型)、70 億及 1760 億參數 BLOOMz 模型時,均有優異推理表現。
比如,與英偉達 A100 相比,在做 Stable Diffusion 模型推理時,Gaudi 2 加速器時延降低 2.21 倍。
可以説,Gaudi 2 雖然不能取代英偉達 H100,但英特爾為 LLM 推理和訓練提供了一個除 GPU 之外的 "CPU(至強)+ 加速器(Gaudi 2)" 的新方案。
原來,做 AGI 或 LLM 訓練和推理,并不限于用 GPU,也可以用 CPU 和 AI 加速器配合訓練。
Rivera 認為,實際上用户存在不同的產品需求:比如中小型模型用户,可選英特爾第四代至強(CPU)處理器(英特爾 AMX:高級矩陣擴展)作推理;若要做千億級新模型訓練,想要高等級算力,那麼也可采用 Gaudi。
在需要大規模業務部署時,Gaudi 2 能通過集群橫向擴展獲得更線性的性能增長。
從 MLCommons 新公布的 MLPerf 訓練 3.0 結果可以發現,Gaudi 2 在運行 1750 億參數的 GPT-3 模型時,當加速器數量從 256 個增加到 384 個時,能實現接近線性的 95% 的性能擴展效果。
英特爾可擴展至強是向 MLPerf 3.0 提交的眾多解決方案中,唯一的基于 CPU 通用處理器版本;支持 " 開箱即用 ",也就是説,可以在通用系統上部署 AI,以此提高易用性和降低成本。
看着美:豐滿和骨感之間
既然強調性價比,那麼 Gaudi 2 的目标,必然不會是頂尖的旗艦定位,而更注重 " 跑量 "。這就相當于智能手機的 " 中高端 " 類型,側重的是搶占盡可能多的市場份額。
這種 " 從中端入手 " 的市場策略,已成為近年來英特爾的主要努力方向。
在這場生成式 AI 戰役中,英特爾結合了原本自身的 CPU 技術優勢,結合 AI 加速芯片,以第四代至強可擴展 CPU 芯片(英特爾 AMX:Advanced Matrix Extensions)疊加 Gaudi 2,在中端市場與英偉達展開角逐。
其中,英特爾 AMX 的 CPU AI 推理性能不容忽略;而 AMX 在 CPU AI 推理和訓練方面的能力,更成為英特爾結合其傳統技術優勢、推進強力競争策略的底氣。
在 AI 推理工作負載中,AMX 的推理性能與英偉達 A100 GPU 相比超越 5 倍,與 AMD 的 64 核 EPYC CPU 相比可超 2 倍;在執行訓練工作時,AMX 的性能較英偉達 A100 GPU 有近 3 倍的性能提升,能在數秒或數分鍾内完成訓練,同時還能大幅降低用户成本。
英特爾公開展示了至強 Max 芯片運行 Stable Diffusion 模型的生成效果。Stable Diffusion 模型能以文生圖和以圖生圖,結果顯示,基于 AMX 芯片運行,該模型僅用 5.34 秒,就生成了一張影像。
英特爾采用的以 "CPU+AI 加速器 " 的產品組合為基礎的 AI 解決方案,用英特爾自己的話説,即 " 為在封閉生态系統中,尋求擺脱當前效率與規模限制的客户,提供極具競争力的選擇 "。
在這個組合中,英特爾用兼具性能和每瓦能耗優勢的 Gaudi 2,做了用户細分需求的場景劃分,并強調了目前超越英偉達 A100 GPU、未來超越英偉達 H100 GPU 的性能、降低獲取 GPU 的時間成本、能耗等方面的高性價比标籤——什麼是性價比——性價比的核心标籤就是 " 省錢 ",以此在中高端市場侵蝕英偉達的市場份額。
易用性和與原有系統的絲滑過渡也是英特爾 AI 市場策略的一部分。
" 開箱即用 " 體現了易用性,Gaudi 2 的 SynapseAI 軟體套件集成了 PyTorch 和 TensorFlow 兩種常見深度學習框架,還包括 Megatron 和 DeepSpeed 等主流 LLM 訓練框架,這意味着開發者能做快速在不同硬體平台上做代碼遷移。
遷移速度有多快?10 分鍾,還包括閲讀文檔的時間。
從推出專門的中國版 Gaudi 2、采用 Gaudi 2 和兩顆 AMX 芯片的浪潮新一代 AI 伺服器 NF5698G7 落地速度看,英特爾尤為重視中國市場。
英特爾的中國用户也表達了對英特爾 AI 產品的認可。浪潮信息高級副總裁、AI&HPC 產品線總經理劉軍宣稱,他們的算法工程師在實際體驗中國版 Gaudi 2 後認為,其使用體驗 " 與 GPU 基本沒太大區别 "。
沒有太大區别,不等于毫無區别。
華爾街見聞注意到,英特爾此次推出的中國版 Gaudi 2(也包括國際版在内),相對于英偉達 A100 的性能優勢,集中在基于 Residual(殘差)結構的 ResNet(殘差網絡)模型,而非 GPT 通用的 Transformer 架構的 AGI 模型,兩者存在較大區别。
因此中國版 Gaudi 2 市場接受度究竟如何,在豐滿和骨感之間,天平會側重哪一端,仍需要時間做出回答。