英特爾AI芯片中國定制版發布！打的就是英偉達A100

今天小編分享的科學經驗：英特爾AI芯片中國定制版發布！打的就是英偉達A100，歡迎閱讀。

AIGC 時代，誰說煉大模型就一定得用 GPU？

英特至強 CPU，運行擴散模型 Stable Diffusion 只需 5 秒就能出圖。

而在這兩天，專門搭載在該 CPU 上使用的 AI 加速器更是新鮮出爐。

它叫Gaudi2，面向中國市場發布，用于加速 AI 訓練及推理，有了它，大規模部署 AI 便多了一種新選擇。

性能上，它在 MLPerf 最新報告中的多種訓練和推理基準測試中都直接超越了英偉達 A100，并提供了約 2 倍的性價比。

至于 H100，它雖然還不能敵過，但若拉上成本，則也能 " 扳回一局 "。

這款主打超強性價比的 AI 加速器，究竟什麼來頭？

Gaudi2 深度學習加速器暨 Gaudi2 夾層卡 HL-225B，以第一代 Gaudi 高性能架構為基礎，加速高性能大語言模型運行。

（ps. Gaudi1 代處理器誕生于 2019 年，其背後公司來自以色列，當年年底被英特爾以 20 億美元收購，如今成為英特爾 " 叫板 " 英偉達的重要底氣。）

Gaudi2 采用7nm制程工藝，具備 24 個可編程 Tensor 處理器核心（TPCs），支持面向 AI 的各類高級數據類型：FP8、BF16、FP16、TF32 和 FP32。

它配備 21 個 100 Gbps（RoCEv2）以太網接口，可通過直接路由實現 Gaudi 處理器間通信（相比原版少了 3 個，但英特爾公司執行副總裁 Sandra Rivera 介紹，這對整體性能影響基本不大）。

同時，它還能做到 2.4TB/ 秒的總内存帶寬，先進的 HBM 控制器則針對随機訪問和線性訪問進行了優化，在各種訪問模式下都可以提供這一保證。

此外，48MB 片上 SRAM 和集成多媒體處理引擎亦是标配。

就在上個月公布的 MLCommons ® MLPerf ® 基準測試中，Gaudi2 在 1750 億參數的 GPT-3 模型訓練上表現出色，使用 384 個加速器上耗時 311 分鍾就完成了訓練。

雖然相比之下，英偉達只需 61 分鍾便可，但這樣的成績需要 512 個 H100 ——由于 Gaudi2 的成本要遠低于 H100，所以要論性價比，Sandra Rivera 表示，Gaudi2 是更具誘惑力的選擇。

與此同時，Gaudi2 在基于 8 個和 64 個加速器助力的 BERT、8 個加速器助力的 ResNet-50 和 Unet3D 訓練結果上，全部優于 A100。

此外，Gaudi2 也可為大規模的多模态和語言模型提供出色的推理性能。

在最近的 Hugging Face 評估中，其在大規模推理方面的表現，包括在運行 Stable Diffusion、70 億以及 1760 億參數 BLOOMZ 模型時，在行業内均保持領先。

能耗方面，訓練計算機視覺模型時，Gaudi2 的每瓦性能是 A100 的 2 倍，推理 176B 參數的 BLOOMZ 時，功耗則可降低 40%。

——不僅性能和功耗強大，英特爾還提供了配套的成熟軟體支持：SynapseAI。

它可以方便開發者輕松構建模型，或将當前基于 GPU 的模型業務和系統遷移到基于全新 Gaudi2 伺服器。

同時，SynapseAI 集成了對 TensorFlow 和 PyTorch 框架的支持，提供眾多流行的計算機視覺和自然語言參考模型，可以滿足深度學習開發者的多樣化需求。

另外，說到 Gaudi2 伺服器，現在，英特爾已與浪潮信息合作，打造并發售基于 Gaudi2 深度學習加速器的浪潮信息 AI 伺服器 NF5698G7。

該伺服器集成了 8 顆 Gaudi2 加速卡 HL-225B，還包含雙路第四代英特爾至強可擴展處理器，進一步幫助大家高效部署大模型。

最後，值得一提的是，在發布會後的交流環節中，當被問及英特爾是否有一個預期，能占領多少 AI 加速芯片的市場時，Sandra Rivera 表示：

國内 AI 產品需求非常大，產品完全不夠用。因此市場就在那裡，在這種情況下我們不用特别設什麼份額的目标，就把最好的產品帶出來，滿足市場需求，幫助大家創新，這就是我們想要做的事情。

而據量子位現場獲悉，明年，能夠進一步縮小差距甚至超越英偉達 H100 的 Gaudi3 就将問世。

與此同時，2025 年之時，英特爾還将整合既有的 GPU Max 產品線和 Gaudi 系列，取兩者之長，推出更加完整的下一代 GPU 產品。

而在這之中，英特爾将對大家最為關心的可持續軟體生态做大筆投入。

（咳咳，好戲才剛剛開始～）