今天小編分享的科技經驗:Arm 發布 Neoverse 新品:數據分析性能提升 196%,奠定未來計算及 AI 的基石,歡迎閲讀。
讓人工智能變得無處不在。
北京時間 2 月 22 日,半導體巨頭 Arm 更新了 Arm ® Neoverse ™ 產品路線圖,宣布推出兩款基于全新第三代 Neoverse IP 構建的全新計算子系統(CSS):Arm Neoverse CSS V3 和 Arm Neoverse CSS N3。
Arm Neoverse CSS V3 是首款高性能 V 系列 CSS 產品,與前代產品 CSS N2 相比,單芯片性能提升可達 50%。
Arm Neoverse CSS N3 是 N 系列 CSS 產品的最新拓展,相較于 CSS N2,其每瓦性能提升了 20%。
Arm 高級副總裁兼基礎設施事業部總經理 Mohamed Awad 指出:"Arm 構建了全球應用最為普及的 CPU 架構,在多個領網域的技術革新中發揮主導作用,尤其在智能手機產業中占據核心地位。随着 AI 滲透到教育、就業、制造、醫療和交通等領網域,AI 正在改變經濟發展和我們的日常生活,而 Arm 是這一切變革的基石。"
Arm ® Neoverse ™ 這條產品線是 Arm 專為基礎設施應用市場設計,進入 AI 時代之後,其應用範圍從最初的應用伺服器和數據中心拓展到了網絡、安全和存儲等諸多領網域,在整個基礎設施領網域發揮着關鍵作用。
在如今 OpenAI 強勢領銜,NVIDIA 叱咤風雲的這段 AI 加速增長期,我們可以通過解讀此次產品路線圖的更新,一覽 Arm 這位 " 老大哥 " 對計算技術界的未來布局。
01 從根本改變基礎設施
在過去,軟體和硬體分别由不同的公司負責開發,但如今這種傳統模式已無法滿足客户對性能的高要求以及應對日趨復雜的軟硬體環境。很多企業期望其部署的硬體,包括微架構層面,能針對軟體負載進行深度優化。然而,實現這樣的深度融合與聯合優化需要多方協作,在軟硬體研發上耗費大量的時間。
這不僅很花精力,而且能自研硬體的軟體廠商在全球範圍屈指可數,于是他們不會繞彎子,而是選擇直接去找最可靠的合作夥伴:Arm。
所謂可靠,是指 Arm 會通過在 IP 開發階段便展開深入且全面的支持來确保架構與微架構設計符合實際工作負載需求,并提供從 CPU 到整個平台層面的定制化優化服務:那麼,為了深入優化 TCO,就必須着眼于整個平台,而世界上只有 Arm 能夠在平台級别上調優内存和 I/O,并添加自定義工作負載加速器。
這是一種非常緊密的合作關系。尤其是在 Arm 推出了 Neoverse CSS 之後,定制芯片變得更迅速,且更易實現。微軟的 Cobalt 100 CPU 就是一個經典的合作案例。從頭部雲服務提供商到初創公司,Neoverse CSS 被廣泛應用來推動更高的創新發展。
不難想象,這構成了一個極其強大的生态系統。
去年十月,Arm 在 Neoverse CSS 的基礎上,進一步推出了 Arm 全面設計 ( Arm Total Design ) 生态項目,集結了半導體產業中的芯片設計夥伴、IP 供應商、EDA 工具提供商、代工廠和固件開發商等各方力量,圍繞 Arm 計算子系統(CSS)開展協同創新和系統開發工作。
通過路線圖的協同和技術整合,Arm 還設立了專業技術中心來縮短上市時間并降低成本,助力合作夥伴更高效地開發基于 Neoverse CSS 的定制芯片。
在計算機發展的早期,IBM 壟斷了大型機市場,擁有自己獨特的硬體和軟體體系結構。然而,一些公司(Amdahl、Fujitsu 和 Hitachi)決定挑戰 IBM,試圖制造與其大型機兼容的計算機。最終 IBM 通過保持技術領先和市場份額,還是成功抵御了這些競争者的挑戰。這就是所謂的 " 大型機克隆戰争 "。
在這個 AI 時代,比起掀起新一輪的硬體戰争,Arm 選擇帶頭團結這些力量,立志使人工智能變得無處不在,并在網絡安全領網域為從芯片到雲端的數字世界奠定信任的根基。
其中也包括我們熟知的頭部企業,如台積電、Intel 和三星。還有開發者們耳熟能詳的雲原生計算基金會(CNCF)畢業項目,也原生支持 Arm 架構。
目前,在短短四個月内已有超過 20 家企業加入 Arm 全面設計項目,涵蓋新的 EDA 和配套 IP 提供商,以及來自韓國、中國台灣、中國大陸和印度等具有巨大發展潛力的戰略市場的芯片設計公司。他們均致力于确保高性能、高效率解決方案的廣泛可觸及性,助力滿足 AI 加速未來的計算需求。
此外,基于 Arm 全面設計生态夥伴的反饋意見,Arm 近期還發布了芯粒系統架構 ( Chiplet System Architecture, CSA ) 。其旨在定義一個功能強大、支持通用的芯粒生态系統。
02 高負載才能看出性能差異
在過去的一年裏,Arm 發現了不少市場空缺,于是為了提供滿足基礎設施性能要求的高效計算,他們推出了 N 系列的最新 CSS 產品——Neoverse CSS N3。CSS N3 的首個實例可提供 32 核心,擁有卓越的能效表現,其熱設計功耗(TDP)低至 40 瓦特。
基于最新的 Neoverse N3 IP 平台構建的 CSS N3,不僅引入了 Armv9.2 架構特性,還在每個核心上配備了高達 2 MB 的專用二級緩存(L2),同時兼容并支持當前最前沿的 PCIe 和 CXL I/O 接口标準,以及統一芯片互連(UCIe)的芯粒互聯規範。
也有些廠商希望在保有 CSS 所有優勢的同時,實現更高的性能。因此,Arm 便将 CSS 引入到了高性能的 V 系列,推出了 Neoverse CSS V3。
CSS V3 在單芯片上最多可擴展至 128 核,并支持最新的高速内存和 I/O 标準。CSS V3 基于最新的 Neoverse V3 核心打造,是 Arm 目前單線程性能最高的 Neoverse 核心。V3 為 Arm 機密計算架構 ( CCA ) 提供硬體支持。V3 和 N3 核心均可提供業界領先的專用 L2 緩存大小,顯著改善性能表現。
既然 CSS V3 主打性能,那它在關鍵工作負載下又能達到什麼水平?Arm 提供了如下兩張數據圖,并強調了一個有意思的點:代際產品之間的性能提升。Arm 的一大優勢就是使合作夥伴可以不受制于技術供應商,而是自己掌握創新的步伐,所以更新迭代的速度特别快。
此外,常有人忽視一枚芯片有多少計算周期最終被用于壓縮和協定轉換等後台任務。N 系列在壓縮方面取得了性能優勢,可降低雲服務運營商的成本,并最終降低雲服務客户的成本。同樣地,V 系列顯著提高了協定緩衝區的性能,這是在數據中心内傳輸數據的一項關鍵功能。
光説數據會沒什麼實感,所以 Arm 也提供了實例。
如今,XGBoost 機器學習算法基本上滲透到所有依賴預測和個性化服務的領網域,如内容推薦、出行費用預估及旅行優惠推送等日常應用場景。可以説,我們現在随便打開一個網頁所看到的個性化内容,均使用 XGBoost 作為主要數據庫來驅動相關核心算法。
所以,這種以工作負載為重點的協作就能最好地體現生活中的實際應用場景。Arm 針對特定關鍵工作負載的優化,讓 N3 平台的 XGBoost 性能飙升至原來的 196%,而且這還是在已經超越同類廠商的工作負載上進行的結果。
03 未來計算及 AI 的基石
去年,有關 AI 的讨論焦點主要集中在生成式 AI 和大語言模型 ( LLM ) 上,行業重點都是如何訓練更厲害的大模型。但根據 Arm 的分析,随着生成式 AI 廣泛應用于實際業務場景,其工作重點将轉向推理。
分析師估計,已部署的 AI 伺服器中有高達 80% 專用于推理,且這一數字還将持續攀升。這一轉變意味着要找到合适的模型和模型配置,并加以訓練,然後将其部署到更具成本效益的計算基礎設施上。
CPU 廣泛可用,并可靈活用于機器學習或其他工作負載,此外, CPU 還易于部署,并可支持各種軟體框架,具備低成本和高能效等優勢。因此,CPU 推理将是生成式 AI 計算應用的關鍵組成。
但是,并非所有 AI 處理都将在 CPU 上進行,現在風頭正盛的 AI 硬體商不是 NVIDIA 嗎?事實上,NVIDIA 不僅利用其領先的 Hopper GPU,同時也使用了基于 Neoverse V2 平台的緊耦合計算芯粒 Grace。這種緊耦合的 CPU 加上加速器配置,對大參數 LLM 非常有益,對檢索 - 增強 - 生成 ( RAG ) 等新興方法也很有幫助。
可以見得,Arm 已經通過這次發布解釋了自己為什麼是未來計算及 AI 的基石。
建設 AI 時代也離不開廣大開發者的努力,Arm 在生成式 AI 時代又該如何賦能開發者?Arm 基礎設施事業部營銷副總裁 Eddie Ramirez 向 CSDN 回答了這點:
我們致力于實現讓 AI 應用開發者可以輕松部署的 AI 軟體棧。針對中國開發者,我們與龍蜥社區緊密合作。通過提供 Arm Compute Library ( ACL, Arm 計算庫 ) ,為 AI 應用中所使用的許多算法的實現提供出色的支持。Arm 對 TensorFlow、PyTorch 等 AI 框架的支持,加之我們的加速計算庫,兩者将緊密集成,并納入未來的龍蜥社區版。