今天小編分享的科學經驗:為什麼說GPU再火,AI平台也少不了強力的CPU,歡迎閱讀。
AIGC 的這把火,燃起來的可不只是百模大戰的熱度和雨後春筍般的各式 AI 應用。
更是由于算力與通信需求的爆發式增長,使得底層的專用加速芯片、以及配備這些芯片的AI 加速伺服器再次被拉到了大眾的聚光燈下。
據統計,2023 年全球範圍内的 AI 伺服器市場規模已經達到了 211 億美元,并且 IDC 還發布預測說:
預計 2025 年達 317.9 億美元,2023-2025 年 CAGR 為 22.7%。
AIGC 大模型的訓練和推理需要大量的高性能算力支持,對 AI 伺服器需求還将提升。
而且 AI 加速伺服器不同于普通伺服器,在架構上一般采用異構的方式,且 GPU 的數量更是能配多少就配多少,這也就是造成目前 GPU 千金難求的因素之一。
但你知道嗎?即使在大模型時代 GPU 或各式 AI 加速芯片的光芒變得更加耀眼,但對于 AI 基礎設施來說,CPU依然是必不可少的存在——至少一台高端的 AI 加速伺服器中每 8 個 GPU 就需得搭配 2 個 CPU。
不僅如此,由于 AI 加速伺服器異構的特點,市場上除了 CPU+GPU 的組合方式之外,還有其它多種多樣的架構,例如:
CPU+FPGA
CPU+TPU
CPU+ASIC
CPU+多種加速卡
不難看出,即使 AI 加速伺服器架構的組合方式萬般變化,唯獨不能變的就是 CPU,而且往往還得是搭配高端的那種。
△圖源:由 DALL · E 生成
那麼為什麼會這樣呢?
AI 加速伺服器中的 CPU
首先,CPU 對于 AI 加速伺服器來說相當于人的大腦。
它可以負責整個伺服器的運算與控制,是直接影響到伺服器整體性能的核心部件。
CPU 處理作業系統的指令,協調各個硬體組件的工作,包括内存管理、數據流控制和 I/O 操作。
即使在 AI 伺服器中,GPU 或其他加速器負責執行大部分計算密集型任務,CPU 仍然是不可或缺的,因為它确保了整個系統的穩定運行、各組件的高效通信協作,最終推進任務的順利執行。
其次,CPU 還具備靈活性和通用性。
CPU 的設計一般為通用處理器,能夠執行各種類型的計算任務。
雖然 GPU 在并行處理方面更為高效,但 CPU 在處理序列化任務、執行復雜邏輯和運行通用應用程式方面更為靈活。
真正完整的 AI 應用平台其實需要處理一系列密切相關又特色各異的任務,包括數據預處理、模型訓練、推理和後處理等,這些任務也可能甚至特别需要 CPU 的通用處理能力。
不僅如此,CPU 還是系統啟動和維護的關鍵點。
因為伺服器的啟動過程、系統監控、故障診斷和維護操作都需要 CPU 來執行;沒有 CPU,這些關鍵的系統級任務将無法進行。
而且 CPU 在軟體兼容性方面更是有積累多年的優勢。
市面上大多數軟體和應用程式都是為 CPU 設計的,包括作業系統、數據庫管理系統和開發工具。AI 加速伺服器需要運行這些軟體來支持 AI 應用的開發和部署。
也正如我們剛才所說,現在 AI 加速伺服器均是采用異構的形式,CPU 在此過程中可以作為控制節點,管理 GPU 或其他加速器的計算任務,以此來實現高效的資源分配和任務調度。
最後,便是成本的問題。
雖然 GPU 在 AI 計算中非常高效,但 CPU 或其他專用加速芯片仍然是成本效益較高的選擇,特别是在處理不适合 GPU 或加速器的任務時。CPU 和它們的組合可以提供更佳的性能和成本平衡。
這也就不難理解為什麼 AI 加速伺服器裡唯獨不能缺少 CPU 了。
那麼接下來的一個問題便是,主流的伺服器廠商都在用什麼樣的 CPU。
我們以國内 AI 加速伺服器市場份額排第一的浪潮為例,從最新消息來看,其 NE5260G7 伺服器便已經适配了老牌芯片巨頭英特爾最新發布的第五代英特爾 ® 至強 ® 可擴展處理器。
而之所以浪潮要适配最新的高端 CPU,可以理解為 " 高端的遊戲需要搭配高端 GPU 和 CPU",AI 伺服器要想在性能上取得新突破,同樣也是要适配高端的硬體。
具體而言,與前一代相比,第五代英特爾 ® 至強 ® 可擴展處理器在處理人工智能工作負載方面表現出色,其性能提升了 21%,特别是在 AI 推理任務上,性能增幅更是達到了 42%。
此外,它的内存帶寬也增加了 16%;在執行一般計算任務時,第五代至強 ® 可擴展處理器能夠将整體性能提高至多 21%,并且在多個客戶實際工作負載中實現了每瓦特功耗性能提升高達 36%。
也正因 " 内核 " 如此強悍,才使得浪潮的伺服器在性能上實現了平均 21% 的提升。
不過有一說一,畢竟 AI 也不完全就是單純的模型或大模型的加速,因此上述的 CPU 優勢也還僅是能力的一隅,在各個細分的應用場景中,它還有更大的作為。
AI 不完全是大模型
即使在配備了 GPU 或專用加速器的 AI 伺服器中,CPU 的角色也遠不止于主控或為加速器提供服務。
而是在 AI 系統的整個生命周期中扮演着多樣化的角色,貫穿從數據采集、預處理、訓練、推理、應用等全流程。
先說最關鍵的 AI 模型,尤其是模型推理這一環節。
不論是現在占據最強話題熱度的大語言模型,還是傳統的深度學習模型,抑或是科學計算與人工智能交融形成的 AI for Science 應用,CPU,特别是内置 AI 加速能力的英特爾 ® 至強 ® 可擴展處理器,都在推理應用中有不俗戰績。
例如在 AlphaFold2 掀起的蛋白質折疊預測熱潮之中,借助第三代和第四代至強 ® 可擴展處理器不斷優化端到端通量能力,就能實現比 GPU 更具性價比的加速方案,直接拉低 AI for Science 的入場門檻。
再例如 OCR 技術應用,也随着至強 ® 可擴展處理器在内置 AI 加速技術上的演進,被賦予了新的 " 靈魂 ",不但準确率飙升、響應延遲也進一步降低。
更别提以 ChatGLM 為代表的通用大模型,以及衛寧、惠每等行業軟體或解決方案提供商輸出的行業特定場景的大模型應用,它們都提供了有力的實踐佐證,能驗證至強 ® 在大模型推理上的實力,以及相比加速器芯片更優的成本,以及更易獲取,更易部署、優化和使用的優勢。
不信你就瞧瞧我們的最 "In"AI 專區 ,來刷新一下認知。
再說 AI 全流程中大量涉及數據處理的環節。
實際業務中的 AI 應用,背後往往需要包含大量數據的知識庫作為支撐。
這些數據通過将海量文本語料壓縮成密集向量的形式存儲,并通過高效的相似度搜索迅速找到與查詢最相關的信息,也就是大家所熟知的向量數據庫了。
在這方面,專門針對向量和矩陣計算優化的英特爾 ® AVX-512 指令集和英特爾 ® AMX 加速技術有了用武之地,可應對海量、多維向量數據的高并發和實時計算等挑戰。
業界知名的向量數據庫開發商如騰訊雲和星環科技等,底層都選擇第五代英特爾 ® 至強 ® 可擴展處理器作為承載和加速的平台。
騰訊雲 VectorDB 與英特爾合作,在第五代至強 ® 平台經軟硬體雙方面優化後,在提升向量數據庫的向量檢索效率方面相比基準組提升了約 2.3 倍,在使用英特爾 ® AMX 加速數據格式為 INT8 的測試場景中再次性能提升達約 5.8 倍。
星環科技則基于第五代至強 ® 可擴展處理器推出了 Transwarp Hippo 分布式向量數據庫解決方案,實現了約 2 倍的代際性能提升,可有效滿足大模型時代海量、高維向量的存儲和計算需求。
△圖:星環科技分布向量數據庫 Transwarp Hippo 產品架構
AI 全流程中與數據相關的環節,不止包含可用作大模型外部知識庫的向量數據庫這一種。還涉及模型訓練前數據預處理,訓練中的數據調度,模型上線後的持續優化和維護、異常數據的發現和處理等。
眾所周知,數據是 AI 三要素之一,相當于 AI 的血液和原料,沒有優質的數據,再先進的算法和模型也是空中樓閣。但原始數據往往參差不齊,需要通過數據清洗、轉換、特征工程等一系列流程,最終才能為 AI 系統所用。
這些數據處理任務涉及海量邏輯運算,以及同樣、甚至更大量級的内存操作,如存取、傳輸,對處理速度和時延要求都非常高,因此通常也是由最離系統内存最近、更擅長通用計算的 CPU 來承擔。
第五代英特爾 ® 至強 ® 可擴展處理器充分考慮到這些需求,内置多款加速器來為數據處理提供支持,如:
DSA 數據流加速器(Data Streaming Accelerator):負責優化數據復制和轉換操作,提高網絡和存儲性能。
IAA 存内分析加速器 (In-Memory Analytics Accelerator):提高分析性能,同時解除安裝 CPU 内核任務以加速數據庫查詢吞吐量等工作負載。
QAT 數據保護與壓縮加速技術(QuickAssist Technology):可顯著加速數據壓縮、對稱和非對稱數據加密解密,提高 CPU 效率和整體系統性能。
DLB 動态負載均衡器(Dynamic Load Balancer),幫助防止性能瓶頸并實現低時延控制平面工作負載。
在第五代至強 ® 可擴展處理器的不同細分型号中,對上述加速器有靈活的配置或支持方案,并且還支持通過 Intel On Demand 按需啟用,可以适應不同工作負載的需求。
最後,還特别要提到的對數據隐私、模型和應用安全的更優防護,畢竟所有 AI 場景都不能以犧牲安全為代價,更是有些 AI 應用場景對此格外在意,如在金融、醫療行業。
對這些行業場景來說,能用上基于 CPU 實現的硬體級可信執行環境(TEE)技術來保護敏感數據和代碼免受攻擊可是非常關鍵的。
如平安科技,就曾使用英特爾 ® Software Guard Extensions(英特爾 ® SGX)構建聯邦學習解決方案。
平安科技通過英特爾 ® SGX 的 " 飛地 " 内存區網域,在本地安全地執行模型訓練,而無需共享原始數據。同時 SGX 支持安全的多方計算協定,如同态加密、安全聚合等,從而在聯邦學習中實現了更優的隐私保護。
阿裡雲則基于最新第五代英特爾 ® 至強 ® 可擴展處理器推出了 BigDL-LLM 隐私保護方案。
它在這款全新處理器内置的英特爾 ® Trust Domain Extension (英特爾 ® TDX)技術的加持下實現了對分布式節點或 AI 管道的更優防護,從而能讓客戶在不犧牲數據隐私的前提下将更多數據運用到 AI 應用中,有效挖掘數據價值,為客戶構建更為高效的隐私保護機器學習方案,助力大模型的廣泛應用。
△圖:采用英特爾 ® TDX 的 BigDL-LLM 服務和調優架構
要知道,基于 TEE 的聯邦學習或隐私保護機器學習技術,可是未來 AI 在大規模實踐中打通和共享多機構數據的一大基座。
通過這種技術,不同機構之間才能在保證數據安全和隐私的前提下,實現數據的共享和聯合分析,才能為 AI 的持續發展演進提供更加豐富和全面的數據支持。
搞好 AI 全流程加速,CPU 不能是短板
所以,讓我們從單純的模型加速,将眼界擴展到更全面、多維、流水線化的 AI 平台應用,不難預見,随着這種平台級應用的成熟與走向實戰,我們對小到 AI 加速伺服器,大到 AI 基礎設施的期望也在不斷拓展和更新。
僅僅關注 AI 模型本身以及 GPU、專用加速器的性能,會越來越像一個單點化的思維。
未來大家必須更重視整個 AI 平台中多種硬體與軟體的搭配及協同工作,這其中 CPU 作為主控、加速、輔助的多面手,對于補齊整個平台的短板,提升整個平台的質量至關重要。
這或許就是在如今的技術浪潮下,以第五代英特爾 ® 至強 ® 可擴展處理器為代表的高端 CPU,依然會在 AI 伺服器或基礎設施市場中赢得一席之地的根因。
畢竟,高端 CPU 的作用不僅是直接上手加速 AI 推理,還關系到整個 AI 平台或系統整體性能的提升,更是提供更加穩定和安全的運行環境來拓展 AI 的邊界,只有這幾個環節都照顧到,才能推動 AI Everywhere 願景進一步走向現實。
或者簡言之,AI 如果要真正走向更多的實用場景,又怎麼能少得了更強大、更可靠、更全面多能的 CPU 呢?
參考鏈接:
[ 1 ] https://www.bilibili.com/read/cv23242562/
[ 2 ] https://www.idc.com/getdoc.jsp?containerId=US49554023
— 完 —
點這裡關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>