今天小編分享的互聯網經驗:Graviton兩年内為AWS提供超過50%的CPU算力,打破英特爾對市場節奏的掌控,歡迎閱讀。
在超大規模和雲計算廠商規模較小、Arm 未能搶占數據中心市場以及 AMD 尚未走上復興之路的時候,英特爾掌控着新計算引擎進入數據中心的節奏。
局勢總是在變化。本周,英特爾的 CEO 帕特 . 基辛格(Pat Gelsinger)宣布離職,相比之下,亞馬遜雲科技(AWS)在拉斯維加斯舉辦年度 re:Invent 大會,線下參會人數達到 6 萬,而線上人數高度 40 萬人。誰在控制超大規模企業和雲計算制造商的技術推出步伐,似乎有了新的答案。
對于 AWS 而言,他們也可以控制新技術的發布節奏,因為他們不需要像芯片廠商一樣,進行定期的產品迭代。他們不需要像英特爾、AMD 和英偉達那樣,把計算引擎賣給 ODM 和 OEM,而是直接向客戶出售雲上產品。顯而易見的是,這是一項更容易的業務。
在 re:Invent 大會上,AWS 以及其母公司亞馬遜高管所帶來的演講,讓外界對于他們的計算引擎有了新的期待,比如 Graviton5、Inferentia3 及 Trainium3。
Trainium3 使用 3nm 工藝蝕刻,相較于 Trainium2 能效提高 40%、性能翻倍。AWS 的新聞稿中表示,Trainium3 UltraServers 的性能将是 Trainium2 UltraServers 的 4 倍,這意味着它們将從使用 Trainium2 的 16 台設備擴展到使用 Trainium3 的 32 台設備。
AWS CEO 馬特 . 加曼(Matt Garman)稱,Trainium3 将于 2025 年晚些時候推出,這意味着大概會在 re:Invent 2025 年會議發布這款產品。早在 6 月份,就有一些關于 AWS 高管确認 Trainium3 将突破 1000 瓦的傳言,但這點并不出乎外界的意料,英偉達的 Blackwell B200 GPU 的峰值功率是 1200 瓦。
真正出乎外界意料的是,在上個月的 SC24 超級計算會議上,針對 HPC 應用的 Graviton4E 仍未推出,這與 AWS 在 2021 年 11 月推出的普通 Graviton3 和 2022 年 11 月推出的增強版 Graviton3E 的過往速度相比有所差異。2023 年 11 月發布的 Graviton4 可以說是市場上基于 Arm 架構最好的伺服器 CPU 之一,當然也是适用面最廣的 CPU。
AWS 的 CPU、人工智能加速器和 DPU 沒有任何年度更新的壓力,如果仔細觀察英偉達和 AMD 的 GPU 路線圖,就會發現他們的核心產品仍然是每兩年發布一次,第二年會在第一年發布的 GPU 上進行内存更新或性能調整。
AWS 在芯片領網域的迭代周期大概是兩年,其間會有一些波動。Graviton1 實際上是一個基于 Nitro 架構的 DPU 卡,可以忽略不計。正如 AWS 公用事業計算高級副總裁彼得 . 德桑蒂斯(Peter DeSantis)在 2018 年發布的主題演講中所說的,Graviton1 只是 " 進入市場的一個信号 ",主要用于驗證客戶需求。2019 年推出的 Graviton2, AWS 采用了台積電的現代 7 納米工藝,并使用了 Arm 的 Ares N1 内核,設計了一款 64 核 CPU,與運行在 AWS 雲上的英特爾和 AMD 的 X86 CPU 相比,性價比高出 40%。
2021 年,采用 Arm Zeus V1 内核的 Graviton3 問世,同樣是 64 個内核卻可以承擔更多的任務。2023 年,Graviton4 問世了,這款芯片采用了台積電 4 納米工藝,在插槽上塞入 96 個 Demeter V2 内核,與 12 個内存帶寬為 537.6 GB/ 秒的 DDR5 内存控制器搭配使用。與 Graviton3 相比,Graviton4 的單核性能提高了 30%,内核數量增加了 50%,性能提高了 2 倍。根據我們的定價分析,產品的性價比提高了 13% 到 15%。在實際的基準測試中,Graviton4 帶來的性能優化有時能達到 40%。
AWS 處理器投入的資金至少需要兩年才可以收回。因此,在 re:Invent 大會上期待任何關于 Graviton5 的新消息都是不現實的。盡管如此,AWS 的高管們還是會吊一下市場的胃口。
AWS 的高管在主題演講中提供了一些關于 Graviton 的數據。AWS 計算和網絡服務副總裁戴夫 . 布朗(Dave Brown)展示了這張圖表,它在一定程度上解釋了為什麼英特爾最近幾個季度的财務狀況如此糟糕。粗略地說,AWS 的四項核心服務(Redshift Serverless 和 Aurora 數據庫、Kafka 的 Managed Streaming 和 ElastiCache 搜索)大約有一半的處理是在 Graviton 上運行的。
布朗稱:" 最近,我們達到了一個重要的裡程碑,在過去的兩年裡,我們數據中心超過 50% 的 CPU 算力都來自 Graviton,這比其他所有類型的處理器加起來還要多。"
這正是微軟多年前所聲稱想做成的事情,而這也是 AWS 所期待達成的目标。從長遠來看,X86 是一種傳統的平台,其價格也是傳統的,就像之前的大型計算機和 RISC/Unix。RISC-V 也許最終也會這樣颠覆 Arm 架構 ( 開源的 ISA 與可組合的模塊似乎是必由之路,就像 Linux 開源系統讓 Windows Server 變成傳統平台的)。
加曼讓我們對 AWS 内部的 Graviton 伺服器群規模有了一個大致的了解:"Graviton 正在瘋狂地增長,2019 年,整個 AWS 的業務規模為 350 億美元,而現在,單單 Graviton 運行的業務規模就與 2019 年整個 AWS 業務規模一樣,這是非常快的增長。" 可以估計的是,Graviton 伺服器集群的增長速度比 AWS 整體業務的增長速度還要快,而且幅度可能非常大。這對英特爾的傷害遠大于對 AMD 的傷害,因為 AMD 多年來一直擁有比英特爾更好的 X86 伺服器 CPU。
Trainium 系列,是否會成為英偉達和 AMD 之外的選擇?
加曼談論 Trainium3 的唯一原因是,人工智能訓練對高性能計算的需求增長得比任何其他計算引擎快得多。面對英偉達在 2025 年加大其 Blackwell B100 和 B200 GPU 的產能,以及 AMD 擴大其 Antares MI300 系列,AWS 如果想讓客戶将他們的人工智能工作負載移植到 Trainium 上,就必須在市場上展現出大力推行 Trainium 系列的決心。
在明年的 re:Invent 大會之前,希望能夠看到 AWS 發布關于 Trainium3 的一些新優化,因為市場上的競争對手太多,以谷歌和微軟為首的一些公司将在 2025 年推出他們旗下的人工智能加速器。
就像 Graviton 系列一樣,從現在開始,Trainium 系列的更新周期或許将變為兩年一更新。這些產品的研發投入都非常高昂,因此 AWS 要實現财務效益必須将 Trainium 的開發成本攤銷到盡可能多的設備上。與 Graviton 一樣,我們認為 AWS 的 Trainium 達成這一目标的日子不會太遙遠。從長遠來看,這對英偉達和 AMD 來說不是好事,特别是如果谷歌、微軟、騰訊、百度和阿裡巴巴都采取同樣的行動。
AWS 還沒有愚蠢到試圖在 GPU 加速器市場上與英偉達直面抗衡,但與谷歌的 TPU、SambaNova 的 RDU、Groq 的 GroqChip 和 Graphcore 的 IPU 一樣,這家雲計算商同樣認為自己可以構建一個系統陣列來進行人工智能訓練和推理,并為雲計算客戶帶來差異化體驗和附加值產品,與購買英偉達相比,客戶購買 AWS 的產品可以節省成本并且掌握更多的主動權。
正如我們上面所指出的,AWS 高管對 Trainium3 并沒有透露太多的信息,但他們對 Trainium2 在 UltraServer 中的使用到非常興奮。
今年的 re:Invent 大會上,AWS 更多地介紹了使用 Trainium2 加速器的系統架構,并展示了基于這些加速器構建的網絡硬體,以擴展和擴展其人工智能集群。下面是德桑蒂斯展示的 Trainium2:
正如我們去年報道的那樣,Trainium2 似乎在單個封裝上放置兩個芯片互連,可能使用 NeuronLink die-to-die 内部互連技術,以在其共享的 HBM 存儲器上一致地工作。Trainium2 伺服器有一個節點,該節點帶有一對主機處理器并與三個 Nitro DPU 相連,如下所示:
這是計算節點的俯視圖,前端有四個 Nitros,後端有兩個 Trainium2s,采用無線設計以加快部署速度。
兩個交換機托架,一個主機托架和八個計算托架組成了一台 Trainium2 伺服器,該伺服器使用 2TB/ 秒的 NeuronLink 電纜将 16 個 Tranium2 芯片互連成 2D 環面配置,每個設備上 96GB 的 HBM3 主内存都會與其他設備共享。每台 Trainium2 伺服器具有 1.5TB 的 HBM3 内存,總内存帶寬為 46TB/ 秒(即每個 Trainium2 卡略低于 3TB/ 秒)。此節點在密集 FP8(一種浮點數表示格式)數據上的性能為 20.8 千萬億次浮點運算,在稀疏 FP8 數據上的性能為 83.3 千萬億次浮點運算。
AWS 将四台伺服器相互連接以搭建 Trainium2 UltraServer,該伺服器在 64 個 AI 加速器中擁有 6TB 的 HBM3 内存容量,内存帶寬總計為 184TB/ 秒。該伺服器具有 12.8Tb/ 秒的以太網帶寬,可使用 EFAv3 适配器進行互連。UltraServer 伺服器在密集 FP8 數據上的運算速度為 83.2 千萬億次浮點運算,在稀疏 FP8 數據上的運算速度為 332.8 千萬億次浮點運算。下面是德桑蒂斯對 Trn2 UltraServer 實例硬體的展示:
在布滿電線的機架頂部,隐藏着一對交換機,它們組成了 3.2TB/ 秒的 EFAv3 以太網網絡的端點,該網絡将多個 Tranium2 伺服器相互連接,以創建 UltraServer 伺服器,并将伺服器與外部世界連接。
這還不是整個網絡架構。如果你想運行大規模的基礎模型,需要的加速器将遠遠不止 64 個。為了将成千上萬的加速器連接在一起,可以進行大規模訓練,AWS 設計了一種基于以太網的網絡結構,名為 10p10u,其目标是在延遲不到 10 微秒的情況下,為整個網絡提供每秒數十 PB 的帶寬。下面是 10p10u 網絡結構機架的樣子:
由于原先伺服器内部的電線非常復雜,AWS 研發了一款光纖主幹電纜,将需要使用的電線數量壓縮為原先的十六分之一。其原理是将數百個光纖連接放在一條較粗的管線中,這樣做的好處是讓伺服器内部的架構更為簡潔。如下圖所示,右邊的機架使用的是光纖主幹電纜,它更簡潔小巧。更少的連接和線路管理意味着更少的錯誤,當你試圖快速構建人工智能基礎設施時,這一點很重要。
據悉,這種專門用于人工智能工作負載的 10u10p 網絡由于其優異的表現正在被大規模采用。德桑蒂斯展示了它與 AWS 創建的老式以太網網絡相比的增長速度有多快:
假設這是累積鏈接數(有效的計算),舊的 Euclid 網絡結構(大概是 100Gb/ 秒)在四年内逐漸增加到近 150 萬個端口。名為 One Fabric 的網絡與 10u10p 網絡在 2022 年年中大致同時推出,我們猜測其中 One Fabric 使用 400Gb/ 秒以太網,而 10u10p 基于 800Gb/ 秒以太網。One Fabric 有大約 100 萬個鏈接,而 10u10p 有大約 330 萬個鏈接。
加曼表示,與基于 AWS 雲上的 GPU 實例相比,Trn2 實例的性價比将提高 30% 到 40%。當然,AWS 應該加大拉開外部計算引擎與自家計算引擎之間的差距,保持這樣的差距是 Trainium 搶占人工智能計算器市場的正确舉措。
作為主題演講的一部分,德桑蒂斯和加曼都談到了一個代号為 "Project Ranier" 的超級集群,這是 AWS 正在為其人工智能大模型合作夥伴 Anthropic 建造的一個超級集群。截至目前,亞馬遜已向 Anthropic 投資 80 億美元,該集群主要用于訓練下一代 Claude 4 基礎模型。加曼說,"Project Ranier" 将擁有數十萬個 Trainium2 芯片,其性能将是訓練 Claude 3 模型時所用機器的 5 倍。
本文由雷峰網編譯自:https://www.nextplatform.com/2024/12/03/aws-reaps-the-benefits-of-the-custom-silicon-it-has-sown/