今天小編分享的科技經驗:誰在搶GPU?,歡迎閱讀。
到底是誰在搶這幾十萬乃至上百萬的顯卡呢?
8 月,英偉達發布了二季度财報,财報顯示,公司二季度營收 135 億美元,創季度新高且同比增長超 100%。公司預期三季度該數字将達到 160 億美元。與此同時,高端芯片的強勁需求将公司毛利率大幅提升至 71.2%,二季度淨利潤 61.8 億美元,同比漲幅達到驚人的 843%。
這是什麼概念呢?相當于英偉達在三個月時間裡多賺了六七十億美元,而且之後每個季度都有望入賬這麼多錢,即使放在群英荟萃的矽谷,這樣的成績也足以讓大家感到驚訝了。
而營收和盈利背後,是英偉達顯卡被瘋搶的盛況,即使英偉達今年能預計出貨 50 萬塊 H100 顯卡,依舊沒有滿足 AI 市場的急速擴張的需求,其未來計劃将 H100 顯卡的產量至少提高兩倍,2024 年該顯卡的預計出貨量會達到 150 萬至 200 萬顆左右。
那麼,到底是誰在搶這幾十萬乃至上百萬的顯卡呢?
我們或許可以從最近的新聞裡一窺端倪,8 月 29 日,總耗資三億美元的特斯拉 GPU 集群正式上線,該集群集成了 10000 塊英偉達的 H100 GPU,其主要用途就是幫助訓練特斯拉的無人駕駛系統 FSD。
作為構築該集群最重要的一部分,英偉達 H100 于 2022 年末推出,售價約 4 萬美元,比 前代 A100 快 30 倍,AI 訓練速度快 9 倍,根據英偉達的介紹,H100 專為視頻訓練等圖形密集型工作負載而設計,且易于擴展,其擁有 18,432 個 CUDA 核心, 640 個張量核心 ,80 個流式多處理器 ( SM ) ,與 A100 相比,H100 的高性能計算速度快 5 倍以上。
而由 10,000 塊 H100 構築的 GPU 集群将提供 340 FP64 PFLOPS 的峰值性能,為人工智能應用提供 39.58 INT8 ExaFLOPS 的峰值性能,峰值性能上已經超越了世界第四高性能超級計算機 Leonardo 所提供的 304 FP64 PFLOPS。
而英偉達第二季度的财報,正是像特斯拉這樣的公司做出的貢獻,他們投入巨資打造超大型 GPU 集群,一出手就是購入上萬張顯卡,讓台積電開足了馬力生產都趕不上需求的變化。
微軟
時間回到 5 年前,OpenAI 向微軟提出了一個大膽的想法——它可以構建一套人工智能系統,永遠改變人類與計算機之間的互動方式。
但是這套人工智能系統并非憑空得來,它需要建立在強悍算力的基礎之上,而且光有一套在背後提供助力的基礎設施還不夠,這還不是一錘子買賣,OpenAI 必須能長期穩定地運行這套系統,簡而言之,就是要不斷地砸錢。
當時,微軟 Azure 高性能計算和人工智能產品負責人 Nidhi Chappell 表示:" 我們從研究中了解到的一件事是,模型越大,你擁有的數據越多,你能訓練的時間越長,模型的準确性就越好。"
為了力挺 OpenAI 的人工智能,2019 年,微軟宣布與 OpenAI 建立合作關系,包括投資 10 億美元以及在 Azure 中建立一個可以訓練和運行高級 AI 模型的計算平台,微軟将對 Azure 進行的改進,以構建超級計算技術。
在 Build 2020 活動上,微軟宣布了這次合作的結果。微軟與 OpenAI 合作,并專門為 OpenAI 構建了一台新的超級計算機,這台新超算包括了超過 28.5 萬個 CPU 核心,1 萬塊 GPU,每個 GPU 伺服器的網絡連接能力為 400 gigabits 每秒,按照世界超級計算機 TOP500 的排名,微軟打造的這款新型超級計算機位列前五名。
如何讓這套集成萬塊 GPU 的超算集群全力開動起來,成了當初擺在微軟面前的難題。
微軟 Azure 高性能計算和人工智能產品負責人 Nidhi Chappell 稱,技術的關鍵是學習如何在高吞吐量、低延遲的 InfiniBand 網絡上構建、運行和維護數以萬計共處一地的 GPU,并相互連接。
微軟介紹稱,為了幫助訓練大型語言模型,計算工作被劃分到一個集群中的數千個 GPU 上,在 Allreduce 階段,GPU 會相互交換信息,而全新的 InfiniBand 網絡用于加速這一階段,這一切都在下一階段計算前完成,所有 GPU 就像齒輪一樣緊密咬合在了一起。
" 由于工作跨越了數千個 GPU,你需要确保你有可靠的基礎設施,然後也需要在後端擁有網絡,這樣你就可以更快地進行通信,并能夠連續數周這樣做 ",Chappell 說道," 這不是你買了一大堆 GPU,把它們連在一起,就可以開始工作的。為了獲得最佳的性能,需要有很多系統級的優化,而這是經過許多代人的經驗總結出來的。"
時間來到今日,這套基礎架構現在已成為整個 Azure 雲計算結構的标準配置,其中包括針對 AI 工作負載優化的虛拟機組合、連接的計算和存儲資源,微軟雲和人工智能集團執行副總裁 Scott Guthrie 表示,構建這種基礎設施釋放了 OpenAI 的 ChatGPT 和新的 Microsoft Bing 等產品中的人工智能功能。
在 ChatGPT 全球爆火之後,原來的這套超算已經無法滿足越來愈多的 AI 計算需求,今年 3 月,微軟發布博文稱,Azure 即将迎來重磅更新,加入數萬張英偉達最新的 H100 顯卡以及更快的 InfiniBand 網絡互連技術。
根據微軟的介紹,ND H100 v5 虛拟機将成為未來 AI 的支柱,它支持按需大小不等的 8 到數千個 NVIDIA H100 GPU,這些 GPU 通過 NVIDIA Quantum-2 InfiniBand 網絡互連。與上一代 ND A100 v4 VM 相比,可以看到人工智能模型的性能顯着提高,其中創新技術包括:
8 個 NVIDIA H100 Tensor Core GPU 通過下一代 NVSwitch 和 NVLink 4.0 互聯;
每個 GPU 有 400 Gb/s 的 NVIDIA Quantum-2 CX7 InfiniBand,每個虛拟機有 3.2Tb/s 的無阻塞胖樹型網絡;
NVSwitch 和 NVLink 4.0 在每個虛拟機的 8 個本地 GPU 之間具有 3.6TB/s 的雙向帶寬;
第四代英特爾至強可擴展處理器;
PCIE Gen5 到 GPU 互連,每個 GPU 有 64GB/s 帶寬;
16 通道 4800MHz DDR5 DIMM……
微軟表示,ND H100 v5 虛拟機将成為微軟向客戶提供基礎設施的方式,該基礎設施包括數以千計的 NVIDIA AI 優化 GPU,這些 GPU 在基于 NVIDIA Quantum InfiniBand 通信的高吞吐量、低延遲網絡中連接在一起,其可以根據任何 AI 任務的規模進行擴展。
與特斯拉相比,微軟的超算不再局限于單一的特定用途,而是更看重在 AI 訓練方面的整體性能,以及面向各類用戶的靈活擴展,相信其未來潛力會随着 Open AI 和微軟旗下 AI 產品的發展而進一步得到釋放。
谷歌
與微軟不同,谷歌在組建超算集群這條路上出發得更早,它不光從英偉達處大批量采購顯卡,同時還悄悄啟動了自研計劃,雙軌并行成就了今天谷歌的超算。
谷歌的自研始于 2013 年,當時的 Google AI 負責人 Jeff Dean 經過計算後發現,如果有 1 億安卓用戶每天使用手機語音轉文字服務 3 分鍾,其中消耗的算力就是 Google 所有數據中心總算力的兩倍,而全球安卓用戶遠不止 1 億。
谷歌最終選擇了另辟蹊徑,并立下了一個不低的目标:針對機器學習這一目的來構建特定領網域計算架構(Domain-specific Architecture),還要将深度神經網絡推理的總體擁有成本(TCO)降低至原來的十分之一。
2014 年,谷歌 TPU(Tensor Processing Unit)開始正式研發,得益于谷歌本身既有的強大科研實力,以及從各個公司招募而來的優秀芯片人才,TPU 的開發異常順利,僅在 15 個月後就開始在數據中心部署應用,且每瓦性能達到了 GPU 的 30 倍,CPU 的 80 倍。
直到 2016 年的 Google I/O 開發者大會上,首席執行官 Sundar Pichai 才正式向世界展示了 TPU 這一自研成果。Pichai 非常自豪地表示,DeepMind 研發的 AlphaGo 能夠擊敗韓國棋手李世石,底層硬體裡的 TPU 功不可沒,TPU 就像希臘神話中引發特洛伊戰争的女人——海倫,它的出現引起了 " 成千芯片與之競逐 "。
而在 2023 年,谷歌公布了自研芯片的最新版本—— TPU V4,相較于上一代,性能高出 2.1 倍,在整合 4096 個芯片之後,超算性能提升了 10 倍。
谷歌表示,對于規模相當的系統,TPU v4 可以提供比英偉達 A100 強 1.7 倍的性能,同時在能效上也能提高 1.9 倍。與 TPU v3 一樣,每個 TPU v4 包含兩個 TensorCore(TC)。每個 TC 包含四個 128x128 矩陣乘法單元(MXU),一個具有 128 個通道(每個通道 16 個 ALU),以及 16 MiB 向量存儲器(VMEM)的向量處理單元(VPU)。
谷歌稱,客戶對機器學習的容量、性能和規模的需求一直在快速增長。為了支持 AI 的下一代基礎性進步,我們正式推出了谷歌雲機器學習集群,其中就包括預覽版的 Cloud TPU v4 Pod,在最高可達 9 exaflops 的峰值聚合性能下,Cloud TPU v4 Pods 集群在算力方面是全世界最大的公開可用的機器學習中心。
讓人感到訝異的是,谷歌實施自研戰略的後,利用英偉達 GPU 組建的超算集群也絲毫不遜色于其他巨頭。
今年 5 月,在年度 Google I/O 開發者大會上,谷歌公布了全新 AI 超級計算機—— A3 ,該超算擁有大約 26,000 塊英偉達 H100 GPU,作為參考,世界上最快的公共超級計算機 Frontier 擁有 37,000 塊 AMD Instinct 250X GPU。
谷歌表示,A3 超級計算機面向希望訓練大型語言模型的客戶,是對現有 A2 虛拟機與 Nvidia A100 GPU 提供的計算資源的重大更新,谷歌正在将所有分布在不同地理位置的 A3 計算實例匯集到一台超級計算機中。
"A3 超級計算機的規模可提供高達 26 exaflops 的 AI 性能,這大大減少了訓練大型 ML 模型的時間和成本," 谷歌的董事 Roy Kim 和產品經理 Chris Kleban 在博文中提到。
此外,A3 超算是第一個通過名為 Mount Evans 的基礎設施處理單元連接 GPU 實例的虛拟機,該單元由谷歌和英特爾聯合開發,IPU 允許 A3 虛拟機解除安裝網絡、存儲管理和安全功能,并以 200Gbps 的速度傳輸數據。
"A3 是第一個使用我們定制設計的 200Gbps IPU 的 GPU 實例,GPU 到 GPU 的數據傳輸繞過 CPU 主機并流經與其他 VM 網絡和數據流量不同的接口。與我們的 A2 虛拟機相比,這使網絡帶寬增加了 10 倍,具有低尾延遲和高帶寬穩定性," 谷歌高管在博客文章中表示。
左手 TPU,右手 H100 的谷歌,在組建超算集群這件事上似乎走在了很多公司的前面,自研面向自身需求,而英偉達 GPU 服務于客戶,二者取長補短,讓谷歌成為了這個 AI 時代的弄潮兒。
Meta
對于因為元宇宙而改名的 Meta 來說,AI 似乎一直是它深耕的領網域,更是為了它背後的基礎設施豪擲萬金,力圖打造世界第一流的超算集群。
2017 年,當時還叫 FaceBook 的 Meta 打造了第一代 AI 超級計算機,其配備了 22000 個 NVIDIA V100 Tensor Core GPU,每日可處理 35000 項 AI 訓練工作。
據 HPCwire 預計,這個基于 V100 GPU 的前身版本,按照 Linpack benchmark 的浮點計算性能應該已經達到了 135 PFlops。在 2021 年 11 月全球超算排行榜中足以排到第三名,其算力已經超越了美國在加州 Livermore 運作的 " 山脊 " ( Sierra ) 超級計算機。
2020 年初,由于已有超算集群越來越難跟上未來大模型訓練的需要,Meta 決定從 0 開始設計一個新的超算,進而在大到一個 Exabyte 的數據集上訓練出超過一萬億個參數的模型,
2022 年 1 月,Meta 宣布它正在建造的世界最快 AI 超算 AI Research SuperCluster ( RSC ) ,他們選擇了三家在 AI 計算和數據中心組件方面最知名的公司:英偉達、Penguin Computing,和 Pure Storage。
Meta 不僅從英偉達處采購了 760 台 DGX 通用訓練系統,其中包含共計 6080 塊 Ampere 架構 Tesla A100 GPU,還從 Pure Storage 采購了共計 231PB 的閃存陣列、模塊和緩存容量,機架搭建、設備安裝和數據中心的後續管理工作,則由從 Facebook 時代就在服務該公司的 Penguin Computing 負責。
最終,第一階段的 RSC 超算包含 6,080 塊 GPU,緩存容量 46 PB,主閃存 175 PB。在計算機視覺任務上,新超算的性能比舊系統提高 20 倍,在大型自然語言處理上性能提升 3 倍,而在第二階段正式完成時,包含總共 2000 個 英偉達 DGX A100 系統,使用了 16000 塊 GPU,儲存容量達到 1 EB,能每秒處理 16 Tbps 的數據。
Meta 在博客文章中表示:" 我們希望 RSC 幫助我們建立全新的 AI 系統,例如可以為多個不同語言的團隊提供實時語音翻譯,使他們可以在研究項目上無縫協作,甚至一起玩 AR 遊戲。"
不過目前來看,Meta 超算 RSC 的算力已經落後于微軟和谷歌的 AI 超算,畢竟後者已經開始利用更強大的 H100 GPU 來構築超算,但 Meta 也表示 ,RSC 的優勢是允許其研究人員使用 Meta 生產系統中的真實示例來訓練模型,希望為 AI 研究人員提供最先進的基礎設施,使他們能夠開發模型并為他們提供培訓平台以推進 AI 發展。
而 Meta 也早已建立了新的自研計劃,在 2020 年就開發了其第一代基于 7nm 工藝的自研 AI 芯片 MTIA(MTIA v1),可以從 128 MB 内存擴展到高達 128 GB,其專門用于處理與 AI 推薦系統相關的工作,幫助用戶找出最佳貼文内容并更快呈現在用戶眼前,其計算性能和處理效率都勝過 CPU。另外,在 Meta 設計的基準測試中,MTIA 處理 " 低復雜性 " 和 " 中等復雜度 " 的 AI 模型也比 GPU 更高效。
對于 Meta 來說,目前沒有新的超算建造計劃可能是不大不小的遺憾,但依靠自研芯片和已有的強大超算,和微軟谷歌相比也不逞多讓。
AWS
與前幾個耳熟能詳的公司相比,較少被提及的 AWS(亞馬遜雲科技)作為全球雲計算服務提供商,在組建超算集群的速度和規模上,并不比其他巨頭遜色多少。
AWS 和英偉達合作的歷史有 12 年之久,在過去十幾年的時間當中,AWS 陸續推出了基于英偉達 GPU 的各種 GPU 實例,如 CG1 實例(2010 年)、G2(2013 年)、P2(2016 年)、P3(2017 年)、G3(2017 年)、P3dn(2018 年)、G4(2019 年)、P4(2020 年)、G5(2021 年)和 P4de(2022 年)實例。
在去年發布的 EC2 P4de 實例中,采用 8 個英偉達 A100 GPU,每個具有 80GB 高性能的 HBM2e GPU 内存,而這一實例在去年已經用于 AWS 的超算集群。
今年 5 月,AWS 更進一步,宣布推出 EC2 P5 虛拟機實例,該實例将在 Nvidia H100 GPU 的基礎上運行,其采用 8 塊英偉達 H100 Tensor Core GPU,具有 640 GB 高帶寬 GPU 内存,同時提供第三代 AMD EPYC 處理器、2TB 系統内存和 30TB 本地 NVMe 存儲,還提供了 3200 Gbps 的聚合網絡帶寬并支持 GPUDirect RDMA,從而能夠繞過 CPU 進行節點間通信,實現更低的延遲和高效的橫向擴展性能。
而且 Amazon EC2 P5 實例可以部署在超大規模集群第二代 Amazon EC2 UltraClusters 中,其由高性能計算、網絡和雲存儲組成,Amazon EC2 UltraClusters 可以使用多達 2 萬個 H100 Tensor Core GPU,用戶可以部署可擴展到數十億或數萬億參數的機器學習模型。
英偉達副總裁 Swami Sivasubramanian 表示,與基于英偉達上一代 A100 GPU 的 EC2 P4 模型相比,P5 實例在訓練大型語言模型時速度提高了六倍,并且可以将訓練成本降低 40%。
此外,AWS 還為超算集群推出了基于 Arm 的 CPU,名為 Graviton3E 的芯片正是 AWS 的 EC2 HPC7g 實例的一部分,AWS 将 HPC7g 實例定位為 " 緊耦合計算和網絡密集型 HPC 工作負載的實例類型 ",網絡密集型功能集中在 Nitro 系統芯片上,這是一個數據處理器或基礎設施處理單元,處理網絡,I/O 和安全性,其可與英偉達的 Bluefield 或谷歌與英特爾合作開發的 Mount Evans 相媲美。
目前,Nitro 已成為 AWS 雲基礎設施的核心,其提供了适合其分布式系統高性能的 I/O,HPC7g 虛拟機可用于從 16 個核心到 64 個 CPU 核心的實例,具有 128GB 内存、Amazon Elastic Block 存儲、200Gbps EFA(彈性結構适配器)帶寬和 25Gbps 網絡帶寬。
值得一提的是,另一家公司 RIKEN 已經通過 AWS 的 HPC7g 實例構建了其基于 Arm 的 Fugaku 計算機的雲版本,這也是世界上第二快的超級計算機。
生成式 AI 成為了雲服務市場新的增長點,同時也推動雲服務市場的創新和差異化,作為行業領頭羊的 AWS 顯然沒有忽視這件事,早已在搭建超算集群的路上持續向前奔跑。
特斯拉
至于開頭提到的特斯拉,作為自動駕駛的先鋒,它早已把超算集群當成是未來的主要方向,除了備受青睐的英偉達顯卡外,自研更是它最大的法寶之一。
早在 2021 年 6 月,國際計算機視覺和模式識别會議(CVPR)周末的演講中,特斯拉人工智能團隊的負責人安德烈 · 卡帕西 ( Andrej Karpathy ) 就展示了一台超級計算機,這台超級計算機采用了 5760 個算力為 321TFLOPS 的英偉達 A100 顯卡,組成了 720 個節點,總算力突破了 1.8EFLOPS,10PB 的存儲空間。
而在 2021 年的特斯拉 AI 日上,特斯拉自研的多芯片模組化(Multi-Chip Modularized)超級計算機正式亮相,其被命名為 Dojo,最初它主要服務于自動駕駛系統的數據标注以及訓練,後也被應用于機器人研發,特斯拉的人形機器人就搭載了 Dojo 的 D1 超算芯片。
D1 超算芯片是 Dojo 系統的基礎。該芯片采用 7 納米制造工藝,處理能力為 1024 gigaflops,即每秒 1024 億次。1500 枚 D1 芯片可組成陣列,而将 25 個陣列放在一塊晶圓上,便能形成訓練模組 ( Training Tile ) ,這便是 Dojo 超級計算機的單元核心。
到了 2022 年的特斯拉 AI 日上,特斯拉正式公布了由 D1 芯片組成的 Dojo ExaPod,即 Dojo 集群,該集群内含 120 個訓練模組 ( Training Tile ) 、3000 個 D1 芯片。其擁有 13TB 靜态随機存取記憶體容量以及 1.3TB 高傳輸頻寬記憶體容量,算力高達 1.1EFLOP。
據介紹,Dojo 由 " 圖塊 " 組成,工作方式與基于 CPU 或基于 GPU 的超級計算機有很大不同。特斯拉稱,Dojo 的 D1 芯片模塊并不是由很多較小的芯片組合在一起,而是一個具有 354 個内核的大型芯片組成,專門針對 AI 和機器學習,每個 Dojo 機櫃可容納 4248 個内核,10 個機櫃的組成的 exapod 可容納 42480 個内核。因此對于相同的數據中心占用空間來說,Dojo 要比 CPU 或者 GPU 快幾個數量級。
Dojo 不僅會幫助加速 FSD 訓練,還将負責管理特斯拉汽車的數據處理,根據特斯拉 CEO 馬斯克所說,特斯拉會同時應用英偉達 H100 GPU 超算集群和 Dojo 超算集群,此舉将為該公司在汽車行業提供無與倫比的計算能力。
單論 H100 超算集群的數量,特斯拉可能還無法和谷歌微軟相媲美,但 Dojo 自研芯片無疑是它最大的底氣之一,在自動駕駛浪潮來臨之際,特斯拉這兩大利器,已經足夠讓它成為目前算力最強大的公司之一,笑傲于數千家車企之中。
新銳企業
在組建超算集群這件事上,巨頭們争先恐後,而其他新銳也不甘示弱,甚至由于他們和英偉達的良好關系,這方面反而具備了自身的優勢。
成立于 2017 年總部位于紐約的 CoreWeave 就是這樣一家新銳企業,此前專注于加密貨币 " 挖礦 " 市場的它,在過去幾年時間實現了轉型,瞄準了人工智能領網域,開始提供基于圖形處理單元 ( GPU ) 的雲計算服務,今年早些時候,它還獲得了英偉達的 1 億美元投資。
根據官網介紹,CoreWeave 目前可以通過搭建的英偉達 A100 和 A40 GPU 集群提供虛拟化算力,可讓用戶訪問超過 45000 個 GPU,被認為是市場上運行人工智能模型的最佳選擇。
而這家公司近期聯合英偉達,以及新興 AI 企業 Inflection AI,開始建造全球最大的 AI 超算集群,該集群由 22,000 個英偉達 H100 GPU 組成,在 16 位精度模式下可以達到 22 exaFLOPS 的運算能力,使用低精度模式,其運算能力還會進一步提高,對照 TOP500 超級計算機列表,這台全新的超算集群将位列第二,僅次于榜首。
而另一家接受英偉達 3 億美元投資的新銳企業 Lambda Labs 同樣不容忽視,這家美國雲服務初創公司由 Michael Balaban 和 Stephen Balaban 兩兄弟于 2012 年創立,早年業務重點是銷售 GPU 驅動的計算機,後轉型為 GPU 雲伺服器租賃,公司的年收益從千萬美元的規模上升至數億美元的規模。
而 Lambda labs 的規模雖然不大,但其号稱能提供全世界價格最低的 NVIDIA A100、H100 算力資源,與 CoreWeave 一樣是組建 AI 超算集群的主力之一。
這部分新銳在英偉達的支持下迅速崛起,成為了超算集群中不可忽視的一股力量。
總結
據不完全統計,目前國内已發布的各類大模型數量超過 100 個 , 一場 " 百模大戰 " 已經擺好了駕駛,而在大模型訓練的背後,最關鍵就是算力,截至 2022 年底 , 我國算力總規模達 180EFLOPS , 目前居全球第二位,但即便是如此龐大的算力,與目前各類模型訓練的需求仍然不成正比,算力缺口反而在今年進一步擴大。
除了美國外,英國政府斥資 9 億英鎊,用于構建一台百億億級超級計算機,旨在打造全球最先進的語言模型—— BritGPT;人工智能初創公司 Cerebras Systems 宣布将攜手阿聯酋集團 G42 打造一個由 9 台互聯的超級計算機組成的網絡,目前第一台 AI 超級計算機—— "Condor Galaxy 1(CG-1)" 開始部署,AI 算力高達 4 exaFLOPS(每秒 4 百億億次);日本經濟產業省将通過其附設的研究機構引進一台新的尖端超級計算機,其計算能力大約是現有機器的 2.5 倍,通過雲服務将這台超算提供給開發生成式 AI 的日本國内企業 …… 說是千帆競逐也不為過
當我們再放眼國内,今年 4 月,騰訊雲正式發布新一代 HCC 高性能計算集群,國内首發搭載英偉達最新的 H800 GPU,采用業界最高的 3.2T 互聯帶寬;2023 年阿裡雲将推出一款更接近雲計算終極形态的算力產品,這款被命名為通用 Universal 實例的產品進一步屏蔽了傳統 IT 的硬體參數;百度新建設的陽泉智算中心是亞洲最大單體智算中心,建設規模為 4 EFLOPSAI 算力 …… 幾家巨頭早已把超算列上了重要日程。
更值得我們關注的是,過去的超算架構主要以 CPU 為主,但這種傳統基礎設施架構下的算力已經無法滿足目前模型訓練的需求,只有建設大規模 GPU 超算集群,才能真正意義上解決大模型訓練的後顧之憂。
可以看到,老牌巨頭中,不管是微軟谷歌,還是 Meta AWS,把組建超算集群當作了重要目标之一,他們甚至早在 10 年前就發覺了這種趨勢,在這方面均已有所布局,而特斯拉 CoreWeave 這樣近年才崛起的新貴,更是全力押注算力,一手自研一手采購,迅速填補自身的算力缺口。
這時候問題就來了,誰能掌握算力,拿下通往未來的第一張船票呢?
參考來源:
集成 10000 個 H100,特斯拉最強集群上線——半導體行業觀察
Meta 與 NVIDIA 聯合打造大型 AI 研究超級計算機——英偉達
How Microsoft ’ s bet on Azure unlocked an AI revolution ——微軟