49152 個GPU！Meta最新算力集群曝光，扎克伯格：算力，算力，還是 Meta 的算力

今天小編分享的科技經驗：49152 個GPU！Meta最新算力集群曝光，扎克伯格：算力，算力，還是 Meta 的算力，歡迎閲讀。

Meta 近日披露了兩個新的 GPU 集群，将用于訓練下一代生成式人工智能模型，包括即将推出的 Llama 3，以及 GenAI 和其他領網域的人工智能研究與開發。新的集群在硬體、網絡、存儲、設計、性能和軟體等方面進行了定制優化。

Meta 公布的兩個 GPU 集群 GPU 總共擁有 49152 個 GPU，每個集群都裝配了 H100 GPU，而 Meta 此前 AI 研究超級集群 ( RSC ) GPU 集群約有 16000 個 A100 GPU 。RSC 在 Llama 和 Llama 2 的開發以及計算機視覺、NLP、語音識别、影像生成、編程等人工智能模型的開發中發揮了重要作用。

PyTorch 創始人，Meta 工程師 Soumith Chintala 在 X 上分享了關于 Llama 3 的一些細節：使用了 RoCEv2 網絡，基于 T ectonic/Hammerspace 的 NFS/FUSE 網絡存儲，标準版本的 PyTorch，帶有一些補丁的 NCCL：補丁和交換機優化使集群具有相當高的網絡帶寬實現，各種調試和隊列監控工具，例如 NCCL 異步調試、内存行重新映射檢測等。

Meta 表示将使用新的 GPU 集群來微調現有的人工智能系統，并訓練更強大的新系統，包括 Llama 3。此外，Meta 還透露正在對 PyTorch 人工智能框架進行更新，為支持更大規模的 GPU 訓練需求做準備。

在算力軍備的路上越走越遠

新的 GPU 集群是 Meta AGI 路線圖的一部分，目标是到 2024 年底，基礎設施建設将包括 350,000 個 NVIDIA H100 GPU，計算能力相當于将近 600,000 個 H100 GPU。作為對比，OpenAI 訓練 GPT-4，用了大約 25000 個 A100 GPU。而訓練 GPT-5 預估需要 30000 到 50000 A100。

要保持在 AI 領網域的領先地位，意味着對基礎設施的大量投資，對于 Meta 來説，軍備還遠未結束。根據市調機構 Omdia 發布的報告，Meta 在 2023 年買了超過 15 萬塊 NVIDIA GPU，與之相當的只有微軟，而亞馬遜、甲骨文、谷歌、騰訊等都只拿到了 5 萬塊左右。2024 年 Meta 預計将購買超過 35 萬塊英偉達 H100 GPU，H100 售價為 2.5 萬至 3 萬美元（不考慮溢價），如果 Meta 支付的是較低的價格區間，那麼将支付給英偉達接近 90 億美元。

在 Dot-com 泡沫時代，任何人都可以以相對較低的基礎設施成本啓動一個網站，個人開發者和初創企業能夠借助普及的智能設備和移動網絡，在不同成本的範圍内推出產品和業務。而現在，似乎只有那些互聯網巨頭和明星創業公司才能構建 AI 模型。所有這些公司都從投資者那裏拿錢，然後再把錢交給雲計算公司和英偉達，這或許就是為什麼英偉達的股價在如此短時間内超過 2 萬億美元的原因之一。

更多架構細節

關于這兩個 GPU 集群的具體架構細節，雖然這兩個集群的 GPU 數量相同，通過 400Gbps 端點相互連接，但采用了不同的架構設計。網絡方面，其中一個集群采用了一個集群采用了具有融合以太網遠程直接内存訪問 ( RDMA ) ( RoCE ) 網絡結構解決方案，另一個則使用了 Nvidia 的網絡架構技術 Quantum2 InfiniBand。

采用 RoCE 的 GPU 集群是迄今為止使用商用以太網基礎設施建立的最大的 H100 GPU 集群

這兩個集群均采用 Meta 的開源 GPU 硬體平台 Grand Teton 構建，該平台專為支持大規模 AI 工作負載而設計。據稱，Grand Teton 的主機到 GPU 帶寬是前代 Zion-EX 平台的四倍，計算和數據網絡帶寬是兩倍，功率需求也是兩倍。

Meta 表示，這些集群整合了其最新的 Open Rack 電源和機架基礎架構架構，旨在為數據中心設計提供更大的靈活性。根據工程師們的説法，Open Rack v3 允許電源架可安裝在機架的任何位置，而不是固定在母線上，從而實現更靈活的配置。

存儲在 AI 訓練中起着重要作用，尤其是處理大量的影像、視頻和文本數據的多模态訓練任務。存儲方面，Meta 新集群使用自主開發的 "Tectonic" 分布式閃存存儲解決方案滿足數據和檢查點需求，并與 Hammerspace 合作部署并行網絡檔案系統，解決了數千個 GPU 數據和檢查點的需求。提高開發體驗。

優化整個系統（軟體、網絡等）後，大型集群性能恢復到理想的 90%+ 範圍

性能方面，Meta 建立大規模 AI 集群的原則是同時最大化性能和易用性，通過優化内部作業調度器和網絡路由策略，以及與 NVIDIA 集體通信庫（NCCL）的改進，提高了大型集群的性能，實現了與小型集群相同的優秀性能。在實際測試過程中，Meta 比較了小型集群和大型集群的性能，以發現瓶頸所在。在上圖表中，展示了大量 GPU 在預期的屋頂線性能消息大小下相互通信時的 AllGather 集體性能（以 0-100 的标準化帶寬表示）。

大型集群的開箱即用性能最初很差且不一致。為了解決這個問題，Meta 對内部作業調度器如何根據網絡拓撲感知調度作業進行了多項改進，這在減少網絡上層流量方面帶來了延遲上的好處。

Meta 官方博文中的一個小标題，網友：我懂你意思

Meta 還提到，公司将繼續全力支持在人工智能硬體技術棧方面的開放創新，Meta 強調了對開放式計算和開源技術，新的集群均基于 Grand Teton、OpenRack 和 PyTorch 等平台構建而成。

離 Llama 3 更進一步

在 AI 領網域，Meta 去年推出了大型語言模型 Llama 2、定制芯片 MTIA、文生圖廣告工具以及聊天機器人 Meta AI 。

其中，Llama 2 的發布以及開源可商用是開源模型社區的裏程碑，扎克伯格曾表示，雖然 Llama 2 不是行業領先的模型，但它是最好的開源模型，而 Llama 3 及以後的版本的目标是構建處于行業領先地位的模型。

根據 The Information 的報道，Meta 計劃于 7 月發布 Llama 3，可能達到超 1400 億參數，比 Llama 2 模型的最高參數翻了一倍。據内部人士透露，Llama 3 相對于 GPT-4、Gemini 和 Llama 2，放寬對安全限制的設定，即所謂的 " 安全圍欄 "。這意味着在處理具有争議性的問題時，Llama 3 旨在提供更好的回答。Meta 的這一舉措顯然是希望至少能夠提供有關用户查詢的相關上下文，而不是簡單地忽略或拒絕回答用户提出的問題。簡而言之，目的是提升用户體驗，通過提供更多信息，而不是簡單地限制對話。

新的基礎設施，更多的 GPU 儲備，扎克伯格 All in AGI 似乎比投入元宇宙更靠譜，股價也迎來上漲，招聘 AI 人才時也可以底氣更足地説自己是 "GPU RICH"，看上去一切都走上了正軌。