今天小編分享的科學經驗:英偉達H100殺瘋了:11分鍾訓完GPT-3,霸榜8項測試,集群性能逼近線性增長,歡迎閱讀。
11 分鍾内訓練一遍 GPT-3,8 秒訓完 BERT。
這就是英偉達給 AI 圈的一點 " 小小震撼 "。
在最新 MLPerf 訓練基準測試中,英偉達 H100 集群,橫掃八項測試,全部創下新紀錄,并且在大語言模型任務中表現尤為突出!
在大語言模型任務中,H100 集群的加速性能逼近線性增長。
即随着集群處理器數量增加,加速效果也幾乎同比增加。
這意味着在集群内 GPU 之間的通信效率非常高。
除此之外,H100 還完成了推薦算法、CV、醫學影像識别以及語音識别等任務,是唯一一個參加 8 項測試的集群。
而在算力就是生產力的時代下,這波成績意味着什麼,懂得都懂。
據悉,本次測試系統由英偉達和 Inflection AI 聯合開發,在雲廠商 CoreWeave 上托管。
單節點性能增長明顯
這次 MLPerf Training v3.0 中增加了兩項新任務:
大語言模型(基于 GPT-3)
推薦算法
這意味着測試任務包含了更大的數據集和更先進的模型。
如上刷新各項記錄的,是由3584 塊H100 組成的超大集群。
它的具體成績如下:
這是本輪測試中,英偉達拿出的最大集群。
實際上他們還提交了一個包含 768 塊 H100 的集群進行測試,并分别在雲上和本地部署。
結果顯示二者性能幾乎完全相同。
更進一步還論證了随着集群中顯卡數量的增加,其性能提升可以接近線性增長。
(NVIDIA Pre-Eos 為本地部署,NVIDIA+CoreWeave 為雲上部署)
除此之外,這輪測試中英偉達還刷新了單節點加速記錄。
和 6 個月前 MLPef Training v2.1 的數據比較,單個 DGX H100 系統(8 塊 H100 組成)在各項任務中平均提速 17%。
和 A100 Tensor Core GPU 相比,最高能提速3.1 倍(BERT 任務)。
這些加速效果的實現,主要得益于兩個方面。
一方面是H100 本身就足夠強悍。
H100 基于最新Hopper 架構,采用台積電 4nm 工藝,集成 800 億個晶體管,較 A100 增加了 260 億個。
内核數量達到前所未有的 16896 個,是 A100 的 2.5 倍。
由于面向 AI 計算,H100 中專門搭載了 Transformer Engine,讓大模型訓練速度可直接 × 6。
另一方面則是依賴集群内的加速網絡。
這裡使用的是英偉達Quantum-2 InfiniBand網絡,是該網絡架構的第七代。
官網介紹,加速網絡能夠提供軟體定義網絡、網絡内計算、性能隔離、優越加速引擎、RDMA 和最快達 400Gb/s 的安全加速。
據悉,共有 90 個系統參與最新一輪測試,其中 82 個使用了英偉達的 GPU,英特爾方面有 7 個系統參與。
英特爾的加速系統使用了 64-96 Intel Xeon Platinum 8380 處理器和 256-389 Intel Habana Gaudi2 加速器。
其高配系統完成 LLM 的訓練時間為 311 分鍾。
基于這次報告的測試結果,有分析師表示他感受到的最大震撼不是 H100 本身的性能,而是在雲上訓練 AI 實現的卓越效果。
那麼這次和英偉達合作的雲廠商 CoreWeave 是誰?聯合開發系統 Inflection AI 又來者何人?
計算集群還會進一步擴大
首先來看CoreWeave。
它成立于 2017 年,是一家大型雲廠商,号稱提供業内最快、最靈活的大規模 GPU 計算資源,提供渲染、機器學習等雲上方案,速度比大型公共雲快 35 倍,成本低 80%。
而這家雲廠商很受科技巨頭青睐,英偉達在此之前沒少 cue 過它。
5 月,CoreWeave 拿下 2 億美元融資,主要來自對衝基金 Magnetar Capital,B 輪總融資額達到 4.21 億美元。
6 月,有消息稱微軟與 CoreWeave 籤署 AI 算力協定,用于計算基礎設施,未來數年内的投資金額可能數十億美元。
英偉達也向 CoreWeave 投資了 1 億美元,4 月時它的估值為 20 億美元。
另一家 AI 初創公司 Inflection AI 由 DeepMind 創始成員穆斯塔法 · 蘇萊曼(Mustafa Suleyman)等人創立。
這家公司成立于 22 年 3 月,已拿下 2.25 億美元融資,估值超 12 億美元。
公司已經開發出了一個大語言模型 Pi,正是在 H100 集群上訓練出來的。
據了解,Pi 的定位是幫助人類更好和計算機互動,它能通過聊天内容來逐漸了解用戶,然後提供更加個性化的回答,類似于個人智能管家的感覺。
Inflection AI 的最新 Blog 裡表示,基于目前的合作,他們計劃在未來幾個月内進一步擴大底層計算基礎設施的規模。
參考鏈接:
[ 1 ] https://blogs.nvidia.com/blog/2023/06/27/generative-ai-debut-mlperf/?continueFlag=685ee2dc8db6455efed731baa85e2741
[ 2 ] https://developer.nvidia.com/blog/breaking-mlperf-training-records-with-nvidia-h100-gpus/
[ 3 ] https://www.forbes.com/sites/stevemcdowell/2023/06/27/nvidia-h100-dominates-new-mlperf-v30-benchmark-results/?sh=62b226c35e99