今天小編分享的互聯網經驗:Nvidia H100 GPU 供需現狀:保守估計,還差43萬張!,歡迎閱讀。
最近,GPU Utils 更新了關于英偉達 H100 顯卡供需現狀的分析文章,裡面主要透露、總結了當前影響 GPU 的主流廠商擁有顯卡的數量以及對顯卡的需求量。
作者表示,考慮到訓練和推理性能,以及推理方面性價比,H100 是當下最受歡迎的 GPU(具體為 8-GPU HGX H100 SXM)。
GPU Utils 認為,保守估計,H100 的供給缺口達到 43 萬張。
本文簡要總結了一下文章核心數據供大家參考:
● OpenAI、特斯拉等廠商對 GPU 的需求量
● OpenAI、特斯拉等廠商擁有的 GPU 數量
● 供應瓶頸、其他核心數據
01「誰需要?」
需要 1000 張以上的 H100 或 A100 的公司:
1、訓練 LLM 的創業公司:
OpenAI ( 通過 Azure ) 、Anthropic、Inflection ( 通過 Azure 和 CoreWeave ) 、 Mistral AI;
2、雲服務提供商:
三大雲巨頭:Azure、Google Cloud、AWS;
另一個公有雲:Oracle;
更大的私有雲:例如 CoreWeave、Lambda;
3、其他大公司:
特斯拉;
需要 100 張以上的 H100 或 A100 的公司:
對開源模型進行大量微調的初創公司。
02「要多少?」
1、OpenAI 可能需要 5 萬張,Inflection 要 2.2 萬張,Meta 需要 2.5 萬張(也有人說 Meta 想要 10 萬張或更多)
2、大型雲廠商,每家可能需要 3 萬張(Azure、Google Cloud、AWS、Oracle)
3、Lambda 和 CoreWeave 以及其他私有雲可能總共需要 10 萬張
4、Anthropic、Helsing、Mistral、Character,每家可能要 1 萬張;
到這裡,需求量就已經達到了約「43.2 萬張」H100,以每塊約 3.5 萬美元計算,GPU 的價值約為「150 億美元」。
而這,還不包括像字節(TikTok)、百度、騰訊這樣需要大量 H800 的中國公司,以及一些需求正盛的金融公司:
如 Jane Street、JP Morgan、Two Sigma、Citadel 等金融巨頭,正從數百台 A100 或 H100 開始部署,逐步增加至數千張 A/H100。
03「有多少?」
OpenAI、特斯拉等廠商擁有的 GPU 數量。
大公司
1、GPT-4 可能在 1w-2.5w 張 A100 上進行的訓練,根據馬斯克的說法,GPT-5 可能需要 3w-5w 張 H100;
2、Meta 約有 2.1 萬張 A100;
3、Tesla 約有 7000 張 A100;
4、Stability AI 約有 5000 張 A100;
雲廠商
1、GPC 約有 2.5 萬塊 H100;Azure 可能有 1-4 萬塊 H100,Oracle 可能類似;(其中,Azure 的大部分 GPU 都将流向 OpenAI。)
2、CoreWeavw 有 3.5-4 萬塊 H100 ——不是現貨,而是預定的;
其他數據
1、Falcon-40B,在 384 個 A100 上進行訓練;
2、Inflection,在其 GPT-3.5 等效模型中使用了 3500 個 H100;
04「誰供應?」
1、瓶頸在哪?
供應;
2、誰在制造 H100?
台積電;
3、三星、英特爾可以代工嗎?
至少現在不行。目前,H100s 和其他 5nm 英偉達 GPU 均由台積電代工。
過去,英偉達曾嘗試讓三星代工,但後來換掉。未來,英偉達當然有可能與英特爾、三星合作,但短期無法緩解供給緊張。
05「其他核心數據」
1、人們需要哪些 GPU?
主要是 H100,具體來說,是 8-GPU HGX H100 SXM,因其在訓練和推理最快,且在推理方面性價比最高。
訓練方面,企業主要關注内存帶寬、FLOPS、緩存和緩存延遲、FP8 計算等附加功能、計算性能(與 Cuda 核心數量相關)、互連速度(如 InfiniBand)等,H100 比 A100 更受青睐,部分原因是緩存延遲較低和 FP8 計算等。
2、H100 比 A100 快多少?
16-bit 推理速度提高約 3.5 倍,16-bit 訓練速度提高約 2.3 倍。
3、為啥不買 AMD?
某私有雲 CEO:
從理論上講,一家公司可以購買一堆 AMD 的 GPU,但要讓一切正常運轉需要時間。
開發時間 ( 即使只要 2 個月 ) ,也可能就意味着比競争對手更晚進入市場。所以,現在英偉達的護城河是 CUDA。
另一家私有雲 CEO:
沒有人願意冒險部署 10,000 個 AMD GPU,這幾乎是 3 億美元的投資。
4、目前大家在使用什麼雲?
a. OpenAI: Azure
b. Inflection: Azure and CoreWeave
c. Anthropic: AWS and Google Cloud
d. Cohere: AWS
e. Hugging Face: AWS
f. Stability AI: AWS
g. Character.ai: Google Cloud
h. X.ai: Oracle
i. Nvidia: Azure
來源:硬 AI,原文标題:《Nvidia H100 GPU 供需現狀:保守估計,還差 43 萬張!》
本文主要參考(原文鏈接):
https://gpus.llm-utils.org/nvidia-h100-gpus-supply-and-demand/#which-gpus-do-people-need