今天小編分享的科技經驗:NVLink,英偉達的另一張王牌,歡迎閱讀。
美國商務部的口風越來越緊,逼得黃式刀法重出江湖:多方證實,英偉達即将推出三款特供版 GPU,由于出口管制,性能最強的 H20,相較 H100 算力也大幅縮水 80%。
算力被限制死,英偉達也只能在其他地方做文章。H20 的最大亮點落在帶寬:
帶寬達到與 H100 持平的 900G/s,為英偉達所有產品中最高。較 A100 的 600G/s,和另外兩款特供芯片 A800 和 H800 的 400G/s 大幅提高。
閹割算力,提升帶寬。看似割韭菜,實則含金量不低。
H20 踩着紅線免受制裁
簡單來說,帶寬的大小決定了部門時間向 GPU 傳輸的數據總量。考慮到人工智能對數據吞吐能力病态的要求,如今衡量 GPU 的質量,帶寬已經成為算力之外最重要的指标。
另一方面,雲服務公司和大模型廠商不是只買幾顆芯片,而是一次性采購幾百上千張組成集群,芯片之間的數據傳輸效率也成了迫在眉睫的問題。
GPU 和 GPU 之間的數據傳輸問題,讓英偉達在芯片算力、CUDA生态之外的另一張王牌浮出了水面:NVLink。
數據傳輸,算力的緊箍咒
要理解 NVLink 的重要性,首先要了解數據中心的工作原理。
我們平時玩遊戲,一般只需要一塊 CPU 加一塊 GPU。但訓練大模型,需要的是成百上千個 GPU 組成的 " 集群 "。
Inflection 曾宣稱他們正在構建的 AI 集群,包含多達 22000 張 NVIDIA H100。按照馬斯克的說法,GPT-5 的訓練可能需要 3 萬到 5 萬張 H100,雖然被 Altman 否認,但也可以窺見大模型對 GPU 的消耗。
特斯拉自家的超算 Dojo ExaPod,就是由多個 Cabinet 機櫃組成,每個機櫃裡有多個訓練單元,每個訓練單元都封裝了 25 個 D1 芯片。一整台 ExaPod 包含 3000 個 D1 芯片。
但在這種計算集群中,會遇到一個嚴峻的問題:芯片彼此獨立,如何解決芯片之間的數據傳輸問題?
特斯拉的超算 ExaPOD
計算集群執行任務,可以簡單理解為 CPU 負責下達命令,GPU 負責計算。這個過程可以大概概括為:
GPU 先從 CPU 那裡拿到數據—— CPU 發布命令,GPU 進行計算—— GPU 計算完成,将數據回傳給 CPU。如此循環往復,直到 CPU 匯總所有計算結果。
數據一來一回,傳輸效率就至關重要。如果有多個 GPU,GPU 之間還要分配任務,這又涉及到數據的傳輸。
所以,假設一家公司買下 100 顆 H100 芯片,它擁有的算力并不是 100 顆芯片的算力簡單相加,還要考慮到數據傳輸帶來的損耗。
一直以來,數據傳輸的主流方案是的PCIe。2001 年,英特爾提出以 PCIe 取代過去的總線協定,聯手 20 多家業内公司起草技術規範,英偉達也是受益者。但時至今日,PCIe 的缺點變得越來越明顯。
一是數據傳輸效率被算力的提升遠遠甩在了後面。
從 2001 年到 2017 年,運算設備的算力提高了 5000 倍。同期,PCIe 迭代到 4.0,帶寬(單通道)只從 250MB/s 提高到 2GB/s,提升只有 8 倍。
算力的傳輸之間的巨大落差,導致效率大幅降低。就像擺了一桌滿漢全齊,餐具就給一個挖耳勺,怎麼吃都不痛快。
二是人工智能暴露了PCIe的設計缺陷。
在 PCIe 的設計思路裡,GPU 之間的數據傳輸都必須經過 CPU。換句話說就是 GPU1 想和 GPU2 交換數據,都得由 CPU 來分發。
這在以前不是什麼問題,但人工智能主打一個大力出奇迹,計算集群裡 GPU 數量迅速膨脹。如果每個 GPU 都要靠 CPU 傳話,效率就大大降低了。用大家很熟悉的話來形容,就是 " 你一個人耽誤一分鍾,全班同學就浪費了一個小時 "。
大幅提高 PCIe 的帶寬,不太符合英特爾擠牙膏上瘾的人設。大幅提高 CPU 的處理能力是個辦法,但英特爾要是有這個本事,英偉達和 AMD 活不到今天。
于是,深感時不我待的英偉達動了另起爐灶的心思。
2010 年,英偉達推出 GPU Direct shared memory 技術,通過減少一次復制的步驟,加快了 GPU1-CPU-GPU2 的數據傳輸速度。
次年,英偉達又推出 GPU Direct P2P 技術,直接去掉了數據在 CPU 中轉的步驟,進一步加快傳輸速度。
只是這些小幅度的技術改良,都基于 PCIe 方案。
和 CUDA 一樣,PCIe 的競争力在于生态。所謂 " 生态 ",核心就是 " 大家都在用你憑什麼搞特殊 "。由于大多數設備都采用 PCIe 接口,就算英偉達想掀桌子,其他人也得掂量掂量兼容性問題。
轉捩點出現在 2016 年,AlphaGo 3:0 戰勝李世石,GPU 一夜之間從荼毒青少年的遊戲顯卡變成了人工智能的科技明珠,英偉達終于可以光明正大的進村了。
NVLink,解開 PCIe 封印
2016 年 9 月,IBM 發布 Power 8 伺服器新版本,搭載英偉達 GPU:
兩顆 Power 8 CPU 連接了 4 顆英偉達 P100 GPU,其中數據傳輸的紐帶從 PCIe 換成了英偉達自研 NVLink,帶寬高達 80G/s,通信速度提高了 5 倍,性能提升了 14%。
Power8+P100 架構
同時,NVLink 還實現了 GPU-GPU 之間的直接傳輸,不帶 PCIe 玩了。
2017 年,基于 Power8+P100 的模型在 22K 的 ImageNet 數據集上實操了一把,識别準确率達到 33.8%,雖然準确率相比前一年只提高了 4%,但訓練時間從 10 天大幅縮短到了 7 小時。
小試牛刀效果不錯,老黃也不準備再裝了。
從 2017 年的 Volta 架構開始,英偉達給每一代 GPU 都搭配了基于 NVLink 方案的 NVSwitch 芯片,用來處理 GPU 之間的數據傳輸。
NVLink 和 NVSwitch 的關系,可以簡單理解為:NVLink 是一種技術方案,NVSwitch 和 NVLink交換機都是這種方案的載體。
目前最新的 DGX H100 伺服器中,每台伺服器擁有 8 個 H100 GPU、4 個 NVSwitch 芯片相互連接。
帶有标注的 NVSwitch 芯片裸片
在 DGX H100 伺服器發布的同時,英偉達還發布了搭載兩個 NVSwitch 芯片的 NVLink 交換機,用來處理 DGX H100 伺服器之間的數據傳輸。
也就是說,NVLink 不僅負責 DGX 伺服器内部 8 個 GPU 的連通,也負責整個伺服器之間每個 GPU 的數據傳輸。
按照英偉達的設計,一個 H100 SuperPOD 系統,會用到 32 台伺服器總共 256 個 H100 GPU,算力高達 1EFlops。每套系統搭配 18 台 NVlink 交換機,加起來就是 128 個 NVSwitch 芯片。
如上文所說,一個集群的算力并不是每個GPU算力的簡單相加,伺服器間的數據傳輸效率是主要的制約因素。當集群的規模越來越大,NVLink的重要性也就越來越強。
NVLink 漸成氣候,老黃的野心也逐漸成型:和 PCIe 拉幫結派搞生态不同,NVLink 必須綁定英偉達的芯片使用。當然,考慮到 PCIe 的既定生态,H100 系列中也有多個支持 PCIe 的版本。
為了擴張自己的勢力範圍,英偉達還推出了基于 Arm 架構的 Grace 伺服器 CPU,用英偉達的 CPU+ 英偉達的 GPU+ 英偉達的互聯方案,捆綁在一起,統一數據中心市場。
有了這一層鋪墊,就不難理解 H20 的殺傷力。
雖然算力被砍了一大截,應付不了大參數的模型訓練,但 H20 本身的高帶寬和 NVLink 的加持,可以組成更大的集群,在一些小參數模型的訓練和推理上,反而更具性價比。
在英偉達的示範下,AI的内卷也算力轉向了互聯技術。
互聯,AI 芯片的下半場
2023 年 11 月,AMD 發布預告已久的 MI300 系列,直接對标英偉達 H100。
發布會上,除了例行的紙面算力比較外,Lisa Su 重點強調了 MI300 帶寬上的遙遙領先:MI300X 帶寬高達 5.2TB/s,比 H100 還要高 1.6 倍。
這是實話,不過得先擠擠水分。
Lisa Su 用來與 MI300X 比較的是 H100 SXM 版,但性能更高的 H100 NVL 版通過 NVLink 集成兩顆 GPU 帶寬達到 7.8TB/s,仍高于 MI300X 的。
但這足見 AMD 對帶寬的重視程度,以及 AI 芯片競争的新焦點:互聯技術。
英偉達發布 NVLink 的幾個月後,AMD 就推出了高速互聯技術 Infinity Fabric,提供 CPU-CPU 之間最高到 512GB/s 的帶寬,後又擴展到 GPU-GPU、CPU-GPU 互聯。
看着兩大競争對手甩開帶寬的包袱放飛自我,英特爾作為 PCIe 的帶頭大哥,自然心情復雜。
2019 年,英特爾聯手戴爾、惠普等推出新的互聯标準 CXL,本質與 NVLink 和 Inifinity Fabric 一樣,都是為了擺脫帶寬掣肘,2.0 标準最高帶寬可達到 32GT/s。
英特爾的心機在于,由于 CXL 是基于 PCIe 擴展的,因此和 PCIe 接口兼容。也就是說,過去用 PCIe 接口的設備可以 " 無痛 " 改用 CXL,生态大法又立了大功。
芯片巨頭圍繞互聯技術鬥得正歡,轉而自研芯片的AI大廠,也在解決互聯問題。
谷歌在自家 TPU 上采用了自研的光電路交換機技術(OCS),甚至還自研了光路開關芯片 Palomar,只為了提高數據中心裡幾千顆 TPU 之間的通信速度。特斯拉也自己開發了通信協定,處理 Dojo 内部的數據傳輸。
回到本文開頭,也正是這種差距,才讓 NVLink 成為了英偉達的新 " 刀法 "。
大模型所需的算力,并非國產 AI 芯片不可觸及,但數據傳輸技術瘸腿依然會造成不可忽視的成本問題。
舉一個不太嚴謹的例子,來幫助大家理解這個問題:
假設 H20 和國產 AI 芯片的單價都是 1 萬元,一顆 H20 提供的算力是 1,國產芯片提供的算力是 2,但考慮到集群規模帶來的算力損耗,由于 NVLink 的存在,H20 的損耗是 20%,國產芯片是 50%,那麼一個算力需求 100 的數據中心,需要 125 顆 H20 或是 200 顆國產芯片。
在成本上,就是 125 萬和 200 萬的差距。
模型規模越大,數據中心所需的芯片越多,成本的差距就越大。要是黃仁勳狠狠心,刀法再犀利些,或許還可以賣出更低的價格。如果你是國内 AIGC 廠商的采購總監,你怎麼選?
互聯技術上的弱勢,創造了英偉達的另一張王牌。
按照當前的消息,原本 11 月發布的 H20 已經延後到明年第一季度,接受預定、出貨時間也将順勢延後。延遲發布的原因并不确切,但在 H20 正式開售前,留給國產芯片的機會視窗,已經在倒計時了。
英偉達的偉大在于,它以高度的前瞻性,幾乎以一己之力開辟了一條人工智能的高速公路。
而它的成功在于,黃仁勳在每一個你可能經過的車道,都提前修好了收費站。