今天小編分享的科技經驗:黃仁勳:華為是英偉達在AI芯片領網域“非常強大”的競争對手,歡迎閲讀。
12 月 6 日消息,英偉達首席執行官黃仁勳今日表示,在生產最好的人工智能芯片的競争中,華為是英偉達 " 非常強大 "(very formidable)的競争對手之一。
周三,黃仁勳在新加坡接受采訪時表示,華為、英特爾和不斷壯大的半導體初創公司對英偉達在人工智能加速器市場的主導地位構成了嚴峻挑戰。
" 我們在中國和國外都有很多競争對手," 黃仁勳説。" 我們大多數競争對手并不關心我們在哪裏,無論我們走到哪裏,他們都想與我們競争。"
英偉達的芯片已成為人工智能熱潮中最受追捧的商品,因為它們為訓練大數據模型(例如支持 ChatGPT 的模型)提供了最有效的方法。
黃仁勳今日早間還表示,英偉達正考慮在新加坡進行重大投資。
12 月 5 日,黃仁勳宣布,英偉達将在日本建立一個人工智能(AI)研究實驗室,并在當地打造一個 AI 工廠網絡。(易句)
延伸閲讀:
貓鼠遊戲中的英偉達
來源 : 硅星人
自步入人工智能時代以來,中國一直是英偉達的大客户。
2022 年,英偉達銷售數據中,25% 來自中國客户,尤其是一些互聯網大廠,他們對英偉達的算力產品,比如 H800,可以説是瘋狂買買買。
但是随着美國在 2023 年 10 月更新了先進半導體和計算設備的出口管制,英偉達中國特供版 GPU A800 和 H800 都将在 11 月 17 号後禁止出口中國。而且更難處理的是,華盛頓新的出口管制下,幾乎絕大多數高算力產品都不再能出口中國了。
不過英偉達有他們的小心思,25% 的巨大收入來源不可能説斷就斷,所以英偉達決定要和美國政府來一場貓鼠遊戲,要在這只貓的眼皮底下,偷走奶酪。于是英偉達開始布局一款新的產品—— H20。注意,這個 H20 是 "H" 和 " 二十 ",不是水分子的化學式。
H20 這款產品的浮點運算能力僅有 296TFLOPs,性能密度只有 2.9。這意味着它從紙面上看已經是一款超低性能產品,然而有意思的事情來了,如此低性能的產品,依然有公司會買,而且它繼續引發美國的監管部門以及英偉達競争對手的恐慌。在硅星人此前的文章《》中已經提到,英偉達的美國對手批評它不夠美國,而英偉達認為這些批評不合邏輯;而最近的消息是,美國商務部長 Gina Raimondo 又點名英偉達,警告它停止為中國設計繞過出口管控的 AI 芯片。
所以,這個貓鼠遊戲裏,英偉達到底是如何做的?
3A090 裏的文字遊戲
3A090,是華盛頓出口管制中的 ECCN 編碼物項。3A090 特指特定高性能集成電路,當一顆芯片輸入輸出雙向傳輸速率超過每秒 600GB,或算力超過 4800TOPS 時就屬于 3A090,也就意味着禁止向中國出口。
上一次美國規定先進半導體出口措施的時候,英偉達旗艦產品 A100 和 H100 都被劃在了禁止向中國出口的列表當中。英偉達當時采取的措施是推出低配版、但是同架構、且同樣配備高帶寬插槽版本(也就是 SXM 版本)的 A800 和 H800。這兩塊產品在性能上和原版的 A100、H100 幾乎完全一致,甚至連内存芯片用的也都是 HBM2e 和 HBM3 這種當時的頂級内存芯片。頗有種孫悟空和六耳猕猴的感覺。
在上一次禁令發布的時候,美國只是對產品的具體型号做出了禁止出口的規定,這才有了 H800 和 A800 這種李逵李鬼的情況。所以這次新規就加入了更為嚴格的限制,規定了算力總和以及性能密度,所有人工智能產業能用到的高端張量計算 GPU 全都被劃進了限制。
説得更直白一點,高性能的 GPU 不讓賣,低性能的 GPU 買了也沒用。
然而有意思的事情來了,禁令所限制的兩個詞匯 " 性能密度 " 和 " 總算力 ",其實是一個文字遊戲。
什麼是性能密度?國際上有兩個説法,第一個是人工智能公司常用的,浮點計算能力 FLOPs,也就是每秒浮點操作數除以部門面積内的晶體管數量得來的。第二個是 MIPS,也就是每秒百萬指令數除以部門面積内的晶體管數量得來的。
我們都清楚一個道理,那就是 " 大人時代變了 "。就拿英偉達剛推出的新品 H200 所搭載的 HBM3e 來説,這顆芯片采用了一種 3D 技術,通過立體空間堆疊的方式增加内存。如果只按面積來説,那這顆芯片的性能密度就很高,但是要按體積算,這顆芯片的性能密度也挺高,只是沒有按面積算那麼高而已。所以如果想要性能密度這個數字越小,算的時候以體積為部門就可以了。畢竟除法嘛,分母越大結果越小。
另外 MIPS 通常比 FLOPs 大,因為在計算過程中除了浮點,還有整數類型(INT)的運算。而且浮點自己還囊括了單精度(32 位)、雙精度(64 位)等以所需存儲空間來劃分的類型。因為傳統 FLOPs 計算方式,往往只會統計單精度和雙精度,因此一顆張量計算用的 GPU,在數據測試的時候,也可以只報單精度、雙精度的浮點,這樣無論是它的 MIPS 還是 FLOPs 都會很低。畢竟除法嘛,分子越小結果越小。
總算力這塊能玩的花活就更多了。總算力,這個詞指的是每個核心的時鍾速度總和。英偉達 H20,或者説整個 H 系列所采用的 Hooper 架構,它都是有多種核心的,比如專門用來做張量計算的 TensorFloat32 核心,還有腦浮點(BF16)核心。那剛才咱們聊了,計算 FLOPs 時,可以只計算單精度,雙精度,也就意味着它在算力總和的測試中,就可以只計算單精度和雙精度核心,而不再啓用上述的這些張量計算核心。畢竟自然數加法嘛,加數越少結果越小。
綜上,作為一個算力芯片廠商,他們可以很簡單地把芯片數據弄得很低。這只是一種可能的假説,因為英偉達的最終目的不是通過 3A090 的限制,他是要把產品賣出去,賺取利潤。一個性能極低的產品根本沒有市場銷路,就算設計出來了也沒有實際的價值。
H20 背後的真正秘密
區區是一張中上遊的遊戲顯卡 RTX 4080,它的浮點運算能力都能達到 320TFLOPs,同時 RTX 4080 的性能密度有 6.8。H20 尊為一個張量計算用的 GPU,296 的浮點和 2.9 的性能密度,就好像是一個超級富二代獨生子,從出生開始就享受世界上最優質的資源,頓頓早餐吃的煎餅果子都能加倆雞蛋,喝酸奶從來用不着舔蓋,結果到頭來算個 10 以内加減法都能把 CPU 幹冒煙了。
可我要是説 H20 的 Die 足足有 814 平方毫米,和 H100 完全相同,閣下應該如何應對?這并不是好鋼用在刀背上,相反這正是 H20 的隐藏屬性。也正因此,才讓我更加相信,英偉達在 H20 的數據上,存在一些貓膩。
Die 指的是芯片的裸晶,一般來説,越是性能優越的芯片,Die 尺寸就會越大。比如 RTX 4080 的 Die 尺寸是 379,而目前性能最好的遊戲顯卡 RTX 4090 的 Die 尺寸是 609。因此,H20 實際上并不是低端芯片,至少從芯片的制程來講,H20 是站在第一梯隊的。
老鼠沒有貓力氣大,速度上也不占優勢,如果老鼠不想被貓抓住,那就要想方設法地躲起來,不暴露自己。
誠然,H20 的浮點運算能力很低,可是 H20 SXM 的内存足足有 96GB,更恐怖的是它的帶寬來到了 4Tbps。相較之下,1979TFLOPs 浮點運算能力的 H100 SXM 只有 80GB 的内存和 3.4Tbps 的帶寬。在人工智能領網域,尤其是現在火熱的大語言模型中。内存是影響模型運行的關鍵,每 10 億參數就要消耗 3 到 5GB 的内存,如果内存溢出則會嚴重影響模型的質量,產生不可預估的後果。那也就是説,在面對實際應用的時候,H20 能比 H100 承擔更大規模的大語言模型。
可能你會問了,H20 的浮點運算能力不行啊,光有内存沒用,跑的速度會慢。如果是 2022 年,那這的确是個大問題,畢竟沒有人工智能公司會考慮低效率的 GPU,這樣做會拖垮整個訓練過程。可是 2023 年,英偉達的 TensorRT-LLM 已經問世,并且擁有 TensorRT-LLM 功能的 H200 即将要在 2024 年發售了。
TensorRT-LLM 是一個幫助 GPU 快速解決復雜計算的優化軟體,搭載在 GPU 内部,類似于遊戲顯卡驅動一樣。以 H100 為例,使用 TensorRT-LLM 後的 H100,在對一些媒體網站進行文章摘要時的工作效率,比使用前快出整整 1 倍。而在 700 億參數的 Llama2 上,前者比後者快 77%。目前流通在市面上的 A800 也好,H800 也好,都沒有搭載 TensorRT-LLM 功能。H20 很有可能,或者説板上釘釘的會搭載 TensorRT-LLM。
英偉達雖然一直以硬體銷售為主,然而其軟體能力非同小可。比如 DLSS,這是一種專門用來 " 欺騙 " 軟體。不過 DLSS 所騙的目标并不是用户,而是顯卡。當計算機需要大量圖形計算時,DLSS 會把圖形以極低分辨率的形式交給顯卡,它去騙顯卡説:" 你幹這麼點活就得了,剩下的不用你操心 ",再通過 DLSS 技術還原成高分辨率的圖形,這會大幅減輕顯卡的壓力,進而提升畫面效果。
回到現在,TensorRT-LLM 也是一個給 GPU 減壓減負的軟體技術,這就讓 GPU 能夠表現出本不該屬于它的性能。此外,如果英偉達真的隐藏了 H20 的真實數據,實際上 H20 的表現力很有可能會超過 H100。
你以為英偉達是壁虎,斷尾求生。實際上英偉達壓根不打算 " 閹割 ",他們想的是換一種方式,繞過監管,達到目的。畢竟,如果 H20 算力很低,就算可以出口中國,也沒有買家願意購買這樣的產品。當貓堵住了一個老鼠洞,老鼠還是能有辦法溜出來,因為不可能只有一個出口。
不只是英偉達自己的貓鼠遊戲
英偉達有個好朋友叫做 SK 海力士,英偉達最新旗艦產品 H200 SXM 上的内存芯片 HBM3e,就是 SK 海力士的。目前他們正聯手開發 HBM4,以颠覆整個產業。英偉達也是 SK 海力士最大的客户之一,如果英偉達失去了中國市場,那麼 SK 海力士的損失也會是巨大的。
最重要的是,GPU 是一個橫跨軟硬體兩個領網域的事情,造就了一個附加值極高的交易體系。比如英偉達的 Hooper 架構,也就是 H100、H200、H800、H20 所采用的架構,多種同架構的 GPU 并聯在一起,能夠更好地分配計算資源。一般來説,人工智能企業都是買很多塊 GPU,而不是就買一塊。所以當人工智能公司進行算力擴展的時候,GPU 的第一個附加價值就體現出來了,它會要求人工智能公司只能接着購買該公司的 GPU 產品。
第二個附加價值在于算法的開發,不同的 GPU 產品,比如 AMD 的 MI,英特爾的 Gaudi,他們的差别不只有浮點運算能力、性能密度這些,還有指令集、邏輯芯片、底層語言上的差異等等。一個能在 H100 上運行的算法,不一定就完美适配 MI300X。換言之,如果開發伊始就是基于某公司產品的話,後續的開發大概率也只能基于同公司,甚至是同架構的產品。
第三個附加價值是反向的,由人工智能公司給予 GPU 公司。在算法的開發過程中總是會遇到各種各樣的難題,當這些難題反饋給 GPU 公司時,GPU 就會清楚下一代產品應該做怎樣的改進。就比如上文説的 HBM4,英偉達和 SK 海力士要非常清楚目前 GPU 在當前場景下還有哪些不足,才能做出足以颠覆產業的產品。
正是這些附加價值,綁定了 GPU 公司和人工智能公司,形成了復雜的裙帶關系。所以英偉達不能失去中國市場,不單單是為了 25% 的銷售額,還有比銷售數字更重要的這些附加價值。中國的人工智能水平增長非常迅速,英偉達深知其中的利害。
在貓鼠遊戲中,老鼠之間也會互相打配合,有些負責吸引貓的注意力,有些負責搬運奶酪。還有一點,貓和老鼠都明白兩者雖然對立,但是存在着一個用來維持雙方平衡的灰色空間,既不黑也不白,兩者都能生存。貓不能一下子将老鼠全抓死,那樣貓就失去了作用,老鼠也不能太猖狂,那樣會壓縮貓的生活空間。