今天小編分享的财經經驗:英偉達的“絕世武功”,歡迎閱讀。
作 者丨倪雨晴
編 輯丨張偉賢
當大家都在猜測英偉達還有多少增長潛力時,美東時間 7 月 13 日,英偉達股價再度大漲 4.73%,市值達到 11356 億美元(約合人民币 81071 億元),再創歷史新高。
" 現在公司大部分資源都集中在大模型建設,最近我們采購的一批英偉達 GPU 馬上到貨,内部早已分配完畢。" 近日,一家 AI 企業員工向 21 世紀經濟報道記者描繪了芯片供應的緊張之勢。
眼下,算力產業鏈正面臨新一輪 " 缺芯 "。產業鏈上的企業們要登上超高算力的舞台、要在 AI 江湖中立足,英偉達 GPU 是稀缺的入場券。
當 A100 和 H100 因為美國禁令而停供後,英偉達重新定制的 800 系列在國内被廠商瘋搶,100 系列的庫存 GPU 價格也一路走高。有產業鏈人士告訴記者:" 今年 A100 的價格漲了一倍左右,而一台帶 NVLink 的八卡伺服器,去年還不到 100 萬元,現在可能需要 170 萬元。"
更令人焦慮的是,價格高漲之下芯片仍難求,另一位產業鏈人士向記者表示,英偉達今年的 GPU 芯片需求或是往年的 7、8 倍,火熱程度可見一斑。
ChatGPT 徹底引爆人工智能後,AMD、Intel、以及一眾 GPU 企業也一同上陣競賽,但是短期來看英偉達地位不可替代。
在多位 AI 從業者看來,當前大模型的訓練需求過于迫切,對性能的要求也很高,而 GPU 的适配和生态轉移都需要很長時間,因此目前大家都優先選擇英偉達,和其他廠商的測試驗證也在進行中。
一場新的算力之戰已經拉開帷幕,如果說算力是一個江湖,那麼此刻英偉達就是一名絕世高手。它身懷加速計算的絕技,尤其在 AI 戰場上一騎絕塵,似乎每一次都能精準地踏在浪潮的節奏上。從遊戲 PC 市場、到深度學習的崛起、到雲計算的普及、再到生成式 AI 的降臨,英偉達的技術所向披靡。
然而,英偉達創始人黃仁勳在 2017 年接受媒體采訪時卻說道:"15 年來,我講的都是同一個故事。我幾乎都不用修改我的幻燈片。" 他說,他預測不到人工智能何時來臨,但無比堅信圖形計算的優越性。
回頭看,英偉達早已超越了 GPU 本身的概念,AI 成為最大的标籤,算力的絕世武功撐起了新的萬億帝國。
起步
1993 年,常年身披黑夾克的黃仁勳不顧分析師的勸阻,毅然決定和夥伴創立英偉達。那一年,黃仁勳剛好 30 歲,他面對的市場環境并不樂觀,在九十年代,圖形處理器、或者說圖形加速卡領網域群雄混戰,上百家企業在場上短兵相接。
更重要的是,彼時圖形加速卡并未受到重視,聚光燈都投射在 CPU 上。在 1993 年前後,意氣風發的 CPU 戰場上,算力主角是老牌傳奇英特爾和 AMD,雙方正在酣戰。
1991 年英特爾成為當時全球最大的半導體企業,1993 年英特爾又推出了 80586 芯片,為了與 AMD 芯片進行區别,又将其命名為奔騰;1991 年的 AMD 推出了 Am386 微處理器系列,打破了英特爾的市場壟斷,在 1993 年,AMD 又推出 Am486 微處理器。
而在英特爾和 AMD 為代表的 x86 架構的 CPU 之外,蘋果和 Arm 也已經聯手進入芯片界。1993 年,蘋果推出 Newton MessagePad(牛頓機,PAD 鼻祖),就首次搭載了 Arm 架構處理器。與此同時,蘋果還和 IBM、摩托羅拉結成聯盟,來對抗 "Wintel",三者聯合研發出芯片 PowerPC,在 1994 年用于蘋果的台式機上。
正如黃仁勳在近期的一場采訪中所言:"30 年前,個人電腦革命才剛剛開始,微處理器 CPU 開始起飛,當時大家認為 CPU 是解決計算的最好方式。" 但是,黃仁勳則一直認為需要有加速計算。
後來,大家都逐漸知道影像處理、視頻處理、遊戲處理、計算處理等等都需要 GPU,不過當時英偉達仍在苦苦尋求技術的應用市場。
幸運的是,英偉達很快找到了計算機影像和電子遊戲結合的場景。在研發過程中,一家日本遊戲公司世嘉向英偉達投來橄榄枝,願意提供給 700 萬美元的資金。
視頻遊戲的風口似乎就在眼前,當時 PC 和遊戲是最主要的消費電子市場,英偉達趕上了班次。但是好景不長,英偉達在 3D 影像技術上選擇了錯誤的路線,不能兼容微軟制定的新主流标準,初代產品 NV1 最終銷量慘淡,眼看着為世嘉研發的芯片也要面臨着被淘汰的局面。
如果不能完成芯片開發,公司将陷入絕境。黃仁勳在日前的演講中也提到了創業初期的這次危機,最終他和世嘉說明實情,而世嘉竟然同意支付研發費用,拯救了在倒閉邊緣徘徊的英偉達。
經歷過此番波折後,黃仁勳在 1997 年提出了業界知名的 " 黃式定律 ",其預測顯卡性能每六個月就提升一倍,遠超摩爾定律的速度。當年這更像是黃仁勳對外的一次宣言,是為自己定下的标準和目标,而現在這已經變成了現實。這也是黃仁勳在演講中多次提及的 " 跑得快 ",他說當道路很長時,跑得快是唯一的策略。
時運
很快,英偉達迎來更大的轉機。
1997 年,英偉達推出的新款圖形加速芯片 RIVA 129 成功逆襲,開售後四個月内出貨量就超過 100 萬台。1998 年,英偉達又和台積電牽手合作,在圖形加速領網域更上一層樓,在競争無比激烈的 PC 和遊戲市場上,英偉達快跑進入了決賽圈。
1999 年,英偉達順利上市,并率先提出了 GPU 概念,推出全球首款 GPU —— Geforce256。這是一款關鍵性產品,至此,GPU 已經不僅僅是輔助 CPU 的角色,其出色的并行計算能力将提供更強勁的算力。
2000 年,微軟 Xbox 搭載了來自英偉達的 GPU,英偉達還在 2002 年底和索尼達成了合作,為遊戲主機 PlayStation3 提供顯示芯片。可以說,接下來英偉達在遊戲界大殺四方,當然這其中也歷經了兼并收購、大魚吃小魚,起起落落,最終才殺出重圍。
在遊戲、PC 市場上登頂的過程中,英偉達也一直在尋找新的場景,也曾在蓬勃的手機市場铩羽而歸,也面臨着 PC 市場沒有那麼性感的現實。然而,在 2010 年後,人工智能、雲計算的浪潮在慢慢靠近,從自動駕駛到神經網絡深度學習,GPU 展現出了強大而專一的加速計算能力。
深度學習崛起的過程中,GPU 提供的卷積運算、并行運算等特性,恰好可以滿足 AI 計算的需求;在全球雲化的趨勢之下,數據中心的計算背後都需要 GPU 提供算力支持。
英偉達又一次在新領網域中崛起,就像是它碰巧有絕世的武功,武林江湖環境變換,它卻始終能以獨門秘籍開啟新路。誰能料想,後來的事實證明,GPU 不僅能用于 AI、還能用于挖礦。要知道,AI 的概念在 AlphaGo 熱潮後陷入沉寂,恰逢區塊鏈站上風口,GPU 憑借礦機需求一路走高。
眾所周知,此後區塊鏈熱度下滑,瘋狂的礦機需求回落,英偉達的股價也應聲而落,然而到了 2022 年末,人工智能重返科技舞台中心,生成式 AI 成為英偉達市值的新動能,英偉達的產品也是生成式 AI 的主引擎。
潮起潮落間,黃仁勳也從外界眼中的 " 遊戲小子 " 成為 "AI 教主 "。一路以來,英偉達抓住了計算設備需求的關鍵時機,從圖形渲染、到人工智能、乃至區塊鏈領網域的計算都表現得十分突出,應用場景也覆蓋了 PC、數據中心、汽車等市場。到 2023 财年,英偉達數據中心的營收占比首次超過了遊戲,達 55.6%。
談及數據中心業務,黃仁勳說:" 盡管我們需要更多算力,但是數據中心消費并沒有那麼快速的增長,因為摩爾定律到現在已經發生變化,已經結束了,如果我們想要更多的算力,所有數據中心都需要加速,區别于 ASIC 芯片用于特定程式,英偉達是通用加速計算平台。"
超越
英偉達最初的标籤就是 GPU,但僅僅是影像領網域的應用,并不足以支撐英偉達後來高漲的市值。在練就絕技的過程中,英偉達早已超越了最初 GPU 的概念,進入到更廣泛的產業之中。
其中,業内人士提及最多的兩大内功是 GPGPU 和 CUDA,它們在為人熟知的芯片之上,為產業制定了一整套軟硬體标準,強大的軟體生态也讓英偉達當前立于不敗之地。
首先,回到 GPU 和 CPU 的區别上,GPU 到底有何特色?為何能從配角成為主角?
GPU 和 CPU 是現代計算機中不可或缺的兩個組成部分,但它們在運算方式、功能等方面卻存在着明顯的差異。簡單來說,CPU 主要負責執行指令集中的算術邏輯操作,而 GPU 則更擅長于并行計算。這是因為 GPU 擁有大量的核心,每個核心都可以獨立地進行計算任務,從而實現高效的計算。
做個粗糙的比喻,在電腦上繪制一張圖時,CPU 的運算方式更加講究邏輯,需要按照順序去繪制像素,而 GPU 可以同時去繪制多個像素。而繪制背後主要是 GPU 在進行矩陣運算,就像一個矩陣運算界的頂尖高手。
一開始,GPU 正如其名 "Graphic Processing Unit",專供影像顯示。一個重要跨越是在 2007 年,英偉達提出了 GPGPU 架構,即用于通用計算的 GPU,将 GPU 從傳統的影像處理器,廣泛普及應用到計算訓練當中。
GPU 在影像處理、視頻編碼等領網域表現優秀,而在一些特定的應用場景中,如科學計算、工程仿真等,需要更高的計算能力和更大的内存帶寬,這時就需要使用更為強大的 GPGPU 進行更大規模的并行運算。
這是英偉達擴大市場版圖的一個重要節點。更為重要的是,英偉達還在 2006 年推出了自己的 CUDA 平台,構建了強大的 AI 算力生态。
CUDA 是英偉達的并行計算平台和編程模型,CUDA 可以通過利用 GPU 的處理能力大幅提升計算性能,讓 GPU 擁有解決復雜計算問題的能力。而通過 CUDA 平台,開發者們可以在編程時更方便地調度底層的 GPU 算力。
可以說,CUDA 平台是英偉達建立的并行運算的一整套軟硬體生态标準,所有英偉達的 GPU 都兼容 CUDA,并且大多數 AI 芯片均與之匹配兼容,尤其是訓練端芯片。因此,盡管 GPU 或者 AI 的創業公司層出不窮,大多都兼容英偉達的 CUDA 平台,要再創建自有生态的壁壘和成本都很高。
有產業鏈人士向 21 世紀經濟報道記者表示,CUDA 擁有 400 多萬開發者,軟體生态的護城河非常高,目前要遷移到國内較為成熟的 AI 芯片平台上,可能需要 2、3 年的時間。
當前在全球的 GPU 市場上,主要玩家是英偉達和 AMD,英特爾近年也在發力 GPU 產品線,而英偉達目前仍占據主要市場份額。對标 CUDA 來看,AMD 也在打造開放的 ROCm 平台,ROCm 平台于 2016 年推出,AMD 也在不斷優化 ROCm 套件。
亞馬遜創始人傑夫 · 貝索斯曾在一次訪談中說道:" 如果產品做得優秀,并且足夠幸運,一般會有兩年的領先優勢,在 AWS 業務上亞馬遜領先了七年,七年沒有勢均力敵的競争對手。"
再看英偉達和 AMD,CUDA 比 ROCm 整整超前了 10 年,CUDA 十年磨一劍,挑戰者們仍在追趕之中。
" 通吃 "
回顧 GPU 和 AI 的發展史,黃仁勳說道:"2012 年,計算機視覺模型 AlexNet 就使用 GeForce GTX 580 進行訓練,使用 1400 萬張影像訓練了 AlexNet ,每秒可處理 262 PetaFLOPS(千萬億次浮點運算)。經過訓練的模型以壓倒性優勢赢得了 ImagNet 挑戰賽,并引發了 AI 的大爆炸。"
這時,GPU 和 AI 的相擁就已經深埋種子,十年之後,Transformer 模型面世,OpenAI 基于 Transformer 開發了 GPT-3。
此前的演講中,黃仁勳談到,GPT-3 的訓練需要 323 ZettaFLOPS 的算力,相當于 AlexNet 的 100 萬倍,從而創造了 ChatGPT 這個震驚全世界的 AI。在他看來,嶄新的計算平台已經誕生,AI 的 "iPhone 時刻 " 已經來臨,加速計算和 AI 技術已經走進現實。
今年的 GTC 大會上,黃仁勳公布了諸多與生成式 AI 相關的進展,随後又在台北國際電腦展 COMPUTEX 上繼續放出王炸,他宣布 GH200 Grace Hopper 超級芯片正式投產,并公布由 256 個 GH200 驅動的新型 DGX GH200 AI 超級計算機。
而此前英偉達就已經做足了功課。2022 年,英偉達推出了多款重磅產品,分别是基于全新 Hopper 架構的 H100 GPU、CPU 和 GPU 的合體 Grace Hopper、兩個 CPU 組合的 Grace CPU Superchip,CPU 的產品在 2023 年上市。
其中,設計 GPU 新架構 Hopper 時,英偉達增添了一個 Transformer 引擎,專門為 Transformer 算法做了硬體優化,加快 AI 計算的效率。
一位國内芯片從業者向 21 世紀經濟報道記者直言:"H100 出來,其實就是一個新時代了,Grace-Hopper 再一個組合,加上高配的互聯,完全不給活路,英偉達赢家通吃,AMD、Intel 繼續苦追。"
同時他也表示:" 目前國内一些企業還是在盯着 CNN 做優化,英偉達已經有 Transformer 引擎,然後 AIGC 火熱,恰好能做支持。這個眼光,只能佩服他們的科學家們對這個領網域深刻的認識。"
一位學術界人士也向 21 世紀經濟報道記者分析道:" 從 H100 上,包括專用的 Transformer 引擎以及對 FP8 格式的支持,可以看到計算硬體在向應用定制的方向前進。Grace CPU 說明了整合異構計算系統的重要性。單純的加速器優化和設計已經不能夠滿足現在對于計算系統的算力和能效比的要求,需要各個部分的協同優化和設計。"
他還表示,Grace CPU 通過提高通信帶寬和在 CPU 和 GPU 之間建立一致(coherent)的内存模型來解決運算中的瓶頸,這也和學界(近存計算,存内計算)與業界(CXL,CCI 等等系統互聯協定)一直在關注的方向是一致的。
總而言之,在 GPU 和 CPU 的各種排列組合中,英偉達又将算力提升到了新高度。正如黃仁勳所言:" 我們正在重新發明計算機,加速計算和人工智能标志着計算正在被重新定義。"
黃仁勳在采訪中還提到,數據中心需要用的 CPU 越來越少,不再是傳統上購買數百萬個 CPU,而是轉而購買數百萬個 GPU。換言之,在他看來,AI 算力江湖已經是 GPU 的主場。
野心
英偉達的布局還不止于此。
一個現實問題是,高性能的算力也意味着高昂的價格。大模型訓練成本動辄成千上百萬美元,并不是所有公司都能承受。
而英偉達同時提出了雲服務的解決方案 NVIDIA AI foundations,黃仁勳表示要做 "AI 界的台積電 "。台積電大大降低了芯片設計公司生產門檻,英偉達也要做代工廠的角色,通過和大模型廠商、雲廠商合作提供高性價比的雲服務。
前述芯片從業者對記者解析道:" 賣雲服務,就是聯合大模型方提供 Pre training(預訓練)的模型,小企業直接 Fine tuning(微調)就有自己的了。"
在幫助下遊企業降低大模型訓練成本的同時,英偉達還在逐步參與到上遊的產業鏈更新中。今年,英偉達牽手台積電、ASML、新思,發布了計算光刻庫 cuLitho。
前述學術界人士向記者介紹道,計算光刻是在芯片設計和制造領網域的關鍵步驟,也是最大的計算負載之一。計算光刻庫的技術突破就在于,可以通過部署有大量 GPU 的 DGX AI 計算系統對計算光刻進行加速,使其達到原有的基于 CPU 的計算速度的幾十倍,同時降低計算過程的總能耗。這将有助于晶圓廠縮短原型周期時間、提高產量、減少碳排放,為 2nm 及更先進的工藝奠定基礎,并為曲線掩模、高數值孔徑極紫外、亞原子級光刻膠模型等新技術節點所需的新型解決方案和創新技術提供更多可能性。
新思方面向 21 世紀經濟報道記者表示,此次研發合作中,cuLitho 集成了新思科技 Proteus 全芯片掩膜合成解決方案和新思科技 Proteus ILT 反向光刻圖形技術,并進行了優化,以便在最新一代 NVIDIA Hopper 架構 GPU 上運行。如今,在 cuLitho 平台上運行 Proteus 解決方案只需要 500 個 NVIDIA DGX H100 GPU,替代此前用于計算光刻的 40000 台 CPU 服務。計算光刻過程的所有部分都可以并行運行,将電力能耗需求和運行時間從幾周減少到幾天。
在多位產業界人士看來,雖然短期内不會影響到下遊的應用方面,但是這些上遊的研發和更新将長期影響產業的發展,累積形成代際差。
" 英偉達在 GPU 架構的迭代上,一直都有屬于自己的發展路徑,這幾年的發展,也讓英偉達躍居 AI 算力芯片領網域的領導者,也因為領先,所以英偉達會思考如何做更多元的布局與行業内的深度合作,這樣更能了解行業的需求,比方和台積電等合作便是很好的例子。" 芯片行業專家姚嘉洋向 21 世紀經濟報道記者表示。
在 2008 年的電視采訪中,黃仁勳說:" 希望有一天大家都認識英偉達,就像大家都認識微軟、英特爾一樣。" 如今,英偉達幾乎是家喻戶曉,擁有絕世的武功,比大夢想更加重要。
2023 年,英偉達 30 周年之際,黃仁勳在采訪中說:"(公司)直到現在才真正起飛。" 生成式 AI 助力英偉達成為算力的新王。
當然,英特爾和 AMD 都已經吹響反攻的号角。7 月,英特爾面向中國市場推出了 AI 芯片 Habana Gaudi 2;6 月,AMD 推出 AI 芯片 Instinct MI 300X,兩者都直接對标英偉達 100 系列。圍繞着算力、納米的權力遊戲還将繼續。
SFC
本期編輯 江佩佩 實習生 章寶怡
21 君薦讀
>