今天小編分享的科技經驗:AMD的翻身仗,歡迎閱讀。
今年 6 月,AMD 發布了一款專門針對 AI 需求的最新款芯片:Instinct MI300。
MI300 将 CPU、GPU 和内存封裝在了一起,晶體管數量高達 1460 億個,接近英偉達 H100 的兩倍。其搭載的 HBM(高帶寬内存)密度也達到了 H100 的 2.4 倍。也就是說,MI300 在理論上可以運行比 H100 更大的AI模型。
受益于 AI 訓練的增長,GPU 需求肉眼可見的從遊戲市場向高性能計算領網域傾斜,就連剛開啟 GPU 產品線的英特爾,也迫不及待的 PPT 首發了面向高性能計算場景的 Falcon Shores 架構芯片。
伴随英偉達一路衝向萬億美元市值,資本市場對 GPU 行業老二的期待值也達到了頂峰。今年以來,AMD 股價累計上漲已經超過 90%。
英特爾的 Falcon Shores,預計 2024 年推出
然而 MI300 發布會結束,AMD股價下跌 3.6%,反倒是英偉達上漲 3.9%。資本市場表達好惡,向來是這麼冷酷無情。
原因可能在于,AMD 沒有在發布會中透露這款芯片的客戶,這也是市場對英偉達以外的 AI 芯片最大的擔心。
長期以來,AMD 在 GPU 市場一直被英偉達按在地上反復摩擦,Instinct 產品線其實已經迭代了好幾年,但相比英偉達的連戰連捷,AMD 在高性能計算領網域的存在感一直比較稀薄。
AI 訓練打開的市場空間,一度被市場視為 AMD 與英偉達拉進距離的機會,但事情似乎沒那麼簡單。
離不開 CPU,但離得開英特爾
雖說在 AI 訓練上,更擅長大規模并行計算的 GPU 承擔了大部分計算工作,而整個系統仍需要 CPU 進行調度和統籌。也就是說,盡管 GPU 的需求量大幅度增加,但 CPU 仍是必需品。
作為一家同時擁有 CPU 和 GPU 設計能力的芯片公司,AMD 被看好也不意外。更何況過去幾年,AMD 在 CPU 市場連戰連捷。
AMD 現任 CEO 蘇姿豐在 2014 年接手,時值推土機架構性能孱弱,讓英特爾心安理得的擠牙膏。而在賣掉 Imageon 後,AMD 和拒絕為蘋果設計 iPhone 芯片的英特爾一起,完美錯過了智能手機的浪潮,公司一片風雨飄搖。
面臨多條戰線的失血,蘇姿豐只能将有限的資源集中在核心的 CPU 業務上,從蘋果請回了架構大師吉姆 · 凱勒,開始 Zen 架構處理器的研發。
2017 年,Zen 架構處理器橫空出世,把擠牙膏上瘾的英特爾打了個措手不及。2019 年,Zen 處理器更換為台積電 7nm 工藝,此時英特爾 10nm 工藝姗姗來遲。
雖然英特爾還占據着大部分市場份額,但AMD的反攻速度實在太快,尤其是在伺服器市場,幾乎是從 0 殺到了接近 20% 的市占率。
2023 年 Q1,AMD 的 x86 處理器市場份額達到了 34.6% 這一歷史峰值 [ 2 ] ,這也是 AMD 市值超過英特爾的重要背景。
今年 5 月,全球超級計算機 Top500 強公布:前 500 強中,使用 AMD CPU 進行驅動的超算達到 121 台,使用英特爾 CPU 的超算則從 2016 年的 454 台下降至 360 台,雖然看着不少,但其中很多是英特爾 10 年前的家底——至強(Xeon)處理器 [ 3 ] 。
但同一時期,AMD 與英偉達差距也越來越大。
難以逾越的 CUDA
英偉達不僅是一流的硬體公司,更是一流的軟體公司。
雖然在理論性能上,MI300 的一些參數甚至領先于英偉達,但市場對英偉達對手們最大的擔心往往在于,就算硬體性能可以跟英偉達比肩,但是軟體解決方案仍難以與英偉達的 CUDA 對抗。
2006 年,英偉達推出了 CUDA 平台,讓開發者能夠給予 GPU 進行編程和開發,最終形成了一個龐大穩固的生态。在推出 CUDA 之前,全球能用 GPU 進行編程的不足 100 人,目前 CUDA 的使用者超過 400 萬。
每一個成功的硬體公司背後,往往都有一個更強大的軟體團隊,蘋果和英偉達都是如此。即便是光刻機制造商 ASML 也不例外,他們的官方網站上有這樣一段話:
您可能将 ASML 視為一家硬體公司,但實際上我們擁有世界上最大、最具開創性的軟體社區之一。如果沒有我們開發的軟體,我們的客戶就不可能制造出 10 納米或更小的尺寸的芯片。
想要芯片真正在具體場景的滿足各種需求,就需要開發者對硬體進行編程以實現各種功能。如果說硬體編程的過程相當于進行各種復雜計算,那麼 CUDA 就是提供給使用者的一部計算器。
無論對英偉達的刀法多麼懷恨在心,都不能否認黃仁勳對通用計算和人工智能的超前押注。
AMD 顯然深知軟體和生态的重要性,但對标 CUDA 的 ROCm 在 2016 年推出時,就已經比英偉達晚了十年。
直到 2023 年 4 月,ROCm 都僅支持 Linux 平台;而 CUDA 自問世以來,就提供 Windows 和 Linux 兩個版本,後期還為蘋果用戶增設 Mac OS 版本。
相比英偉達不遺餘力的推廣和洗腦,AMD 在生态建設上也顯得投入不足,據說早年英偉達對項目的 GPU 試用申請幾乎是有求必應,動不動就去高校實驗室發顯卡。深度學習大神傑夫 · 辛頓帶着學生訓練 AlexNet 模型,就用了三塊 GTX 580。
另外,AMD 的軟體能力也令人不安—— AMD 在今年 6 月發布了一份 EPYC 7002 "Rome" 伺服器芯片指南,承認由于時鍾倒計時器存在 BUG,導致第二代 EPYC 芯片運行 1044 天後,會出現内核卡死。如果有伺服器使用這款芯片,需要每隔 2.93 年重新啟動一次。
原因也不難理解,直到推出 ROCm 的 2016 年,AMD 甚至還沒擺脫虧損。在這期間,AMD 只能把有限的資源都聚焦在 CPU 的研發上,無法為 GPU 部門投入太多資源,更不要說 ROCm 的軟體團隊了。
而當 AMD 在 CPU 市場收復失地,希望依靠 AI 卷土重來時,英偉達已經慢慢補齊了短板。
英偉達的反攻
2020 年 9 月,英偉達宣布準備以 400 億美元的價格準備收購移動 CPU 架構商 Arm,其背後意圖人盡皆知:一方面是整合移動端資源,另一方面則是入局 CPU。
正如前文所說,盡管 AI 時代需要更多的 GPU,但 CPU 仍不可或缺。當 CPU 與 GPU 共同在伺服器中的工作時,實際場景更像是一個大學生(CPU)帶領一群小學生(GPU)組隊完成各種任務。這個時候,配合就顯得尤為重要。
因此,英偉達之所以自己做 CPU,并非完全因為英特爾或 AMD,而是從自身產品需求出發,使 CPU 和 GPU 緊密耦合,以發揮最大性能。比如 CPU 和 GPU 中,需要用到盡可能相似技術的一致内存,以保證數據之間的無縫共享 [ 8 ] 。
雖然收購基本沒有成功的可能性,但英偉達依然按部就班的招兵買馬。2021 年 4 月,黃仁勳在自家廚房裡宣布,英偉達即将推出首款 5nm 制程工藝 CPU Grace,基于 Arm 架構,面向超大型 AI 模型的和高性能計算。
緊接着就是具體工作的有序展開:英偉達首先選定了根據地以色列,那裡有全球第三多的納斯達克上市公司(僅次于美國和中國);然後對外招聘 600 名硬體工程師、軟體工程師和芯片設計師,搭建 CPU 研發團隊 [ 7 ] 。
最後,英偉達挖來了英特爾在以色列的 CPU 架構專家 Rafi Marom,後者曾參與 10nm 制程的 Tiger Lake 和 Alder lake 芯片開發工作。
在 2022 年 3 月的 GTC 大會上,英偉達對外宣布 Grace CPU 性能:擁有 144 個 Arm 内核和 1TB/s 的内存帶寬,性能較當前最先進的 DGX A100 搭載的雙 CPU 相比高 1.5 倍以上。
不過,原本預計在今年上半年可以開始供貨的 Grace 芯片,目前已推遲至下半年。
APU
Instinct MI300 本質上是一顆 "APU",這是 AMD 早在 2009 年提出的一個概念——将CPU和GPU集成在一起,使得二者高速互聯,實現 1+1>2 的效果。
在 2006 年收購了 GPU 公司 ATI 後,AMD 成為了當時唯一同時擁有 CPU 和 GPU 設計能力的芯片公司,而且在兩個市場都是行業老二——但壞消息是,市場主流玩家也就兩個。
在這種局面下,AMD 希望借助 APU 打開市場局面。2011 年,第一代 APU 推出後,AMD 持續宣傳 APU 是 "x86 架構三十年來的最大革命 ",并向投資者強調,這款產品存在着 " 強勁且被壓抑 " 的需求。
市場最初也對 APU 概念充滿期待,結果 2012 年 Q3 财報出爐,AMD 收入下滑 25%,順便減記了 1 億美元的庫存—— APU 需求量并不高,芯片根本賣不出去 [ 1 ] 。緊接着,公司股價跌到 1.86 美元的歷史性低點,蘇姿豐臨危受命,開始掌舵風雨飄搖中的 AMD。
APU 的優勢在于,由于 CPU 和 GPU 集成在了一起,數據傳輸效率得到了大幅度提高。蘋果的 M1 Ultra 也采用了類似的 " 把幾個小芯片拼成一塊大芯片 " 的思路,換來了更強的數據吞吐能力。
但在 2009 年,APU 的理念顯得過于超前。
一方面,APU 涉及芯片的先進封裝技術,在當時既不成熟,成本也難以控制。另一方面,APU 在需求高度多元化的消費市場很難行得通。
比如 10 種型号的 CPU 和 GPU,理論上有 100 種組合方案,這就導致做 10 種方案無法滿足市場需求,做 100 種方案難以收回生產成本。
因此在很長一段時間裡,APU 只能在 PS4 遊戲機這類高度标準化的產品上才能找到市場。但深度學習的大爆發改變了這一點。
相比遊戲和渲染,AI 訓練對算力和數據吞吐效率的需求成百上千倍的增加,目前針對 AI 市場推出的芯片產品,除了算力的堆砌,往往都采用 3D 堆疊和先進封裝等方式,增加數據傳輸的效率,這與 APU 的優勢不謀而合。
英特爾尚未正式發布的 Falcon Shores,同樣采用了将 CPU、GPU、内存封裝在一起的思路,只不過英特爾将其稱為 "XPU"。
但目前來看,最接近這個目标的反而是英偉達的 Grace Hopper 芯片。
英偉達的 Grace Hopper 将 CPU 和 GPU 集成在了一起
尾聲
在 2009 年 APU 的概念被提出時,AMD 正經歷公司歷史上的最谷底,APU 多少有些畢功一役的憋大招成分。
但也正是因為處于谷底,導致 AMD 無法拿出足夠的資金與技術支持,讓 APU 的革命性理念真正落地,最終只變成了簡單的 CPU+GPU 的組合。
從商業角度看,最适合在 2009 年搞點革命性產品的反而是富可敵國的英特爾,但英特爾當時在幹什麼呢——心安理得的擠牙膏,同時拒絕為 iPhone 設計芯片。
這似乎是高科技公司常常會出現的狀況——在鼎盛年代忽視新的技術浪潮,在谷底期如夢方醒倉促憋大招。
事實上,英特爾還嘗試過 " 聯 A 抗 N" —— 2017 年,英特爾宣布将在自家 CPU 上集成 AMD 的 GPU,合作推出新的芯片。
結果沒過多久,英特爾就挖走了 AMD 的核心技術負責人之一:圖形主管 Raja Koduri,為英特爾開發高端獨立 GPU。
參考資料
[ 1 ] AMD: $30 Million Settlement Ends Llano Lawsuit,tom's Hardware
[ 2 ] AMD and Intel CPU Market Share Report: Recovery on the Horizon ( Updated ) ,tom's Hardware
[ 3 ] AMD Now Powers 121 of the World's Fastest Supercomputers,tom's Hardware
[ 4 ] A Closer Look at Intel ’ s Coral Supercomputers Coming to Argonne,inside HPC
[ 5 ] Argonne ’ s 44-Petaflops ‘ Polaris ’ Supercomputer Will Be Testbed for Aurora, Exascale Era,HPC wire
[ 6 ] Top500: No Exascale, Fugaku Still Reigns, Polaris Debuts at #12,HPC wire
[ 7 ] 英偉達在以色列組芯片團隊,發力 CPU,半導體行業觀察
[ 8 ] 它們需要基于這兩種設備中盡可能相似技術的一致内存,智能計算芯世界