今天小編分享的科技經驗:AI計算爆發!吳泳銘力挺GPU計算,CPU真要淪為配角了?,歡迎閲讀。
9 月 19 日,2024 雲栖大會中杭州如約召開,作為阿裏雲的年度重磅活動之一,雲栖大會以引領計算技術創新為核心,致力于推動雲計算、大數據、人工智能等前沿技術的發展與應用。
作為關注 AI 硬科技的頭部新媒體,雷科技也應邀出席雲栖大會,大會的開幕演講由阿裏集團 CEO、阿裏智能雲董事長兼 CEO 吳泳銘主持,而在整個主旨演講中,最令人印象深刻的莫過于這段話:
生成式 AI 改變計算架構,從 CPU 主導的計算體系到 GPU 主導的 AI 計算遷移。AI 時代将是 "GPU 算力為主,CPU 算力為輔 " 的計算模式。2024 年市場新增算力,超過 50% 的需求 AI 驅動產生,這一趨勢将持續擴大。阿裏雲投資建設了大量的 AI 計算基礎設施,依然遠遠無法滿足客户需求。
沒錯,GPU 計算,就是未來。
在過去幾十年裏,從雲端伺服器到超級計算機,CPU 一直都充當着計算體系核心的責任。比如著名的天河一号,就采用了 14336 個商用處理器、7168 個加速處理器和 2048 個自主飛騰 -1000 處理器,這些處理器基本是「CPU」,也就是 " 邏輯處理器 "。
圖源:維基百科
CPU 主要被設計用于處理通用計算任務,進行復雜的邏輯運算和順序運算。你可以将 CPU 看作是一個大學生,他有着足夠的邏輯推算能力來處理各種復雜的任務,但是每次只能處理一個任務,也就是所謂的「單線程」。
雖然在後續的 CPU 設計中,工程師通過指令集、CPU 架構等方式,讓 CPU 可以同時處理兩個工作(雙線程),卻已然是當下的極限。而且 CPU 在處理任務時,仍然需要先處理完手頭的工作,再進入下一個工作流程,也就是「順序執行」。
邏輯運算與順序執行,構成了 CPU 的通用計算基礎,只要你輸入的程式符合 CPU 的運算邏輯,那麼 CPU 所給出的計算結果都是一樣的,并不會因為你使用的是 AMD,他使用的是英特爾,所以你的 1+1=2,他的 1+1=3。
得益于強大的通用計算能力,CPU 成為人類構建通用型計算中心時的首選,因為計算中心的設計初衷就是用來執行不同領網域的計算任務。而伺服器則是承擔着為雲端應用提供數據交換和計算等支持,為了使其能夠适應不同類型的應用運算,通用計算能力就是關鍵。
圖源:veer
最近兩年,一切都發生了翻天覆地的改變,GPU 成為大多數新數據中心及超級計算機的核心,GPU 算力的增長速度屢屢突破歷史記錄,企業瘋狂采購 GPU 核心,搭建全新的計算矩陣,而這一切的「元兇」,就是生成式 AI。
作為近年來最受關注、熱度最高的前沿領網域,生成式 AI 有一個特點,那就是對算力的恐怖需求,這個需求不僅體現在訓練、優化 AI 大模型上,更是随着用户數量的增長飙升。生成式 AI 可以説是人類少有的,從出現到普及耗時最短的前沿科技,現如今每一個接入互聯網的人,都可以通過訪問通義千問等網站來使用生成式 AI。
圖源:通義千問
龐大的需求催生了數量眾多的數據中心,但是也讓一部分人對此產生疑惑:為什麼要選擇 GPU 而非 CPU 來搭建 AI 數據中心?
GPU 最初的設計用途是圖形渲染任務,這決定了其需要更強大的并行任務處理能力。以遊戲為例,當你在遊戲中看到一個箱子,實際上你看到的是一個由大量三角形組成的 3D 模型,如果你玩過早期的 3D 遊戲,那麼你肯定會對遊戲中 " 有棱有角 " 的角色有着深刻印象。
圖源:推特
實際上,這個問題就是因為早期的 GPU 算力不足,只能進行百位數的三角形運算,無法滿足構建「光滑」模型的要求。随着 GPU 的運算性能加強,當我們可以在一秒的時間裏渲染出千萬級的三角形并組成 3D 模型,那麼在遊戲玩家的眼中,這個模型就有着非常真實的視覺效果,也就是「拟真級」精細建模。
因為需要處理的任務簡單(生成三角形并着色),但是任務數量卻非常多(千萬級),導致 GPU 成為一個偏科生。論對單個數據的處理能力,GPU 與 CPU 的對比就像是小嬰兒與大學生,區别在于 GPU 是上千萬個 " 小嬰兒 " 的集合,而 CPU 則是幾十個大學生的集合。
當我們需要執行一個将 1000 萬個 " 三角形 " 從左邊移動到右邊的任務時,GPU 和 CPU 誰的效率會更高?GPU 的并行計算能力,也是其能夠處理復雜 3D 模型渲染的關鍵。
而在生成式 AI 誕生後,人們發現 GPU 的并行計算能力,遠比 CPU 要更适合進行 AI 運算,其中的原因則與 AI 大模型的底層結構有關。雖然在我們的眼中,AI 大模型根據數據集群的不同,可以生成文字、圖畫、音樂等各種類型的結果,但是在實際運算中,所有數據其實都以一種形式存在—— Token,也就是「最小語義單元」。
當你輸入一段文字時,應用程式會将文字拆解為數以萬計的 Token,然後再丢到處理核心中進行計算。這個過程是否很眼熟?沒錯,整個邏輯與 GPU 渲染一個箱子其實是一樣,将一個任務拆抽成大量的小任務,然後根據 AI 模型的邏輯推理來整合結果并輸出答案。
可以説,在 AI 時代的數據中心裏,GPU 就是整個 AI 算力矩陣的核心,其重要性要遠遠超過 CPU,而掌握着最先進 GPU 的廠商,将成為半導體領網域的無冕之王。
在目前的 AI 市場中,大多數人都認可一個觀點:英偉達就是 AI 算力的代名詞。不管是每秒可以進行數十萬億次浮點運算的 H100,還是目前最強的消費級 AI 顯卡 RTX 4090,都讓英偉達成為商業領網域和消費領網域無可争議的 NO.1。
特别是在消費領網域,英偉達已經成為個人 AI 計算機的唯一選擇,其背後的原因就是英偉達的「殺手锏」—— CUDA。CUDA 是由 NVIDIA 開發的并行計算平台和編程模型,他的作用是允許開發者利用英偉達 GPU 的強大并行計算性能來執行通用計算任務。
圖源:英偉達
看完上一章節的朋友,估計會有點蒙,為什麼要用 GPU 來執行通用計算任務?這不是 CPU 的工作嗎?沒錯,通用計算任務确實是 CPU 的強項,但是俗話説得好:三個臭皮匠,頂個諸葛亮。當 GPU 的并行算力強大到一定程度,那麼只要有一個可以進行任務轉換的模型,就可以将 GPU 算力運用在通用計算任務裏。
與此同時,英偉達還為 CUDA 提供了豐富的工具和庫,以及各種運算模型,讓使用英偉達 GPU 的開發者可以大幅度節省開發時間,并且更好地發揮 GPU 性能。正是利用 CUDA 對并行算力的支配,使得英偉達 GPU 可以在個人電腦裏有效執行各種通用計算任務,為用户提供足以支撐本地 AI 大模型部署的 AI 算力。
那麼 AMD 就沒有類似的工具嗎?其實是有的,名為 ROCm,ROCm 的前身 Radeon Open Compute 其實早在 2016 年就已經發布,主要用于通用 GPU 計算(GPGPU)、高性能計算(HPC)和異構計算等領網域。但是因為缺乏足夠的支持,所以生态規模遠遠無法與 CUDA 相比,而在生成式 AI 爆火之後,AMD 很快就意識到了 Radeon Open Compute 的重要性,将其更名為 ROCm 并投入大量的資源進行更新。
圖源:AMD
作為一個 AMD 顯卡用户,其實在過去的兩年裏是可以明顯感受到 AMD 在 AI 領網域的進步,曾經只能通過轉譯方式運行本地 AI 模型的 AMD 顯卡,如今已經可以借助 ROCm 的工具,實現原生本地 AI 模型部署和運算,效率和算力都有着質的變化。
雖然還無法與 CUDA 相比,但是已經讓人看到了些許的希望,更何況從價格上來説,性能相近的 AMD 顯卡價格往往只要英偉達顯卡的 80% 甚至 70%。這也意味着 AMD 只要可以解決通用計算模型的問題,那麼就可以為個人及小型企業提供更具性價比的選擇,吃下相當一部分 AI 顯卡市場。
不過在 ROCm 成熟之前,英偉達都仍然會是消費級 AI 市場的最佳選擇。
與消費級市場不同的是,AMD 在伺服器市場的增長卻十分迅猛,Data Center Dunamics 的數據顯示,2024 年第一季度,AMD 的數據中心業務創下内部收入的新紀錄,同比增長達 38%。而在第二季度,AI 伺服器的出貨量同比增長 41.5%,占整體出貨量的 12.2%。
雖然從整體的市場份額來看,英偉達仍然占據着 90% 以上的市場,但是 AMD 也并非唯一的挑戰者。
谷歌前段時間推出的 TPU(Tensor Processing Unit)芯片就專門用于加速機器學習和深度學習任務,采用 Arm 架構設計,在性能和能效上都有出色表現,已經被運用在谷歌的多項 AI 服務中。
而英特爾則是通過收購 Habana Labs 拿到了 Gaudi AI 加速器,結合新一代至強處理器的 AI 加速功能,緊密布局 CPU AI 領網域。這個市場的規模同樣不小,因為并非所有數據中心都以 AI 為核心應用,新一代 CPU 數據中心可以更好地兼顧通用型計算任務和 AI 計算任務,減少重復建設數據中心的成本與維護花銷。
此外,英特爾也一直在關注移動 PC 的 AI 需求,這是英偉達目前最為弱勢的市場,因為英偉達 GPU 雖然有着出色的 AI 算力,代價卻是極高的功耗,無法滿足移動 PC 的長續航要求,這就為英特爾等廠商留下了可乘之機。
在今年的 IFA 上,英特爾就推出了内置新一代 NPU(AI 加速核心)的酷睿 Ultra 200v 系列處理器,提供強大算力支持的同時還兼顧了長續航等要求,與高通等新一代 Arm PC 處理器在 AI PC 市場展開激烈争奪。
短時間來看,英偉達在 AI 算力市場的優勢仍然巨大,但是長遠來看,群狼環伺之下的 AI 市場,英偉達雙拳難敵四手。諸如移動 PC、智能終端等英偉達的弱勢市場,很快就會被其他廠商瓜分幹淨,而關鍵的伺服器市場也并非高枕無憂,AMD 的 MI300 系列 AI 顯卡份額增長迅速,已經足夠引起英偉達的警覺。
不過,競争所帶來的創新與發展,才是科技進步的關鍵,随着 AI 領網域的競争加劇,實際上也在推動 AI 成本的下降,讓 AI 技術得到更快、更廣泛的應用。最後,我想用吳泳銘先生演講中的一句話來作為結尾:
AI 驅動的數字世界連接着具備 AI 能力的物理世界,将會大幅提升整個世界的生產力,對物理世界的運行效率產生革命性的影響。
一個嶄新的世界,近在咫尺。