今天小編分享的科技經驗:英特爾把對抗英偉達的希望,寄托在了中國,歡迎閱讀。
每一家芯片廠商都想要把 " 人工智能 = 英偉達芯片 " 這個公式推翻,英特爾尤其有必要這樣做。7 月 11 日,英偉達在北京發布了名為 Gaudi 2 深度學習加速器芯片,這是英特爾專為大模型訓練和推理打造的專供中國市場的芯片。
英特爾的目标顯而易見,它把對抗英偉達的希望寄托在了中國市場。
一直以來,數據中心業務都是英特爾主要收入來源之一,它和英特爾在 CPU 領網域的成功一道,在過去幾十年構築了英特爾最強的企業護城河,而這條寬且深的護城河,部分由于英偉達主導的人工智能浪潮,現在已不復存在。
最新的财政季度,包括個人電腦在内的客戶計算事業部 CCG 和數據中心與人工智能事業部 DCAI 業務收入雙降,同比都在 38% 左右,由此拖累了英特爾錄得自 2010 年以來最低的季度收入(同比下降 36%),更是 30 年來首次連續虧損。
CPU 賣不動了大家早有預期,後疫情時代包括 PC 在内的個人電子消費品市場都陷入疲軟,下行的半導體周期還疊加了摩爾定律的失效——英特爾最核心的 CPU 芯片制程工藝曾長時間停留在 14nm 階段數年,以至于長久以來屈居第二的 AMD 通過異性架構的處理器實現反超。
但數據中心業務的下降就顯得有些不同尋常,英特爾市場份額的萎縮同人工智能的高歌猛進形成了鮮明的對比——類似 ChatGPT 的大模型技術無論是訓練還是推理都需要龐大的數據中心算力來支撐,然而目前為止英特爾并沒有從中得到任何利好,絕大部分的收入實際上都被英偉達拿走了。
随着百模大戰的展開,所有人都在如飢似渴地囤貨英偉達顯卡,在供不應求且小道消息滿天飛的情況下,A800 這樣專供中國市場的 " 閹割版 " 芯片的售價在 15 天之内就漲了兩萬塊錢,交貨周期也從過去的 1 個月拉長到最少 3 個月。甚至許多經銷商玩起了同奢侈品行業一樣的 " 配貨 " 規則——想要最新的算力卡,就得搭配采購其它積壓的庫存一起。
這就是目前市場火熱的現狀。人工智能是今年來普遍疲弱的科技行業少見的增長亮點,整個半導體行業都在受益于這場 AI 浪潮,有人預計到 2030 年整個芯片市場的收入将達到 1.25 萬億美元,而根據摩根士丹利的估計,四年内 AI 芯片和它的上下遊關聯領網域的收入就将達到總收入的 10%,也就是 1250 億美元。
出于任何理由,英特爾都不會放棄這項傳統上屬于英特爾優勢領網域的業務,而這一次,英特爾把出手的地點選在了中國。
外科手術式精準出手
" 市場想要備選方案。" 英特爾公司執行副總裁、數據中心與人工智能事業部總經理 Sandra Rivera 在北京做出如上表述。
其中之一的意思是,有太多太多的言論有意無意把生成式 AI 同英偉達 GPU 綁定了起來,而英特爾并不認同這一點。基于英特爾產品組合的 AI 解決方案,用英特爾自己的話說," 為在封閉生态系統中尋求擺脫當前效率與規模限制的客戶提供了極具競争力的選擇。"
現在選擇來了。
在 7 月 11 日舉辦的活動上,Sandra Rivera 笑容滿面地向媒體和合作夥伴展示了名為 Gaudi 2 的深度學習加速器芯片,英特爾宣稱這是大規模部署 AI 的 " 更優解 "。
Gaudi 2 采用台積電 7nm 制程,擁有 24 個可編程 Tensor 核心,21 個 100 Gbps(RoCEv2)以太網接口用來内部互聯,96GB HBM2E 内存,總内存帶寬達到了 2.4TB/s。
Gaudi 2 的定位非常精準,就是針對大語言模型 LLM 和生成式 AI。它是由英特爾 2019 年收購的以色列 AI 初創公司 Habana Labs 設計的,盡管英特爾從未将其稱之為 GPU,但無疑把它看作是英偉達高端 GPU A100 和 H100 的競品。
實際上,英特爾在現場展示了 Gaudi 2 的強大性能都在對标英偉達。比如針對 Bert 模型預訓練,發布會現場的圖表顯示,Gaudi 2 的性能比英偉達 A100 快 1.7 倍。Sandra Rivera 稱 Gaudi 2 不僅在性能上超過 A100,還在最先進模型上提供了約 2 倍于 A100 的性價比。
至于更先進的 H100,Habana Labs 首席運營官 Eitan Medina 直言,Gaudi 2 是為數不多能替代英偉達 H100 進行 LLM 訓練的方案,在由 MLCommons 發布的 MLPerf 3.0 基準測試中,Gaudi 2 是唯二能夠進行 GPT3 訓練的,另一個正是 H100。
盡管在目前基于 GPT-3 模型,單個 H100 的性能領先于 Gaudi 2 達 3.6 倍,但 Eitan Medina 預計随着在 9 月采用 FP8 軟體,Gaudi 2 有望顯著縮短訓練時間,這樣它在性價比方面就會超過 H100。
中小模型推理方面,英特爾有已經更新到第四代的至強處理器,發布會現場英特爾演示了使用至強處理器的電腦使用 stable diffusion 生成圖片,花費大約五秒鍾。當模型規模提升到千億級别時,則有 Gaudi 2 來幫助大模型進行訓練。
英特爾由此組成了一個產品組合。
這樣的產品組合讓英特爾覆蓋了目前人工智能對算力需求的方方面面,而 Gaudi 2 作為英特爾在大模型領網域布局的重要一環,精準聚焦于在性能和每瓦能耗兩方面展開同英偉達的競争——提供不弱的性能同時,保持了較高的性價比,這等同于在為客戶省錢。
英特爾在伺服器領網域的豐富經驗讓這場關于 Gaudi 2 的發布會很大程度上變成了針對重要客戶的宣傳,除了性價比之外,Gaudi 2 還在規模化部署和開箱即用方面讓人印象深刻。
同樣是 MLPerf 3.0 基準測試,在 GPT3 模型上,把 Gaudi 2 從 256 個增加到 384 個,其擴展效果是近乎線性的(近線性 95%),這意味着客戶可以按照自己的需要擴展部署 Gaudi 2 芯片而幾乎不用考慮其性能上的結構性損失。
至于開箱即用方面,Gaudi 2 的 SynapseAI 軟體套件集成了 PyTorch、TensorFlow 和 DeepSpeed 等主流人工智能開發框架,這意味着開發者可以非常迅速地在不同硬體平台上進行代碼遷移。
有多迅速?Hugging Face 首席布道師 Julien Simon 給出的答案是 10 分鍾,這還包括了閱讀文檔的時間。
" 最簡單的開發體驗之一。"Julien Simon 如此形容。
實際上,作為一款在去年就已經發布的芯片,Gaudi 2 在近一年的時間裡一直在針對大模型需求進行軟體方面的迭代,同去年 11 月提交 MLPerf 3.0 基準測試的數據相比,Gaudi 2 在 Bert 模型性能上提高了 10%,英特爾宣稱預計在第三季度發布對 FP8 軟體支持的時候(目前是 BF16),其性能還将有進一步明顯提升。
從性能、效率和遷移成本、規模化擴展方面,Gaudi 2 看上去都做好了準備。
要說還欠缺什麼部分,那可能是中國市場的東風。
對中國市場的重視
Gaudi 1 就是在北京發布的,此番故地重遊,英特爾為 Gaudi 2 中國區發布做了許多準備。
中國區發布的 Gaudi 2 相比國際版,内部互聯的以太網接口由 24 個減少到了 21 個,這顯然是為了應對美國政府相關的合規要求。
不過英特爾數據中心與人工智能集團副總裁兼中國區總經理陳葆立表示,其整體性能基本上是一致的,特别是 Gaudi 2 在中國會首先搭載在浪潮信息的伺服器上,根據 Eitan Medina 的說法,浪潮伺服器的設計實際上沒有用到所有的網口,也就說企業級客戶在采購伺服器(而不是 Gaudi 2 芯片本身)的時候,其性能損失很少。
英特爾的營收有近四分之一來自中國,實際上本周英特爾 CEO Patrick Gelsinger 也在中國,盡管沒有任何公開媒體行程。這已經是這位大刀闊斧改革英特爾的 CEO 今年内二度訪華。
深耕中國市場讓英特爾可以更好地同中國產業上下遊的夥伴緊密合作。除了 Gaudi 2 芯片,發布會上一同亮相的還有浪潮伺服器 NF5698G7,它由 8 顆 Gaudi 2 和兩顆至強芯片組成。浪潮信息高級副總裁、AI&HPC 產品線總經理劉軍宣稱,其算法工程師實際體驗後認為它的使用體驗 " 和 GPU 上使用基本沒有太大區别 ",這意味着客戶從遷移數據到訓練負載的整個過程都将十分平順。
基于 Gaudi 2 加速器的浪潮 NF5698G7 伺服器
除了浪潮外,Gaudi 2 在中國的合作夥伴還有紫光新華三和超聚變等公司,也就是說,企業級客戶數據中心的采購需求可以在芯片發布的第一天經由英特爾的合作夥伴來滿足。
能搶走多少英偉達的蛋糕?
不管英特爾做了多少,最後的問題還得回到商業化上。當天 Sandra Rivera 也被問到關于英特爾對英偉達、特别是 CUDA 生态的看法,由于許多開發者都在 CUDA 環境中編寫代碼,這種生态實際上構成了競争壁壘,讓遷移數據到别的平台變得格外困難。
Sandra Rivera 對此表示了樂觀,80% 的大模型開發者是基于框架層做開發,而 Gaudi 2 和英特爾的伺服器在軟體層面已經基于框架層做了很長時間的積累和适配,并且同包括 Hugging Face 在内的開源社區進行合作。
換而言之,英特爾已經在自己所能及的範圍内盡力降低了開發者的遷移成本。考慮到英特爾多年來在數據中心業務的積累,尤其是至強系列伺服器芯片同 Gaudi 2 能發揮更好的協同效果,在地緣政治日益復雜的背景下,作為一種替代方案,Gaudi 2 顯然是一個值得考慮的選項——一個合格和更具性價比的替代品,這實際上也是英特爾對這一代 Gaudi 2 芯片的定位。
當然,上面的情況都屬于理論推測的範疇,想要在人工智能浪潮中分一杯羹,還不得不考慮真實的商業邏輯。
盡管投資生成式 AI 看上去是所有科技大廠的必選項,但在資金投入上大部分企業仍然被避險情緒所主導,也就是說,大家并不願意冒遷移平台的風險。
在大模型芯片領網域,英特爾還是個新手,Gaudi 2 在全球範圍内推出已經有一年多時間,而配套的軟體一直在優化迭代,這或許影響了用戶的采購意願,在發布會上英特爾沒有宣布任何一家客戶采購 Gaudi 2,與之形成鮮明對比的是英偉達在台北電腦展上推出 DGX GH200 超級計算機時就同步官宣了三個大客戶:谷歌雲、Meta 和微軟。
更嚴峻的挑戰在于,即便是這些數據中心大客戶,也都在開發屬于自己的大模型芯片以期削減成本。這個過程是與它們大肆采購英偉達芯片同步展開的,而這同樣也是英特爾必須面對的課題。
算下來,中國市場對于英特爾來說确實是個難得的機會,但芯片業務上把目光投向中國的也不只英特爾一家,包括 AMD 和 Graphcore 在内的公司都在加緊推出自己的 AI 專用加速芯片,它們同英特爾正產生着直接的競争。特别是 AMD,這個 CPU 領網域英特爾的老對手剛剛發布了名為 MI300X 的 GPU,在多項性能和指标上都宣稱高過 H100 一籌。
相比模型層的百模大戰,硬體層 " 天下苦英偉達久矣 " 的呼聲一直存在,英特爾這次精準出手可以看作是這家老牌芯片公司對英偉達人工智能領網域壟斷地位的一次挑戰,而它的成功與否,最終還是需要交給市場來檢驗。