今天小編分享的科技經驗:三大芯片巨頭,新混戰!,歡迎閲讀。
在整個計算機發展歷史中,我們不得不學習計算機語言,但随着人工智能時代的來到,計算機也将學會我們的語言,與人類進行交流,ChatGPT 生成式人工智能的爆火更是将人機互動提升到了新的高度。這種變革也許就如同當時互聯網的到來一樣重要。作為底層支撐的芯片,正成為計算機學習人類語言的關鍵。
" 春江水暖鴨先知 ",圍繞生成式 AI,芯片三大巨頭英偉達,AMD 和英特爾無不在快馬加鞭的進行部署,迎接新拐點的到來。随着昨天英特爾祭出高性價比的 " 中國特定版 "Gaudi 2 新產品,三大芯片巨頭英特爾、英偉達和 AMD 已經都在生成式 AI 領網域擁有了各自強有力的 " 武器 ",生成式 AI 領網域即将迎來一番鏖戰!
英偉達,瘋狂押注生成式 AI 初創公司
英偉達無疑是生成式 AI 領網域最大的赢家,憑借在生成式 AI 領網域 " 一芯難求 " 的 A100 芯片,英偉達已經賺的盆滿缽滿,市值更是飙到 1 萬億美元,短暫的與科技巨頭肩并肩。相信大家都對最近英偉達的 " 瘋狂投資 " 頗為關注,英偉達一連投資了 Inflection AI、RunwayML、Cohere 等好幾家初創公司,而這些投資對象無不與生成式 AI 相關。
随着越來越多的大模型初創公司的興起,英偉達正在在成百上千的生成式人工智能競賽中選 " 馬 ",向初創公司投入更大的賭注。根據 PitchBook 的數據,英偉達自 2018 年以來參與的五筆最大的風險投資交易都發生在今年,确切的説是在過去六個月内,足見英偉達對人工智能的看好。被老黃選中的這些生成式 AI 初創企業的估值正在不斷飙升,老黃似要再賺一波。
Inflection AI 成立于 2022 年,由 Google DeepMind 聯合創始人 Mustafa Suleyman 和 LinkedIn 聯合創始人 Reid Hoffman 創立,該公司正在使用英偉達的芯片部署大規模的生成式人工智能模型,構建面向消費者的 AI 產品,被認為是 OpenAI 的頂級競争對手。在 Inflection AI 的最新一輪輪融資中,除了英偉達,Inflection AI 的投資者名單中還有微軟聯合創始人比爾蓋茨、谷歌前首席執行官 Eric Schmidt。目前 Inflection AI 的估值據説已達到 40 億美元。
Inflection AI 将構建一個由大約 22,000 個英偉達 H100 芯片組成的超級計算機,這大約是用于訓練所有 GPT4 的計算量的三倍。他們已經發布了一個名為 Pi 的聊天機器人(Pi 代表 "personal intelligence,個人智慧 "),與 ChatGPT 類似,可提供 " 文本和語音對話、友好的建議以及自然流暢的簡潔信息 "。
Inflection AI 的 Pi 機器人
出于好奇心,小編嘗試着與其對話," 你與 ChaGPT 誰更厲害?"他的回答是" 我不會回答這個問題——那只是自找麻煩。我專注于成為一個友好、支持性的人工智能,為人們提供各種幫助。ChatGPT 做了一些令人驚奇的事情,但我并不想與它競争。我正在努力做我自己的事!"這個回答确實有點絲滑,他不僅能發出跟真人口語一般的語音(4 種可選),甚至還能發表情包。
英偉達投資的另一家初創公司 Runway 是一家 AI 視頻軟體公司,成立于 2018 年,該公司一直處于人工智能與創造力相結合的前沿。今年他們利用計算機圖形學和機器學習方面的最新進展發布了 Gen1 和 Gen2 兩代視頻生成模型,其中 Gene1 還需要提供原源頻,而 Gen2 僅需要幾個單詞就能生成短視頻。目前早期的生成式 AI 大都是集中在 " 文生文 " 和 " 文生圖 " 等方面,但是Runway 這家初創公司做的是文生視頻,這算是一個無人區。據悉,Gen-2 生成視頻每秒的成本為 0.05 美元。如此看來,生成式視頻的潛力也巨大。
Runway 的 Gen-2 生成式視頻
2023 年 6 月,Runway 從谷歌和英偉達那裏募集了 1.41 億美元的投資,目前其估值已飙升至 15 億美元,比去年 12 月增長了 3 倍。英偉達首席執行官黃仁勳表示,生成式 AI 正在改變内容創作行業,Runway 的技術為難以想象的故事和想法注入了新的生命。
Cohere 是一家總部位于加拿大,專注于企業的生成人工智能初創公司,該公司由谷歌前頂級人工智能研究人員創立。Cohere 生產的人工智能工具可以為文案寫作、搜索和摘要提供支持,專注在企業領網域,也是為了将自己與 OpenAI 區别開來,避免競争的一種表現。2023 年 6 月 8 日,其在一輪融資中籌集了 2.7 億美元,投資者中包括英偉達和甲骨文等。最新一輪的融資使其估值達到 22 億美元左右。
可以看出,英偉達在生成式人工智能競賽當中,選中了不同細分應用的 " 戰馬 ",押寶也算押的全面。
而除了投資押注之外,英偉達還在為其自身的 AI 發展鞏固護城河。
2023 年 2 月份,英偉達秘密收購了一家初創公司 OmniML,官網資料顯示,OmniML 成立于 2021 年,總部位于加利福尼亞州,OmniML 由麻省理工學院 EECS 教授、原深鑑科技聯合創始人韓松博士、前 Facebook 工程師吳迪博士和斯坦福大學 " 深度壓縮 " 技術聯合發明人毛慧子博士創立。
據悉,OmniML 是一家專門致力于縮小 ML(機器學習)模型的公司,以便将大模型移動到無人機、智能相機和汽車等等邊緣設備當中去。去年,OmniML 公司推出了一個名為 Omnimizer 的平台,這是一個能使人工智能快速、輕松地進行大規模優化的平台。除此之外,該平台還優化了模型,使其甚至能夠在功耗最低的設備上運行。而在被英偉達收購之前,2022 年 3 月,OmniML 獲得了 GSR Ventures、Foothill Ventures 以及高通風投領投的 1000 萬美元的種子輪資金。
至于為何要收購這家初創公司,從英偉達的邊緣 AI 布局也不難理解。雖然英偉達憑借其 GPU 在數據中心 AI 訓練市場占據主導地位,但是邊緣也是一塊很大的市場,英偉達也有意要争一争。目前英偉達主要有三大邊緣產品,分别是用于企業邊緣計算的 NVIDIA EGX 平台、用于工業應用的 IGX 平台以及用于自主機器和嵌入式邊緣用例的 Jetson。而通過收購 OmniML,将 OmniML 技術集成到其邊緣產品中,英偉達可以優化模型,以便在低端硬體上進行高效部署。考慮到如果将大模型轉移到邊緣,未來可能帶來巨大的價值,英偉達收購這家尚處于起步階段的公司也就不足為奇了。而此舉無疑将進一步增強英偉達全面的邊緣 AI 戰略,也将鞏固其在 AI 市場的領導地位。
搶奪英偉達市場,AMD 先行一步
而另一邊的 AMD 早已按捺不住,先是在去年 6 月份,AMD 推出 CPU+GPU 架構的 Instinct MI300 正式進軍 AI 訓練端。緊接着在今年 6 月的 AMD 發布會上,祭出 AI 大模型 " 專用武器 "GPU MI300X,它配備 192GB HBM 内存,與英偉達的 H100 相比,MI300X 提供了 2.4 倍的内存和 1.6 倍的内存帶寬,這将成為 AMD 的一大優勢,因為内存容量是當下 AI 大模型的限制因素,192GB 的 MI300X 也讓運行更大的模型成為可能。
MI300X 是 AMD 特意針對大語言模型優化的版本,它是 MI300 產品的「純 GPU」版本,擁有 12 個 5nm 的小芯片,晶體管數量達到了 1530 億個,是 AMD Chiplet 技術應用的又一傑作。據 AMD CEO Lisa Su 的介紹,單個 MI300X 可以在内存中運行多達大約 800 億個參數的模型,這意味着減少了所需的 GPU 數量,而且使用多個 MI300X 疊加可以處理更多的參數。
MI300X 看起來是一個強有力的競争者。不過,MI300X 的高密度 HBM 卻是燒錢神器,與 NVIDIA H100 相比,AMD 可能不會具有顯着的成本優勢。據悉,MI300X 将在第三季度出樣,第四季度加大生產。屆時我們可以看看實際的情況。
AMD 與英偉達在 GPU 領網域的競争由來已久,早在 2006 年,AMD 收購加拿大公司 ATI 獲得了圖形處理技術,這是 AMD 最重要的一筆收購,自此開啓了與英偉達在 GPU 領網域的長久戰。2022 年 AMD 又收購了 DPU 芯片廠商 Pensando,這些都成為 AMD 面對生成式 AI 巨大的市場需求下,能繼續與英偉達抗衡的背後引擎。
要知道,英偉達除了 GPU 芯片之外,DPU 芯片也在生成式 AI 領網域發揮着重要作用。當 GPU 數量擴展到成千上萬時,性能不再僅依賴于單一 CPU,也不再僅依賴于單一伺服器,而是更加依賴于網絡的性能。" 網絡已經成為生成式 AI 或 AI 工廠中的計算單元,就像 InfiniBand 的 DPU 不僅僅負責通信,也是計算單元的一部分。因此,我們不僅要考量 CPU 和 GPU 提供的計算能力,還需要将網絡的計算能力納入考慮範圍。" 英偉達網絡亞太區高級總監宋慶春在此前的一次交流會中指出。
英特爾拿什麼打生成式 AI 市場?
對于如此火爆的生成式 AI 領網域,英特爾自然也想分一杯羹。英特爾在個人電腦市場的搖錢樹正在被逐漸侵蝕,他們早就看中了數據中心以及 AI 的市場。但在生成式 AI 領網域,不同于英偉達和 AMD 的做法,英特爾似乎不是靠 GPU 來打。英特爾雖然也發布了 GPU 產品,不過其 GPU 似乎暫時志不在此,而是更加注重其 GPU 在科學計算領網域的優勢。前段時間,英特爾宣布配備了其 Max 系列 CPU 和 GPU 的 Aurota 超級計算機已經安裝完成,其中包含了 63744 個 Ponte Vecchio 計算 GPU,這算是英特爾 Max 系列 GPU 的首次大規模部署。
而且英特爾暫時放棄了 CPU+GPU Falcon Shores"XPU" 組合產品,轉而采用純 GPU Falcon Shores。這使得英特爾無法與 AMD 的 Instinct MI300 和 Nvidia 的 Grace Hopper 處理器競争,後兩者均采用混合處理器。延伸閲讀:關于芯片三巨頭的 XPU 之間的競争,筆者曾在《英偉達,落後了?》一文中進行過描述。英特爾的這一轉變是由于生成式 AI 大模型的爆發而做出的調整,英特爾認為,生成式 AI 市場大部分是來自商業領網域,所以原來的 XPU 策略一方上市場不如标準化芯片市場大,成本會太高,而且标準化芯片不一定會受到客户的青睐,這引發了英特爾如何構建下一代超級計算芯片的思維轉變。不過,英特爾的 Falcon Shores 改用純 GPU,不知道是否也會像 AMD 的 MI300X 一樣做出針對大模型應用產品。
無論如何,在當下這是緊迫的時間節點下,英特爾用來打生成式 AI 市場的主要產品是其 AI 芯片—— Gaudi 2。
Habana Gaudi 2 夾層卡
談到 Gaudi 2,就不得不從一段收購歷史説起。為了進軍深度學習市場,早在 2016 年 8 月,英特爾就花費 4 億美元收購了 Nervana Systems,當時的想法是,通過開發專門用于深度學習的 ASIC,它可以獲得與英偉達競争的優勢。不過 2019 年 12 月,英特爾又斥資 20 億美元收購了芯片功能更強的 Habana Labs 之後,英特爾也在 2020 年放棄了 Nervana 神經網絡處理器(NNP)的研發,轉而集中精力開發 Habana AI 產品線。
而 Nervana 被放棄之後,原 Nervana 創始人 Naveen Rao 和 Nervana 的前核心員工 Hanlin Tang 離開了英特爾,另立門户于 2021 年創立了一家生成式 AI 初創公司 MosaicML,他們專注于企業生成式 AI 的需求,具體而言,MosaicML 提供了一個平台,讓各類型企業都可以輕松地在安全的環境中訓練和部署 AI 模型。而就在 2023 年 6 月 28 日,MosaicML 被大數據巨頭 Databricks 以 13 億美元收購,這可以説是今年以來生成式 AI 領網域内公布的最大一筆收購案。
言歸正傳,繼續説回英特爾,被英特爾收購後,Habana 一共發布了 2 款 AI 芯片,分别是第一代 Gaudi 和 Gaudi 2。Gaudi 平台從一開始就為數據中心的深度學習訓練和推理工作負載而構建的 AI 加速器。其中 Gaudi 2 于 2022 年推出,相比第一代,Gaudi 2 在性能和内存方面的提升,使其成為市場上能夠橫向擴展 AI 訓練的一大解決方案。
尤為值得一提的是,就在日前,英特爾特意為中國市場推出了專為訓練大語言模型而構建的最新 Gaudi 2 新產品—— HL-225B 夾層卡。HL-225B 處理器符合美國工業與安全局 ( Bureau of Industry and Security, BIS ) 發布的有關出口規定。Gaudi2 夾層卡符合 OCP OAM 1.1(開放計算平台之開放加速器模塊)規範。這樣一來,客户便可從符合規範的多種產品中做出選擇,靈活地進行系統設計。
Gaudi 2 處理器采用 7nm,作為對比,第一代 Gaudi 處理器采用 16nm 工藝。Gaudi 2 具備出色的 2.1 Tbps 網絡容量可擴展性,原生集成 21 個 100 Gbps ROCE v2 RDMA 端口,可通過直接路由實現 Gaudi 處理器間通信。Gaudi2 處理器還集成了專用媒體處理器,用于影像和視頻解碼及預處理。
HL-225B 夾層卡采用的是 Gaudi HL-2080 處理器,HL-2080 處理器擁有 24 個完全可編程的第四代張量處理器核心 ( TPC ) 。這些核心原生設計能夠為廣泛的深度學習工作負載加速,同時還賦予用户按需進行優化和創新的靈活性。此外,它還集成了 96 GB HBM2e 内存和 48MB SRAM,支持 600 瓦夾層卡級熱設計功耗 ( TDP ) 。
Gaudi 2 是為數不多的能替代英偉達 H100 進行 LLM 訓練的方案。最近英特爾公布了 Gaudi 2 在 GPT-3(1750 億個參數)基本模型的 LLM 訓練基準的性能結果。MLPerf 結果顯示:
Gaudi 2 在 GPT-3 上的訓練時間情況是在 384 個加速器上花費了 311 分鍾,作為對比,英偉達和雲提供商 CoreWeave 合作運行的 3584 GPU 計算機在不到 11 分鍾内完成了這項任務,如下圖所示。以每個芯片為基礎,英偉達 H100 系統的任務速度是 Gaudi2 的 3.6 倍。但是 Gaudi 2 的優勢在于其成本要比 H100 低,而且能跑大模型。
Gaudi 2 在 GPT-3 模型上從 256 個加速器到 384 個加速器實現了近線性 95% 擴展;而且它在計算機視覺(ResNet-50 8 加速器和 Unet3D 8 加速器)以及自然語言處理模型(BERT 8 和 64 加速器)方面均取得了出色的訓練結果;與 11 月提交的内容相比,Gaudi 2 在 BERT 和 ResNet 模型的性能分别提高了 10% 和 4%,代表軟體成熟度在提高。
英特爾聲稱目前在 FP16 軟體中 Gaudi 2 比英偉達 A100 價格更有競争力,且性能更高,其每瓦性能約為英偉達 A100 的 2 倍。而且要計劃在今年 9 月份在 FP8 軟體中顯著縮短訓練完成時間,在性價比上打敗英偉達的 H100。
除了 Gaudi 2,英特爾的另一款可以跑大模型的產品是第四代至強 CPU。不過 CPU 的應用空間相對有局限性,英特爾的 CPU 只适用于少數從頭開始間歇性訓練大型模型的客户,并且通常在他們已經部署來運行業務的基于 Intel 的伺服器上使用。所以 CPU 不算是英特爾用來主打生成式 AI 市場的產品,可以算作是一個補充方案。
結語
對于比 " 毒品 " 還難買到的英偉達 GPU 而言,英特爾 Gaudi 2 和 AMD MI300X 将成為 Nvidia H100 的有利替代品,不過英偉達留出的時間視窗可不大,據悉,英偉達的 H100 GPU 直到明年一季度仍處于售罄的狀态,與此同時,英偉達正在不斷增加 H100 GPU 的出貨量,還訂購了大量用于 H100 GPU 的晶圓。
無論如何,目前在生成式 AI 市場,還是芯片巨頭的天下。國内的 GPU 芯片企業或者 SoC 企業都需要加把勁了。