今天小編分享的科技經驗:谷歌的自研芯片帝國,歡迎閲讀。
這兩天,AI 再一次登上了各大媒體的頭條。
12 月 6 日,谷歌官宣了了全新的多模态大模型 Gemini,包含了三個版本,根據谷歌的基準測試結果,其中的 Gemini Ultra 版本在許多測試中都表現出了 " 最先進的性能 ",甚至在大部分測試中完全擊敗了 OpenAI 的 GPT-4。
而在 Gemini 出盡了風頭的同時,谷歌還丢出了另一個另一個重磅炸彈——全新的自研芯片 TPU v5p,它也是迄今為止功能最強大的 TPU。
根據官方提供的數據,每個 TPU v5p pod 在三維環形拓撲結構中,通過最高帶寬的芯片間互聯(ICI),以 4,800 Gbps/chip 的速度将 8,960 個芯片組合在一起,與 TPU v4 相比,TPU v5p 的 FLOPS 和高帶寬内存(HBM)分别提高了 2 倍和 3 倍。
除此之外,TPU v5p 訓練大型 LLM 模型的速度比上一代 TPU v4 快 2.8 倍,利用第二代 SparseCores,TPU v5p 訓練嵌入密集模型的速度比 TPU v4 快 1.9 倍。TPU v5p 在每個 pod 的總可用 FLOPs 方面的可擴展性也比 TPU v4 高出 4 倍,且每秒浮點運算次數(FLOPS)增加了一倍,單個 pod 中的芯片數量也增加了一倍,大大提高了訓練速度的相對性能。
谷歌還找來了一堆科學家為 TPU v5p 的 AI 性能背書:
Salesforce 高級研究科學家 Erik Nijkamp 表示:" 我們一直在利用谷歌雲 TPU v5p 對 Salesforce 的基礎模型進行預訓練,這些模型将作為專業生產用例的核心引擎,我們看到訓練速度有了顯著提高。事實上,Cloud TPU v5p 的計算能力是上一代 TPU v4 的 2 倍之多。我們還非常喜歡使用 JAX 從 Cloud TPU v4 到 v5p 的無縫輕松過渡。我們很高興能通過精确量化訓練(AQT)庫對 INT8 精确格式的原生支持來優化我們的模型,從而進一步提高速度。"
Lightricks 核心生成式人工智能研究團隊負責人 Yoav HaCohen 博士表示:" 利用谷歌雲 TPU v5p 的卓越性能和充足内存,我們成功地訓練了文本到視頻的生成模型,而無需将其拆抽成單獨的進程。這種最佳的硬體利用率大大加快了每個訓練周期,使我們能夠迅速開展一系列實驗。在每次實驗中快速訓練模型的能力促進了快速迭代,這是我們的研究團隊在競争激烈的生成式人工智能領網域的寶貴優勢。"
谷歌 DeepMind 和谷歌研究院首席科學家 Jeff Dean 也力挺自家芯片:" 在早期使用中,谷歌 DeepMind 和谷歌研究院觀察到使用 TPU v5p 芯片的 LLM 訓練工作負載的速度比 TPU v4 代提高了 2 倍。對 ML 框架(JAX、PyTorch、TensorFlow)和協調工具的強大支持使我們能夠在 v5p 上更高效地擴展。有了第二代 SparseCores,我們還發現嵌入式工作負載的性能有了顯著提高。TPU 對于我們在 Gemini 等前沿模型上開展最大規模的研究和工程工作至關重要。"
對于谷歌來説,Gemini 是應對 Open AI 的一柄利器,而 TPU v5p 則是一塊敲門磚,用它來壘起一道抵御英偉達 GPU 的高牆,軟體硬體雙管齊下,似乎它在 AI 時代裏已處在不敗之地。
問題來了,谷歌憑什麼能擁有現在的優勢?
岌岌無名到名滿天下
谷歌 TPU 并非一蹴而就,它的自研旅途始于十年之前。
作為一家科技公司的谷歌,其實早在 2006 年就考慮為神經網絡構建專用集成電路 ( ASIC ) ,但到了 2013 年,情況變得緊迫了起來,谷歌的科學家們開始意識到,神經網絡快速增長的計算需求與數據中心數量存在着不可協調的矛盾。
當時的 Google AI 負責人 Jeff Dean 經過計算後發現,如果有 1 億安卓用户每天使用手機語音轉文字服務 3 分鍾,其中消耗的算力就是 Google 所有數據中心總算力的兩倍,而全球安卓用户遠不止 1 億。
數據中心的規模不可能無限制地擴張下去,谷歌也不可能限制用户使用服務的時間,但 CPU 和 GPU 都難以滿足谷歌的需求:CPU 一次只能處理相對來説很少量的任務,GPU 在執行單個任務時效率較低,而且所能處理的任務範圍更小,自研成了最後的出路。
谷歌立下了一個小目标:針對機器學習這一目的來構建特定領網域計算架構(Domain-specific Architecture),還要将深度神經網絡推理的總體擁有成本(TCO)降低至原來的十分之一。
通常,ASIC 的開發需要數年時間,但谷歌卻僅用了 15 個月就完成了 TPU 處理器的設計、驗證、制造并部署到數據中心。TPU 項目的技術負責人 Norm Jouppi(也是 MIPS 處理器的主要架構師之一)這樣描述衝刺階段:
" 我們的芯片設計速度非常快。這确實非常了不起。我們在沒有修正錯誤或更改掩膜的情況下,就開始出貨第一個芯片。考慮到我們在構建芯片的同時還在招聘團隊,然後招聘 RTL(電路設計)人員,并急于招聘設計驗證人員,這一切都非常忙碌。"
代表着谷歌技術結晶的初代 TPU 采用了 28 納米工藝制造,運行頻率為 700MHz,運行時功耗為 40W,谷歌将處理器包裝成外置加速卡,安裝在 SATA 硬碟插槽中,實現即插即用。TPU 通過 PCIe Gen3 x16 總線與主機連接,可提供 12.5GB/s 的有效帶寬。
與 CPU 和 GPU 相比,單線程 TPU 不具備任何復雜的微架構功能,極簡主義是特定領網域處理器的優點,谷歌的 TPU 一次只能運行一項任務:神經網絡預測,但每瓦性能卻達到了 GPU 的 30 倍,CPU 的 80 倍。
谷歌在這件事上表現得非常低調,直到 2016 年的 Google I/O 開發者大會上,首席執行官 Sundar Pichai 才正式向世界展示了 TPU 這一自研成果。
Pichai 對參會的嘉賓表示,DeepMind 研發的 AlphaGo 能夠擊敗韓國棋手李世石,底層硬體裏的 TPU 功不可沒,TPU 就像希臘神話中引發特洛伊戰争的女人——海倫,它的出現引起了 " 成千芯片與之競逐 "。
但谷歌并未止步于此,幾乎是在第一代 TPU 完成後,就立刻投入到了下一代的開發當中:2017 年,TPU v2 問世;2018 年,TPU v3 推出;2021 年,TPU v4 在 Google I/O 開發者大會上亮相……
而谷歌對于 AI 芯片也愈發得心應手:第一代 TPU 僅支持 8 位整數運算,這意味着它能進行推理,但訓練卻遙不可及;而 TPU v2,不僅引入了 HBM 内存,還支持了浮點運算,從而支持了機器模型的訓練和推理;TPU v3 則在前一代基礎上,重點加強了性能,且部署在 Pod 中的芯片數量翻四倍。
到了 TPU v4,Pichai 更是驕傲地表示:"AI 技術的進步有賴于計算基礎設施的支持,而 TPU 正是 Google 計算基礎設施的重要部分。新一代 TPU v4 芯片的速度是 v3 的兩倍多。Google 用 TPU 集群構建出 Pod 超級計算機,單台 TPU v4 Pod 包含 4096 塊 v4 芯片,每台 Pod 的芯片間互連帶寬是其他互連技術的 10 倍,因此,TPU v4 Pod 的算力可達 1 ExaFLOP,即每秒執行 10 的 18 次方浮點運算,相當于 1000 萬台筆記型電腦的總算力。"
到了 2023 年的今天,TPU 已經成為了 AI 芯片的代名詞之一,成為了繼 CPU 和 GPU 後又一重要的處理器,它部署在谷歌數十座數據中心當中,每天完成着數以億計的 AI 計算任務。
谷歌的自研帝國
TPU 只是谷歌自研的序幕。
2017 年的 Google Cloud Next '17 大會上,谷歌推出了名為 Titan 的定制安全芯片,它專為硬體級别的雲安全而設計,通過為特定硬體建立加密身份,實現更安全的識别和身份驗證,從而防範日益猖獗的 BIOS 攻擊。
Titan 芯片面向的并不全是谷歌自己,它的出現是為了説服企業,數據存在谷歌雲中比企業的本地數據中心更安全,谷歌表示,自研的 Titan 芯片通過建立強大的基于硬體的系統身份,來驗證系統固件和軟體組件,保護啓動的過程,這一切得益于谷歌自己創建的硬體邏輯,從根本上減少了硬體後門的可能性,基于 Titan 的生态系統也确保了設施僅使用授權且可驗證的代碼,最終讓谷歌雲擁有了比本地數據中心更安全的可靠性。
Titan 的出現,只不過是小試牛刀,2021 年 3 月,谷歌在 ASPLOS 會議上首次介紹了一塊應用于 YouTube 伺服器的自研芯片,即 Argos VCU,它的任務很簡單,就是對用户上傳的視頻進行轉碼。
根據數據統計,用户每分鍾會向 YouTube 上傳超過 500 小時的各種格式的視頻内容,而谷歌則需要将這些内容快速轉換成多種分辨率(包括 144p、240p、360p、480p、720p、1080p、1440p、2160p 和 4320p)和各種格式(例如,H.264、VP9 或 AV1),沒有一塊具備強大的編碼能力的芯片,想要快速轉碼就是一件不可能的事情。
谷歌嘗試過兩種解決方案,第一種是英特爾的視覺計算加速器 ( VCA ) ,包含三個 Xeon E3 CPU,内置 Iris Pro P6300/P580GT4e 集成圖形内核和先進的硬體編碼器,第二種則是利用英特爾至強處理器外加軟體編碼來完成任務。
但不論是前者還是後者,都需要龐大的伺服器規模和巨額的電力損耗,于是,谷歌開啓了又一塊自研芯片—— VCU 的研發。負責監督 YouTube 龐大基礎設施的 Google 工程副總裁斯科特 · 西爾弗 ( Scott Silver ) 表示,從 2015 年開始,大約有 100 名 Google 工程師組成的團隊投身設計第一代 Argos 芯片,在此後幾年當中,這支團隊不僅完成了研發,還讓芯片應用在谷歌的數據中心當中,而 Argos 的實力也得以展現——它處理視頻的效率比傳統伺服器高 20 到 33 倍,處理高分辨率 4K 視頻的時間由幾天縮短為數小時。
下一代 Argos 或許早已悄悄在谷歌伺服器中上線了,根據報道,谷歌自研的第二代 VCU 将支持 AV1、H.264 和 VP9 編解碼器,可以進一步提高其編碼技術的效率,也将會是 YouTube 内容創作生态的最有力支撐。
而谷歌最強的大招還得是最復雜的手機 SoC。2021 年 10 月 19 日,一場秋季發布會上,搭載谷歌首款自研芯片 Tensor 的旗艦手機 Pixel 6 系列首次亮相。
谷歌高級副總裁 Rick Osterloh 在發布會上表示,這款芯片是 " 公司歷史上最大的移動硬體創新 ",而谷歌 CEO Sundar Pichai 更是早早地在推特上曬出了 Tensor 芯片的照片,對于自研項目的自豪感溢于言表。
不過這塊自研芯片,實質上是基于三星在 2020 年開放的半定制芯片設計的服務,在 TechInsights 的拆解圖中,Tensor 的封裝尺寸為 10.38mm x 10.43mm = 108.26mm 2,内部芯片标識為 "S5P9845",符合傳統三星 Exynos 處理器命名規則,如 Exynos 990 的芯片标識為 S5E9830,Exynos 2100 5G SoC 芯片标識為 S5E9840,本質上是谷歌定義,三星設計代工的一塊芯片。
即便如此,谷歌的自研芯片的布局也已初具雛形,從 TPU 到 Titan,從 VCU 到 Tensor,谷歌走過了十年的旅程,而它試圖全盤掌握這個硅片組成帝國的野心也昭然若揭。
谷歌的聰明帳與絆腳石
對于谷歌來説,要錢有錢,要技術有技術,要應用場景有應用場景,可以説是各大科技巨頭中在自研 AI 芯片這條路上走得最遠的,其他廠商目前還在源源不斷地給英偉達賬户打錢,但谷歌卻早已做好了兩手準備,不少人甚至将它視為如今英偉達壟斷局面的最強挑戰者。
與微軟和亞馬遜相比,谷歌最突出的優勢,就是從系統級的角度設計 TPU,單個芯片固然重要,但在現實世界中如何在系統中組合使用則更為重要。雖然英偉達也從系統角度思考問題,但他們的系統規模比谷歌更小,範圍也更窄。而且谷歌還在 TPU 之間使用了定制的網絡堆棧 ICI。與昂貴的以太網和 InfiniBand 部署相比,這種鏈路延遲低、性能高,類似于英偉達的 NVLink。
事實上,谷歌的 TPUv2 可以擴展到 256 個 TPU 芯片,與英偉達的 H100 GPU 數量相同。在 TPU v3 和 TPU v4 中,這一數字分别增加到了 1024 和 4096 個。根據趨勢線,而最新的 TPU v5p 則可以擴展到 8960 個芯片,而無需通過低效的以太網。
此外,谷歌在 OCS、拓撲結構、DLRM 優化上也具有獨到的優勢,十年來積攢的經驗優勢幫助谷歌的 TPU 在數據中心裏和 AI 大模型中大展身手,在具體應用中,用遙遙領先來形容也不過分,未來谷歌完全擺脱英偉達 GPU 的掣肘,也并非不可能。
不過,谷歌還有一個不大不小的絆腳石。
TPU 的自研始于 2013 年,能在 15 個月裏快速部署到數據中心,同時實現快速迭代性能猛增,除了夜以繼日的谷歌研究人員外,另外一家公司提供的幫助也極其重要。
根據 2020 年摩根大通分析師哈蘭 · 蘇爾的報告,谷歌 TPU v1 至 v4 這幾代均是由博通共同設計的,當時它已經開始生產采用 7nm 工藝的 TPU v4,并開始與谷歌合作設計采用 5nm 工藝的 TPU v5
蘇爾表示,博通的專用集成電路(ASIC)業務 2020 全年收入為 7.5 億美元,高于 2016 年的 5000 萬美元,除了芯片設計之外,博通還為谷歌提供了關鍵的知識產權,并負責了制造、測試和封裝新芯片等步驟,以供應谷歌的新數據中心,博通還與其他客户如 Facebook、微軟和 AT&T 等公司合作設計 ASIC 芯片。
而根據 2022 年博通的财報,其将 ASIC 收入分為兩部分:路由和交換以及計算解除安裝。計算解除安裝在數據中心内分兩步處理。當提出計算請求時,路由器和交換機會決定由數據中心的哪個部分來處理這項工作。一旦決定,處理器(通常是 CPU 或 GPU,如 Nvidia 設計的處理器)就會進行計算,然後由這些路由器和交換機再次通過互聯網或專用網絡發送回最終用户。
就收入而言,博通是全球第二大人工智能芯片公司,僅次于英偉達,其 ASIC 的銷售額達數十億美元,而這正是谷歌為響應微軟與 OpenAI 合作而加大 TPU 部署的結果,光是一家谷歌的 TPU 就讓博通的 ASIC 收入翻了兩番還多,谷歌沒交給英偉達的人工智能税,以另一種形式進了博通的口袋。
無論是哪家公司,都不會心甘情願繼續交這筆錢的,因而在今年 9 月就傳出了谷歌準備在 2027 年前結束與博通的合作關系,消息人士稱,谷歌高管已經設定了放棄博通的目标,轉而開始考慮起了它的競争對手 Marvell,此前兩家公司就 TPU 芯片的定價問題陷入了長達數月的僵局。
雖然後面谷歌官方又出來辟謠,表示目前沒有計劃改變與博通的合作關系,但私底下兩家不合已經是人盡皆知的事情了。
谷歌在 TPU 上算了一筆聰明帳,在微軟等巨頭乖乖交錢的時候,它掏出了 TPU v5p 來對抗英偉達,但它沒想到的是,幾年前還不起眼的 ASIC 合作,如今卻成了 TPU 發展路上最大的一顆絆腳石,只要擴大 TPU 的部署規模,就得不斷加錢給博通。
如此想來,巨頭們真的是躲得過初一,躲不過十五,躲過了英偉達 GPU 高達 70% 的利潤,卻躲不過像博通這樣的合作公司,微軟這些巨頭,想要在 AI 芯片上省錢,今後難免會遇到像谷歌今日一般的困局吧。
今天是《半導體行業觀察》為您分享的第 3613 期内容,歡迎關注。