今天小編分享的科學經驗:谷歌最新AI芯片打平英偉達B200,專為推理模型打造,最高配每秒42500000000000000000次浮點運算,歡迎閱讀。
谷歌首款 AI 推理特化版 TPU 芯片來了,專為深度思考模型打造。
代号 Ironwood,也就是 TPU v7,FP8 峰值算力 4614TFlops,性能是 2017 年第二代 TPU 的 3600 倍,與 2023 年的第五代 TPU 比也有 10 倍。
(為什麼不對比第六代,咱也不知道,咱也不敢問。)
第七代 TPU 還突出高擴展性,最高配集群可擁有 9216 個液冷芯片,峰值算力 42.5 ExaFlops,也就是每秒運算 42500000000000000000 次。
是目前全球最強超級計算機 EL Capitan 的 24 倍。
谷歌稱,AI 正從響應式(提供實時信息供人類解讀)轉變為能夠主動生成洞察和解讀的轉變。
在推理時代,Agent 将主動檢索和生成數據,以協作的方式提供洞察和答案,而不僅僅是數據。
而實現這一點,正需要同時滿足巨大的計算和通信需求的芯片,以及軟硬協同的設計。
谷歌 AI 芯片的軟硬協同
深度思考的推理模型,以 DeepSeek-R1 和谷歌的 Gemini Thinking 為代表,目前都是采用 MoE(混合專家)架構。
雖然激活參數量相對少,但總參數量巨大,這就需要大規模并行處理和高效的内存訪問,計算需求遠遠超出了任何單個芯片的容量。
(o1 普遍猜測也是 MoE,但是 OpenAI 他不 open 啊,所以沒有定論。)
谷歌 TPU v7 的設計思路,是在執行大規模張量操作的同時最大限度地減少芯片上的數據移動和延遲。
與上一代 TPU v6 相比,TPU v7 的高帶寬内存 ( HBM ) 容量為 192GB,是上一代的 6 倍,同時單芯片内存帶寬提升到 7.2 TBps,是上一代的 4.5 倍。
TPU v7 系統還具有低延遲、高帶寬的 ICI(芯片間通信)網絡,支持全集群規模的協調同步通信。雙向帶寬提升至 1.2 Tbps,是上一代的 1.5 倍。
能效方面,TPU v7 每瓦性能也是上一代的兩倍。
硬體介紹完,接下來看軟硬協同部分。
TPU v7 配備了增強版 SparseCore ,這是一款用于處理高級排序和推薦工作負載中常見的超大嵌入的數據流處理器。
TPU v7 還支持 Google DeepMind 開發的機器學習運行時 Pathways,能夠跨多個 TPU 芯片實現高效的分布式計算。
谷歌計劃在不久的将來把 TPU v7 整合到谷歌雲 AI 超算,支持支持包括推薦算法、Gemini 模型以及 AlphaFold 在内的業務。
網友:英偉達壓力山大了
看過谷歌最新 TPU 發布,評論區網友紛紛 at 英偉達。
有人稱如果谷歌能以更低的價格提供 AI 模型推理服務,英偉達的利潤将受到嚴重威脅。
還有人直接 at 各路 AI 機器人,詢問這款芯片對比英偉達 B200 如何。
簡單對比一下,TPU v7 的 FP8 算力 4614 TFlops,比 B200 标稱的 4.5 PFlops(=4500 TFlops)略高。内存帶寬 7.2TBps,比英偉達 B200 的 8TBps 稍低一點,是基本可以對标的兩款產品。
實際上除了谷歌之外,還有兩個雲計算大廠也在搞自己的推理芯片。
亞馬遜的 Trainium、Inferentia 和 Graviton 芯片大家已經比較熟悉了,微軟的 MAIA 100 芯片也可以通過 Azure 雲訪問。
AI 芯片的競争,越來越激烈了。
參考鏈接:
[ 1 ] https://blog.google/products/google-cloud/ironwood-tpu-age-of-inference/
[ 2 ] https://x.com/sundarpichai/status/1910019271180394954
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
速搶席位!中國 AIGC 產業峰會觀眾報名通道已開啟 ♀️
最新嘉賓曝光啦 百度、華為、AWS、MSRA、無問芯穹、數勢科技、面壁智能、生數科技等十數位 AI 領網域創變者将齊聚峰會,讓更多人用上 AI、用好 AI,與 AI 一同加速成長~
4 月 16 日,就在北京,一起來深度求索 AI 怎麼用
一鍵星标
科技前沿進展每日見