大模型最快推理芯片一夜易主：每秒500tokens幹翻GPU！谷歌TPU人馬打造，喊話奧特曼：你們也太慢了 - 大酷樂

今天小編分享的科學經驗：大模型最快推理芯片一夜易主：每秒500tokens幹翻GPU！谷歌TPU人馬打造，喊話奧特曼：你們也太慢了，歡迎閱讀。

太快了太快了。

一夜間，大模型生成已經沒什麼延遲了……來感受下這速度。

眼花缭亂了吧，生成速度已經接近每秒 500 tokens。

還有更直觀的列表對比，速度最高能比以往這些雲平台廠商快個 18 倍吧。

（這裡面還有個熟悉的身影：Lepton）

網友表示：這速度簡直就是飛機 vs 走路。

值得一提的是，這并非哪家大公司進展——

初創公司 Groq，谷歌 TPU 團隊原班人馬，基于自研芯片推出推理加速方案。（注意不是馬斯克的 Grok）

據他們介紹，其推理速度相較于英偉達 GPU 提高了 10 倍，成本卻降低到十分之一。

換言之，任何一個大模型都可以部署實現。

目前已經能支持 Mixtral 8x7B SMoE、Llama 2 的 7B 和 70B 這三種模型，并且可直接體驗 Demo。

他們還在官網上喊話奧特曼：

你們推出的東西太慢了……

每秒接近 500tokens

既然如此，那就來體驗一下這個号稱「史上最快推理」的 Groq。

先聲明：不比較生成質量。就像它自己說的那樣，内容概不負責。

目前，演示界面上有兩種模型可以選擇。

就選擇 Mixtral 8x7B-32k 和 GPT-4 同擂台對比一下。

提示詞：你是一個小學生，還沒完成寒假作業。請根據《星際穿越》寫一篇 500 字的讀後感。

結果啪的一下，只需 1.76 秒就生成了一長串讀後感，速度在每秒 478Tokens。

不過内容是英文的，以及讀後感只有三百六十多字。但後面也趕緊做了解釋說考慮到是小學生寫不了那麼多……

至于 GPT-4 這邊的表現，内容質量自然更好，也體現了整個思路過程。但要完全生成超過了三十秒。單是讀後感内容的生成，也有近二十秒鍾的時間。

除了 Demo 演示外，Groq 現在支持 API 訪問，并且完全兼容，可直接從 OpenAI 的 API 進行簡單切換。

可以免費試用 10 天，這期間可以免費獲得 100 萬 Tokens。

目前支持 Llama 2-70B 和 7B， Groq 可以實現 4096 的上下文長度，還有 Mixtral 8x7B 這一型号。當然也不局限于這些型号，Groq 支持具體需求具體定制。

價格方面，他們保證：一定低于市面上同等價格。

不過可以看到，每秒 500tokens似乎還不是終極速度，他們最快可以實現每秒 750Tokens。

谷歌 TPU 團隊創業項目

Groq 是集軟硬體服務于一體的大模型推理加速方案，成立于 2016 年，創始團隊中很多都是谷歌 TPU 的原班人馬。

公司領導層的 10 人中，有 5 人都曾有谷歌的工作經歷，3 人曾在英特爾工作。

創始人兼 CEO Jonathan Ross，設計并實現了第一代 TPU 芯片的核心元件，TPU 的研發工作中有 20% 都由他完成。

Groq 沒有走 GPU 路線，而是自創了全球首個 L（anguage）PU 方案。

LPU 的核心奧義是克服兩個 LLM 瓶頸——計算密度和内存帶寬，最終實現的 LLM 推理性能比其他基于雲平台廠商快 18 倍。

據此前他們介紹，英偉達 GPU 需要大約 10 焦耳到 30 焦耳才能生成響應中的 tokens，而 Groq 設定每個 tokens 大約需要 1 焦耳到 3 焦耳。

因此，推理速度提高了 10 倍，成本卻降低了十分之一，或者說性價比提高了 100 倍。

延遲方面，在運行 70B 模型時，輸出第一個 token 時的延時僅有 0.22 秒。

甚至為了适應 Groq 的性能水平，第三方測評機構 ArtificialAnalysis 還專門調整了圖表坐标軸。

據介紹，Groq 的芯片采用 14nm 制程，搭載了 230MB 大 SRAM 來保證内存帶寬，片上内存帶寬達到了 80TB/s。

算力層面，Gorq 芯片的整型（8 位）運算速度為 750TOPs，浮點（16 位）運算速度則為 188TFLOPs。

Groq 主要基于該公司自研的 TSP 架構，其内存單元與向量和矩陣深度學習功能單元交錯，從而利用機器學習工作負載固有的并行性對推理進行加速。

在運算處理的同時，每個 TSP 都還具有網絡交換的功能，可直接通過網絡與其他 TSP 交換信息，無需依賴外部的網絡設備，這種設計提高了系統的并行處理能力和效率。

結合新設計的 Dragonfly 網絡拓撲，hop 數減少、通信延遲降低，使得傳輸效率進一步提高；同時軟體調度網絡帶來了精确的流量控制和路徑規劃，從而提高了系統的整體性能。

Groq 支持通過 PyTorch、TensorFlow 等标準機器學習框架進行推理，暫不支持模型訓練。

此外 Groq 還提供了編譯平台和本地化硬體方案，不過并未介紹更多詳情，想要了解的話需要與團隊進行聯系。

而在第三方網站上，搭載 Groq 芯片的加速卡售價為 2 萬多美元，差不多 15 萬人民币。

它由知名電子元件生產商莫仕（molex）旗下的 BittWare 代工，同時該廠也為英特爾和 AMD 代工加速卡。

目前，Groq 的官網正在招人。

技術崗位年薪為 10 萬 -50 萬美元，非技術崗位則為 9 萬 -47 萬美元。

" 目标是三年超過英偉達 "

除此之外，這家公司還有個日常操作是叫板喊話各位大佬。

當時 GPTs 商店推出之後，Groq 就喊話奧特曼：用 GPTs 就跟深夜讀戰争與和平一樣慢……陰陽怪氣直接拉滿 ~

馬斯克也曾被它痛斥，說 " 剽竊 " 自己的名字。

在最新讨論中，他們疑似又有了新操作。

一名自稱 Groq 工作人員的用戶與網友互動時表示，Groq 的目标是打造最快的大模型硬體，并揚言：

三年時間内趕超英偉達。

這下好了，黃院士的核武器有新的目标了。

參考鏈接：

[ 1 ] https://wow.groq.com/

[ 2 ] https://news.ycombinator.com/item?id=39428880 å