今天小編分享的科學經驗:大模型最快推理芯片一夜易主:每秒500tokens幹翻GPU!谷歌TPU人馬打造,喊話奧特曼:你們也太慢了,歡迎閱讀。
太快了太快了。
一夜間,大模型生成已經沒什麼延遲了……來感受下這速度。
眼花缭亂了吧,生成速度已經接近每秒 500 tokens。
還有更直觀的列表對比,速度最高能比以往這些雲平台廠商快個 18 倍吧。
(這裡面還有個熟悉的身影:Lepton)
網友表示:這速度簡直就是飛機 vs 走路。
值得一提的是,這并非哪家大公司進展——
初創公司 Groq,谷歌 TPU 團隊原班人馬,基于自研芯片推出推理加速方案。(注意不是馬斯克的 Grok)
據他們介紹,其推理速度相較于英偉達 GPU 提高了 10 倍,成本卻降低到十分之一。
換言之,任何一個大模型都可以部署實現。
目前已經能支持 Mixtral 8x7B SMoE、Llama 2 的 7B 和 70B 這三種模型,并且可直接體驗 Demo。
他們還在官網上喊話奧特曼:
你們推出的東西太慢了……
每秒接近 500tokens
既然如此,那就來體驗一下這個号稱「史上最快推理」的 Groq。
先聲明:不比較生成質量。就像它自己說的那樣,内容概不負責。
目前,演示界面上有兩種模型可以選擇。
就選擇 Mixtral 8x7B-32k 和 GPT-4 同擂台對比一下。
提示詞:你是一個小學生,還沒完成寒假作業。請根據《星際穿越》寫一篇 500 字的讀後感。
結果啪的一下,只需 1.76 秒就生成了一長串讀後感,速度在每秒 478Tokens。
不過内容是英文的,以及讀後感只有三百六十多字。但後面也趕緊做了解釋說考慮到是小學生寫不了那麼多……
至于 GPT-4 這邊的表現,内容質量自然更好,也體現了整個思路過程。但要完全生成超過了三十秒。單是讀後感内容的生成,也有近二十秒鍾的時間。
除了 Demo 演示外,Groq 現在支持 API 訪問,并且完全兼容,可直接從 OpenAI 的 API 進行簡單切換。
可以免費試用 10 天,這期間可以免費獲得 100 萬 Tokens。
目前支持 Llama 2-70B 和 7B, Groq 可以實現 4096 的上下文長度,還有 Mixtral 8x7B 這一型号。當然也不局限于這些型号,Groq 支持具體需求具體定制。
價格方面,他們保證:一定低于市面上同等價格。
不過可以看到,每秒 500tokens似乎還不是終極速度,他們最快可以實現每秒 750Tokens。
谷歌 TPU 團隊創業項目
Groq 是集軟硬體服務于一體的大模型推理加速方案,成立于 2016 年,創始團隊中很多都是谷歌 TPU 的原班人馬。
公司領導層的 10 人中,有 5 人都曾有谷歌的工作經歷,3 人曾在英特爾工作。
創始人兼 CEO Jonathan Ross,設計并實現了第一代 TPU 芯片的核心元件,TPU 的研發工作中有 20% 都由他完成。
Groq 沒有走 GPU 路線,而是自創了全球首個 L(anguage)PU 方案。
LPU 的核心奧義是克服兩個 LLM 瓶頸——計算密度和内存帶寬,最終實現的 LLM 推理性能比其他基于雲平台廠商快 18 倍。
據此前他們介紹,英偉達 GPU 需要大約 10 焦耳到 30 焦耳才能生成響應中的 tokens,而 Groq 設定每個 tokens 大約需要 1 焦耳到 3 焦耳。
因此,推理速度提高了 10 倍,成本卻降低了十分之一,或者說性價比提高了 100 倍。
延遲方面,在運行 70B 模型時,輸出第一個 token 時的延時僅有 0.22 秒。
甚至為了适應 Groq 的性能水平,第三方測評機構 ArtificialAnalysis 還專門調整了圖表坐标軸。
據介紹,Groq 的芯片采用 14nm 制程,搭載了 230MB 大 SRAM 來保證内存帶寬,片上内存帶寬達到了 80TB/s。
算力層面,Gorq 芯片的整型(8 位)運算速度為 750TOPs,浮點(16 位)運算速度則為 188TFLOPs。
Groq 主要基于該公司自研的 TSP 架構,其内存單元與向量和矩陣深度學習功能單元交錯,從而利用機器學習工作負載固有的并行性對推理進行加速。
在運算處理的同時,每個 TSP 都還具有網絡交換的功能,可直接通過網絡與其他 TSP 交換信息,無需依賴外部的網絡設備,這種設計提高了系統的并行處理能力和效率。
結合新設計的 Dragonfly 網絡拓撲,hop 數減少、通信延遲降低,使得傳輸效率進一步提高;同時軟體調度網絡帶來了精确的流量控制和路徑規劃,從而提高了系統的整體性能。
Groq 支持通過 PyTorch、TensorFlow 等标準機器學習框架進行推理,暫不支持模型訓練。
此外 Groq 還提供了編譯平台和本地化硬體方案,不過并未介紹更多詳情,想要了解的話需要與團隊進行聯系。
而在第三方網站上,搭載 Groq 芯片的加速卡售價為 2 萬多美元,差不多 15 萬人民币。
它由知名電子元件生產商莫仕(molex)旗下的 BittWare 代工,同時該廠也為英特爾和 AMD 代工加速卡。
目前,Groq 的官網正在招人。
技術崗位年薪為 10 萬 -50 萬美元,非技術崗位則為 9 萬 -47 萬美元。
" 目标是三年超過英偉達 "
除此之外,這家公司還有個日常操作是叫板喊話各位大佬。
當時 GPTs 商店推出之後,Groq 就喊話奧特曼:用 GPTs 就跟深夜讀戰争與和平一樣慢……陰陽怪氣直接拉滿 ~
馬斯克也曾被它痛斥,說 " 剽竊 " 自己的名字。
在最新讨論中,他們疑似又有了新操作。
一名自稱 Groq 工作人員的用戶與網友互動時表示,Groq 的目标是打造最快的大模型硬體,并揚言:
三年時間内趕超英偉達。
這下好了,黃院士的核武器有新的目标了。
參考鏈接:
[ 1 ] https://wow.groq.com/
[ 2 ] https://news.ycombinator.com/item?id=39428880 å