大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

大模型最快推理芯片一夜易主:每秒500tokens幹翻GPU!谷歌TPU人馬打造,喊話奧特曼:你們也太慢了

2024-02-21 简体 HK SG TW

今天小編分享的科學經驗:大模型最快推理芯片一夜易主:每秒500tokens幹翻GPU!谷歌TPU人馬打造,喊話奧特曼:你們也太慢了,歡迎閲讀。

太快了太快了。

一夜間,大模型生成已經沒什麼延遲了……來感受下這速度。

眼花缭亂了吧,生成速度已經接近每秒 500 tokens。

還有更直觀的列表對比,速度最高能比以往這些雲平台廠商快個 18 倍吧。

(這裏面還有個熟悉的身影:Lepton)

網友表示:這速度簡直就是飛機 vs 走路。

值得一提的是,這并非哪家大公司進展——

初創公司 Groq,谷歌 TPU 團隊原班人馬,基于自研芯片推出推理加速方案。(注意不是馬斯克的 Grok)

據他們介紹,其推理速度相較于英偉達 GPU 提高了 10 倍,成本卻降低到十分之一。

換言之,任何一個大模型都可以部署實現。

目前已經能支持 Mixtral 8x7B SMoE、Llama 2 的 7B 和 70B 這三種模型,并且可直接體驗 Demo。

他們還在官網上喊話奧特曼:

你們推出的東西太慢了……

每秒接近 500tokens

既然如此,那就來體驗一下這個号稱「史上最快推理」的 Groq。

先聲明:不比較生成質量。就像它自己説的那樣,内容概不負責。

目前,演示界面上有兩種模型可以選擇。

就選擇 Mixtral 8x7B-32k 和 GPT-4 同擂台對比一下。

提示詞:你是一個小學生,還沒完成寒假作業。請根據《星際穿越》寫一篇 500 字的讀後感。

結果啪的一下,只需 1.76 秒就生成了一長串讀後感,速度在每秒 478Tokens。

不過内容是英文的,以及讀後感只有三百六十多字。但後面也趕緊做了解釋説考慮到是小學生寫不了那麼多……

至于 GPT-4 這邊的表現,内容質量自然更好,也體現了整個思路過程。但要完全生成超過了三十秒。單是讀後感内容的生成,也有近二十秒鍾的時間。

除了 Demo 演示外,Groq 現在支持 API 訪問,并且完全兼容,可直接從 OpenAI 的 API 進行簡單切換。

可以免費試用 10 天,這期間可以免費獲得 100 萬 Tokens。

目前支持 Llama 2-70B 和 7B, Groq 可以實現 4096 的上下文長度,還有 Mixtral 8x7B 這一型号。當然也不局限于這些型号,Groq 支持具體需求具體定制。

價格方面,他們保證:一定低于市面上同等價格。

不過可以看到,每秒 500tokens似乎還不是終極速度,他們最快可以實現每秒 750Tokens。

谷歌 TPU 團隊創業項目

Groq 是集軟硬體服務于一體的大模型推理加速方案,成立于 2016 年,創始團隊中很多都是谷歌 TPU 的原班人馬。

公司領導層的 10 人中,有 5 人都曾有谷歌的工作經歷,3 人曾在英特爾工作。

創始人兼 CEO Jonathan Ross,設計并實現了第一代 TPU 芯片的核心元件,TPU 的研發工作中有 20% 都由他完成。

Groq 沒有走 GPU 路線,而是自創了全球首個 L(anguage)PU 方案。

LPU 的核心奧義是克服兩個 LLM 瓶頸——計算密度和内存帶寬,最終實現的 LLM 推理性能比其他基于雲平台廠商快 18 倍。

據此前他們介紹,英偉達 GPU 需要大約 10 焦耳到 30 焦耳才能生成響應中的 tokens,而 Groq 設定每個 tokens 大約需要 1 焦耳到 3 焦耳。

因此,推理速度提高了 10 倍,成本卻降低了十分之一,或者説性價比提高了 100 倍。

延遲方面,在運行 70B 模型時,輸出第一個 token 時的延時僅有 0.22 秒。

甚至為了适應 Groq 的性能水平,第三方測評機構 ArtificialAnalysis 還專門調整了圖表坐标軸。

據介紹,Groq 的芯片采用 14nm 制程,搭載了 230MB 大 SRAM 來保證内存帶寬,片上内存帶寬達到了 80TB/s。

算力層面,Gorq 芯片的整型(8 位)運算速度為 750TOPs,浮點(16 位)運算速度則為 188TFLOPs。

Groq 主要基于該公司自研的 TSP 架構,其内存單元與向量和矩陣深度學習功能單元交錯,從而利用機器學習工作負載固有的并行性對推理進行加速。

在運算處理的同時,每個 TSP 都還具有網絡交換的功能,可直接通過網絡與其他 TSP 交換信息,無需依賴外部的網絡設備,這種設計提高了系統的并行處理能力和效率。

結合新設計的 Dragonfly 網絡拓撲,hop 數減少、通信延遲降低,使得傳輸效率進一步提高;同時軟體調度網絡帶來了精确的流量控制和路徑規劃,從而提高了系統的整體性能。

Groq 支持通過 PyTorch、TensorFlow 等标準機器學習框架進行推理,暫不支持模型訓練。

此外 Groq 還提供了編譯平台和本地化硬體方案,不過并未介紹更多詳情,想要了解的話需要與團隊進行聯系。

而在第三方網站上,搭載 Groq 芯片的加速卡售價為 2 萬多美元,差不多 15 萬人民币。

它由知名電子元件生產商莫仕(molex)旗下的 BittWare 代工,同時該廠也為英特爾和 AMD 代工加速卡。

目前,Groq 的官網正在招人。

技術崗位年薪為 10 萬 -50 萬美元,非技術崗位則為 9 萬 -47 萬美元。

" 目标是三年超過英偉達 "

除此之外,這家公司還有個日常操作是叫板喊話各位大佬。

當時 GPTs 商店推出之後,Groq 就喊話奧特曼:用 GPTs 就跟深夜讀戰争與和平一樣慢……陰陽怪氣直接拉滿 ~

馬斯克也曾被它痛斥,説 " 剽竊 " 自己的名字。

在最新讨論中,他們疑似又有了新操作。

一名自稱 Groq 工作人員的用户與網友互動時表示,Groq 的目标是打造最快的大模型硬體,并揚言:

三年時間内趕超英偉達。

這下好了,黃院士的核武器有新的目标了。

參考鏈接:

[ 1 ] https://wow.groq.com/

[ 2 ] https://news.ycombinator.com/item?id=39428880 å

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們