今天小編分享的科學經驗:運行LIama2得8400萬元!最快AI推理芯片成本推算引熱議,歡迎閲讀。
想實現史上最快大模型推理,得要 1171 萬美元(8410 萬元)???
同等項目下,使用英偉達 GPU 成本只需 30 萬美元……
關于最強 AI 芯片易主 Groq,可能得讓子彈再飛一會兒了。
這兩天,Groq 驚豔亮相。它以号稱 " 性價比高英偉達 100 倍 " 的芯片,實現每秒 500tokens 大模型生成,感受不到任何延遲。外加谷歌 TPU 團隊這樣一個高精尖人才 Buff,讓不少人直呼:英偉達要被碾壓了……
喧嚣過後開始出現一些理智讨論,其中主要還是針對 Groq 的效益成本問題。
網友粗略一算,現在演示 Demo 就需要 568 塊芯片,花費 1171 萬美元。
于是乎,業内業外各界人士不約而同地展開了一場算術大法。
甚至出現了位分析師,拿着表格現身説法……
并感嘆了句:OK,everybody is doing public math this week.
不過 Groq 也第一時間在社交網絡上進行了回應。
" 每個人都在做數學 "
參與到 Groq 成本問題讨論的,有計算機學生,也有同提供推理服務的雲廠商,甚至還有 Groq 前員工大戰現員工……好不熱鬧。
摘取幾個有代表性的,我們來看看大家都是如何看待的。
首先一個粗略估計,一張卡的價格約為 2 萬美元,内存又僅為 0.23GB。
那麼為單個 LLama 70B 模型服務,就需要購買大約 320 張卡(實際上更多),包括伺服器在内大約花費 1 千萬美元……
而要是跟英偉達的 H100 對比,情況又是如何?
Lepton 的賈揚清也參與進來,算了一筆賬。除了基本價格,他還從能源功耗、性能、運營成本等角度進行了分析。
最終總結出這幾個核心觀點:
對于 LLaMA 70b 模型,使用 572 張卡來計算,每年電費将花費 25.4 萬美元;
使用 4 張 H100 卡可以實現 Groq 一半的性能,如今 8 卡 H100 盒子的價格約為 30 萬美元。
如果運營三年,Groq 的硬體采購成本為 1144 萬美元,運營成本為 76.2 萬美元。相比起來 H100 采購和運營成本更低。
值得一提的是,在 Groq 給出的基準測試中,也包括了 Lepton 在内,推理速度大概是 Lepton 的三倍。
賈揚清還透露,他跟 Groq 創始人是舊相識了:
在谷歌時就相互知道。
不過在這些讨論中,也有其他算法。
比如有網友反應,按照單個 Token 價格這個維度來計算,情況又是如何呢?
沒關系,還有更專業的分析師會出手。
不過根據他的計算,每 100 萬 Tokens 的花費,Groq 性價比是要高一些。
除此之外,還有一些其他的讨論,像是否支持加速任何 Transformer?
Groq 在線答疑
由于大家過于關注,Groq 忍不住親自下場解答。
是時候再發一個常見問題帖子來澄清了。
主要有以下幾點:
采用開源模型,适應我們的編譯器,然後運行它,僅此而已。
我們 token 價格很實惠很高效,因為從芯片到系統都自己搞,沒有中間商;
不會出售芯片,但第三方供應商除外;公布的銷售數據有偏差。
我們的目标客户不是單卡用户。
另外還在持續地在線答疑中……
所以 Groq 是否能真的撼動住英偉達的地位,估計還得再等一等。
不過昨天英偉達股價倒是異動了一波……
參考鏈接:
[ 1 ] https://twitter.com/GroqInc/status/1760113134566576558
[ 2 ] https://twitter.com/swyx/status/1760065636410274162
[ 3 ] https://news.ycombinator.com/item?id=39428880
[ 4 ] https://twitter.com/JayScambler/status/1759372542530261154
[ 5 ] https://twitter.com/DZhang50/status/1759839771487297637