今天小编分享的科技经验:AI芯片的一百种死法,欢迎阅读。
>前几天,英伟达成为首家市值达到 2 万亿美金的芯片公司,创造了历史。同一时间,一家名为 Groq 的初创公司横空出世,扬言 " 三年之内赶超英伟达 "。
Groq 狠话的底气,来源于它所开发的芯片—— LPU。
LPU 的全称是 Language Processing Unit,翻译过来就是语言处理单元,是一种新型 AI 加速器。在它的支持下,大模型的推理速度快得惊人,瞬间能输出长篇幅答案;而使用了英伟达芯片的 GPT-4,只能一个字一个字往外蹦。
前者的响应速度最高可达到 500T/S,而后者只有 40T/S [ 1 ] 。
这是什么概念?相当于一秒钟生成 300 个单词,7 分钟生成一部《哈姆雷特》长度级的文章。
Groq 背后的团队也可谓群星璀璨,公司 CEO Jonathan Ross 是谷歌初代TPU的设计者之一。早期谷歌 TPU 团队的 10 位成员中,8 位都跳槽到了 Groq。
自 2016 年成立,Groq 就饱受市场关注。2020 年,Groq 的芯片被美国阿贡实验室采用。2021 年,Groq 获老虎环球基金等机构投资,估值超过 10 亿美元。
然而,Groq 公司的各种 " 挑衅 ",英伟达完全没放在眼里。相比之下,此前 " 奥特曼 7 万亿美元造芯 " 的新闻出来之后,黄仁勋至少还出来说了两句。
毕竟,眼下 Groq 的种种套路,老黄可再熟悉不过了。
文字游戏
当下,制约 AI 芯片发展的主要困境,是内存墙:内存的传输速度远远慢于处理器算力,导致性能迟迟上不去。
如果把芯片想象成一个餐厅,那么内存就是仓库,处理器就是后厨。
仓库送菜比后厨烹饪还慢,严重限制了餐厅的出菜速度。因此,包括英伟达在内的芯片厂商,都在围绕 " 仓库(内存)" 做文章。而 Groq 碾压英伟达的秘诀,也藏在内存结构里。
传统计算机所使用的内存,其实有两种:
DRAM 容量较大,但传输速度较慢,起主記憶體作用;而 SRAM 容量较小,但传输速度极快,作为缓存发挥辅助作用。一直以来,二者都是合作关系,缺一不可。
但 Groq 为了追求极致的速度,摒弃了 DRAM,让 SRAM 扛起了 LPU 主記憶體大旗。
相当于砍掉距离厨房较远的大仓库,直接将所有食材都堆在厨房边的菜篮子里。 这样的设计思路下,LPU 不但在速度上形成降维打击,还轻松绕过了两个成本最高的技术: HBM 和先进封装。
这也构成了 Groq 另一个大吹特吹的宣传核心:便宜。
根据 Semi Analysis 的拆解,LPU 由于具备架构优势,物料成本仅为 1050 美元。相比之下,去年全球疯狂的 H100 芯片,物料成本则达到 3700 美元 [ 2 ] 。
在售价层面,一块 LPU 的价格是 20000 美元,远低于 H100 的 35000 美元。
但历史无数次告诉我们,大部分弯道超车的结局都是有田下山,LPU 也不例外。
大模型对内存大小也有着很高的要求。参数量越大的模型,运行时所需要存储的数据也会更多。
SRAM 虽然快,但缺陷是容量小,通常只有 4-16MB。Groq 研发团队多年苦心钻研,最终也只是将 LPU 的容量提升至 230MB。而一块 H100 的内存容量是 80GB,两者间差了约 356 倍。菜篮子再怎么更新换代,终究无法和仓库相提并论。
想装下所有的食材,唯一的办法就是把菜篮子数量堆上去。因此,在运行同样参数的模型时,需要用到的 LPU 数量就远远高于 GPU。
前阿里技术副总裁贾扬清就算了一笔账:
以运行 LLaMA 70b 模型为例,需要 572 张 LPU,售价 1144 万美元;但如果换成 H100,其实只需要 8 张,总价格在 30 万美元左右——所谓的 " 便宜 " 压根不成立。
芯片一多,整体的功耗成本也直线上升。LPU 每年至少消耗 25.4 万美元电费,而 H100 顶多花费 2.4 万美元。
事实证明,Groq 的遥遥领先,只是隐去了核心信息的文字游戏。它所宣传的 " 高速 ",是以近乎夸张的使用成本换来的:运行三年 LLaMA 70b 模型,LPU 的使用成本将比英伟达的 GPU 高出 32 倍。
当然,Groq 的研发团队,显然对此心知肚明。选择此时大张旗鼓,更像是一种拉投资的举动。
事实上,这已经不是 Groq 第一次公开 " 蹭热度 " 了。
之前 GPT Store 刚发布时,Groq 给 OpenAI 的奥特曼发了一封信,嘲笑使用 GPTs 跟在 " 深夜读《战争与和平》一样缓慢 "。马斯克的聊天机器人 Grok 发布时,它也跑去贴脸嘲讽,质疑 Grok 抄袭了自己的名字。
过去几年,打着 " 替代英伟达 " 旗号的初创公司数不胜数,Groq 只不过是其中之一。目前,在超车英伟达的这条弯道,已经出现了严重塞车。
前车之鉴
Groq 最直观的参考样本,来自英国公司 Graphcore。
Graphcore 诞生之初,也曾拿着 " 技术路线别出心裁、演示视频酷炫惊艳、性能数据秒杀同行 " 的剧本,拳头产品 IPU 与 Groq 的 LPU 设计思路异曲同工,也是用高速的 SRAM 取代 DRAM 作为芯片内存,以实现极致的传输性能。
同时,Graphcore 调整了芯片架构,专注于处理高性能计算。
它曾颇有自知之明地表示 " 不与英伟达直接竞争 ",只将目标客户定位在,特别需要大量高性能计算的化学材料和医疗等特殊领網域。
Graphcore 的两位创始人
2019 年,微软成为 Graphcore 首款 IPU 的大客户。 2020 年 5 月,微软科学家将 IPU 内置于微软 Azure 作業系統中,用于识别胸部 X 光片。 这位科学家说道:
"Graphcore 芯片可以在 30 分钟内完成,GPU 需要 5 个小时才能完成的工作。"
在最风光的 2016 至 2020 年间,Graphcore 共拿到了 7.1 亿美元融资,估值高达 27.7 亿美元,一度被视为全英国乃至欧洲全村的希望。Graphcore 的投资者不仅有微软、三星、戴尔等科技巨头,也囊括了红杉资本、柏基投资等顶级风投。
相比今天的 Groq,当年的 Graphcore 只能说有过之无不及。但 Graphcore 的后续发展却远远不及当时的预期。
2022 年,Graphcore 全年营收只有 270 万美元,为英伟达同期收入的万分之一,且相较前一年下降 46%,亏损达到了 2 亿美元。 2023 年,人工智能浪潮爆发,英伟达业绩再度暴涨。 H100 一卡难求之时,Graphcore 以为自己至少能捡到英伟达的漏,结果却连汤都没喝着。
去年,Graphcore 的创始人 Nigel Toon 向英国首相写了篇 " 公开信 ",讨要补贴。
他写道,"Graphcore 已经为英国预留了多达 3000 个 IPU 芯片,可以为整个国家提供服务 ",几乎已经是明示要钱 [ 4 ] 。
不久前,一面业绩亏损,一面融资无果的 Graphcore 走向了最后一条路: 寻求收购。 根据 The Telegraph 爆料,其售价可能在 5 亿多美元——不到 2020 年最高估值时期的五分之一 [ 5 ] 。
当年,以 Graphcore 为首的挑战者们,各怀绝学,来势汹汹,颇有一种八大门派围攻光明顶的既视感。然而,如今多已散作鸟兽状。
去年 3 月,芯片公司 Mythic 一度因资金耗尽而濒临倒闭,快要淹死之际,才好不容易等到了救命缰绳,拿到了 1300 万美元融资。
另一家芯片公司 Blaize 也出现了类似的困境,最后靠着中东土豪的投资,才活了下来。
剩下的公司中,Habana 可能是唯一活得不错的——它被英特尔以 20 亿收购,保留了独立运营的权利。
从 Graphcore 到 Mythic,这些芯片公司的技术路线各不相同;然而,它们失败的原因,却出奇一致。事实上,今天大火的 Groq,同样也极有可能倒在同一个地方:
芯片卖不出去。
真正的护城河
英伟达的 GPU 固然厉害,但它卖芯片的套路,才是真正的护城河。
每年,英伟达都会投入相当一部分的研发经费,围绕GPU搭建系统性能力。当然,这是高情商的说法,低情商的说法是开发一起 " 捆绑销售 " 的产品——这才是英伟达最坚实的城墙。目前,英伟达的城墙共有 3 层:
第一层城墙,是CUDA的编程生态。
众所周知,GPU 最初的使用场景是游戏与视频影像渲染。早期,一些华尔街精英偶尔利用 GPU 的并行计算能力来跑交易,但由于需要重新编写大量代码,因此并未广泛传播开来。
黄仁勋坚信 GPU 能用于更多领網域,因此在 2006 年推出了降低编程门槛的軟體架构 CUDA,和自家 GPU 捆绑推出。
后来,苹果和 AMD 都推出了类似平台,但此时 CUDA 生态早已构建,在 " 用得人越多,CUDA 越好用,新开发者越倾向于选择 CUDA" 的良性循环中稳定前进。
如今,CUDA 可以让英伟达 GPU 的使用成本大幅降低。
一位私有云 CEO 曾在接受采访时说过,理论上 AMD 卡也不是不能用,但要把这些卡调试到正常运转,需要多耗费两个月 [ 6 ] ——找谁下单,答案不言而喻。
2017 年,英伟达甚至向 AI 研究员赠送了 V100 芯片
第二层城墙,是 NV-Link 的高速传输。
一个数据中心,不可能只使用一块 AI 芯片。然而,如果将 2 块 AI 芯片连在一起,那么实际算力必然会小于 2,因为数据传输的速度慢于芯片算力,且过程中还存在损耗。
显然,在 GPU 数量迅速膨胀的数据中心内,解决数据传输问题其关键。
2016 年,英伟达为 IBM 伺服器提供 GPU 时,首次用上了自研的 NVLink 技术,带宽高达 80G/s,通信速度提高了 5 倍,性能提升了 14%,好评不断。此后几年,英伟达一边迭代 NVLink 技术,一边规定该技术必须绑定自家芯片使用。
套路虽然简单直白,但就是有效。
而第三层城墙,则是英伟达的 " 铁杆好兄弟联盟 "。
过去一年,英伟达是全球最主要的人工智能投资人之一,活跃程度甚至超过了 a16z 和红杉等顶级投资机构。
据外媒统计,英伟达去年至少有 35 笔人工智能投资,包括:由前 DeepMind 联合创始人创办的 Inflection AI,欧洲人工智能独角兽 Mistral,世界最大的开源模型社区 Hugging Face 等等 [ 7 ] 。
Inflection AI 创始人苏莱曼
积极投资的目的,其实很简单:当黄仁勋提着美金和 H100 芯片,敲开这些公司的大门,没有人会再拒绝英伟达。
这所有的一切,足以让市面上绝大多数公司,都绑死在英伟达的船上。
面对性能强大的英伟达 GPU,各路初创公司们或许有办法,打造出性能相匹敌的产品。然而。英伟达卖芯片的套路,却让这些公司始终难以招架。因此,Graphcore 等挑战者的失败,真的不是不努力。
当眼下的炒作逐渐回归寂静,Groq 也得思考相同的问题:到底谁会翻过三座大山,来买 LPU?
尾声
2 月 23 日,英伟达市值突破 2 万亿美元。距离上一个 1 万亿,仅仅过了 9 个月。
Groq 的爆火,让市场又一次开始讨论同一个问题:到底有没有人能叫板英伟达?
遗憾的是,英伟达远比人们想象的要强大。人工智能浪潮给芯片行业提供了一块大蛋糕,英伟达并没有分的意思,而是整个端走塞进了口袋。
芯片初创公司 Mythic 的 CEO 曾愤然表示,人工智能火了,他们却更难融资了,就是英伟达 " 搞坏了大环境 "。
根据 PitchBook 数据,截至 2023 年 8 月底,美国芯片初创企业融资 8.814 亿美元,约为 2022 年同期的一半。交易数量的变化则更加触目惊心:从 23 宗减少到了 4 宗 [ 8 ] 。
Graphcore、Mythic 的前车之鉴历历在目,所以也不怪 Groq 跟大家玩儿文字游戏。面对这么一个 " 汤都不给喝 " 的庞然大物,Groq 又能怎么办呢?