今天小编分享的科技经验:造出比盘子还大的AI芯片,这家估值300亿元的硅谷公司要挑战英伟达,欢迎阅读。
作者丨王沁
编辑丨邱晓芬
据 The Information 消息,硅谷芯片公司 Cerebras Systems 正于近期递交上市申请。这家公司成立于 2015 年,累积融资 7.2 亿美元,估值飙升到 42 亿到 50 亿美元。
值得注意的是,这家公司背后,与 OpenAI 的造芯布局和中东公司的 AI 野心都有关联—— Cerebras 最大的投资人之一是 OpenAI 的首席执行官 Sam Altman。而 Sam Altman 此前曾多次前往中东募资造芯,曾有传闻称其募资额 7 万亿美金。
巧合的是,Sam Altman 当时洽谈的阿联酋科技公司 G42,目前也正与 Cerebras 进行资本合作和技术合作。
这家公司最独特的地方在于,他们的芯片和主流的英伟达 GPU 大相径庭。过去,芯片在摩尔定律的牵引下,越做越小,以英伟达 H100 为例,814 平方毫米的核心面积上有 800 亿晶体管。
而 Cerebras 的 AI 芯片,则选择将一整张芯片越做越大,号称 " 造出了世界上最大面积芯片 "。据介绍,Cerebras 开发的 WSE 3 芯片由整张晶圆切割,比盘子还大,需要人用双手捧起来。一张 WSE 3 芯片,在 46000 多平方毫米的核心面积上,有 40000 亿晶体管(是 H100 的 50 倍)。
比盘子大的芯片,需要用双手捧起来。图源 Ars Technica
为什么要做得这么大?
或许是为了满足训练 AI 大模型所需的巨大算力。Cerebras 宣称,他们的芯片可以训练的 AI 大模型规模,比目前业界顶尖大模型(如 OpenAI 的 GPT-4 或者 Google 的 Gemini)还要大 10 倍。
当下,AI 大模型参数和性能的迅猛膨胀,训练 AI 的芯片算力却快跟不上了。随着摩尔定律放缓,英伟达 GPU 采用多卡互联的方式,堆叠显卡,来提升算力。即使英伟达 GPU 针对 AI 训练做了优化,但 GPU 毕竟是通用芯片,而非 AI 专用芯片。
英伟达 GPU 了占据 AI 芯片的大半市场份额,但举目望去,专用 AI 芯片已经发展了至少十几条技术路径,英伟达有不少年轻对手。其中 Cerebras 的超大面积芯片,试图在技术上,大力出奇迹。
如何把芯片做得比盘子还大?
众所周知,英伟达 GPU 原本是图形处理器,擅长并行处理多个简单计算,因为训练 AI 也需要同时对所有数据样本执行相同的操作,GPU 后来也用于训练 AI。
不过,GPU 毕竟不是专为 AI 设计的芯片—— GPU 需要用 PCIe 的方式连接电子组件,在组件之间传输数据,这限制了芯片的大小、连接类型,甚至通信标准。此外,伺服器机箱的标准又限制了冷却功率,冷却功率限制了芯片的功耗,功耗又限制了训练 AI 模型的速度。
在层层的限制之下,若要将训练速度提高上百倍,需要从根本上重新思考处理器之外的更多方面,包括系统架构、核心设计、内存架构、通信结构、芯片 I/O、电源和冷却基础设施、系统 I/O、编译器、軟體工具链等等。
这也是为什么 Cerebras 公司的全称是 Cerebras Systems ——该公司考虑的是直接颠覆掉英伟达过往的既定思路,重新设计一整个 AI 芯片系统。从产品上看,Cerebras 的 AI 芯片最大的特点是,不仅芯片大,配套的散热系统也是前所未有地大。
不过,一味把芯片做得比盘子还大,这是噱头还是实力?Cerebras 的技术路径有什么优缺点?
目前,世界上绝大部分芯片是将晶圆切割成多块,再封装成小块的芯片。以英伟达的抢手货 H100 为例,一张 12 英寸的晶圆,光刻机可以刻出 86 块左右的核心逻辑芯片。
而Cerebras 是将一整块晶圆做成芯片,直接把光刻机刻出的 80 多块晶片拼在一起,去掉边角料,晶片之间连接成一块大芯片。因此,Cererbras 的芯片也称为 " 晶圆级引擎 "。
Cerebras 选择将晶片直接原地放在晶圆之内连起来,能让晶片之间直接连接通信,而非 GPU 那样要在不同块 GPU 之间通过数据导线来通信,加快了芯片核心之间的通信速度。
如此一来,便达到强大的计算性能。据 Cerebras 官网信息,WSE-3 芯片的单个处理器上就有 90 万个 AI 核心,是英伟达 H100 的 52 倍;片上内存达到 44GB,是 H100 的 880 倍。
Cerebras 将一整块晶圆上的晶片连接一起。图源:HPC Wire
在 GPU 这类传统构架中,存储是共享的,每一个计算核心没有专门的存储空间,存储空间的数据吞吐能力容易跟不上计算单元的需求量。
打个比方:当水池子大,但是水管小时,水管吞吐容易出现不及时的问题,导致池子里的水(算力)就会被闲置,来回搬运数据也会耗时、耗功率。
Cerebras 的技术优势在于,通过重新设计计算核心的结构,给每个计算核心配备了带宽足够大甚至有冗余的存储单元,如此实现了分布式的存储和计算(不同于 GPU 中计算单元共享存储单元)。相当于,每个核心都是一个单独工作的工人。
据 Cerebras 官网信息,在 WSE-3 芯片上,片上存储的总带宽达到 21PB/s,互联网络总带宽达到 214PB/s,这样就没有数据搬运时带宽不足的问题。
Cerebras 的芯片被美国能源部下属的阿贡国家实验室采用,自 2020 年以来一直用于 COVID-19 研究和癌症肿瘤研究。 据 HPC Wire 报道,在用 Cerebras 芯片训练模型来预测癌症药物反应中,与 GPU 基线相比,在 Cerebras 芯片上实现了数百倍的加速。
不过,这样力大砖飞的芯片设计,看起来很美好,但也有自己的弱点。
第一是良率低。以英伟达 H100 芯片为例,即使是台积电这样的业内翘楚,4nm 制程芯片达到 80% 良率已经是顶尖。考虑到 80% 的良率以及切割损耗,一张 12 寸晶圆上刻出的 86 块左右的晶片,最后达到良率的晶片是 65 块左右。
显然,Cerebras 想让一整块晶圆上切割出的 80 多块晶片都能用,但难度也会高很多。对于主流芯片来说,一整张晶圆上的一小块晶片做失败了,其他晶片还能用。但对 Cererbras 这样的芯片来说,难道一张晶圆上任何一个晶片有缺陷,一整张晶圆都要放弃吗?
Cerebras 的解决方式是,当一个晶片出现有缺陷的计算核心时,会让 AI 軟體在运行时绕过有缺陷的计算核心,而是用冗余的计算核心。
Cerebras 宣称,通过这种利用冗余来绕过缺陷的设计,其 WSE 2 芯片实现了 100% 的良率。这也是为什么 Cerebras 的高管强调," 冗余是你的朋友(Redundancy is Your Friend)。"
Cerebras 高管在公开演讲中强调 " 冗余是你的朋友 "。图源:Cerebras Systems Youtube 频道
第二个弱点是,需要庞大的散热系统。当芯片的面积增加,有更多的电流流过晶体管,半导体电阻自然会产生更多的热量。如果热量过高,还会分解芯片及其表面的小部件。英伟达的 Blackwell GPU 数据中心中,都需要巨型的冷却系统。而 Cerebras 的巨无霸芯片,更是需要重新设计一套庞大的的散热系统。
Cerebras 伺服器的散热系统像一个庞大的怪物:几根硕大的黄铜管都是用来连接水泵来散热的。管道、泵、风扇和热交换器等要占用大量空间。
尽管芯片本身只有 21.6 平方厘米,且非常薄,但外壳散热系统需要占据标准机架约三分之一的体积。专门的散热系统也意味着,部署芯片需要额外的配套成本。
因此,Cerebras 虽然把芯片做得比盘子还大,确实在技术上力大砖飞,但是部署所需的整体成本不一定具有性价比,这种创新的路径还需后续经过市场验证。
隐藏着 Sam Altman 的造芯野心
英伟达芯片帝国之外,AI 芯片的技术路径众多,Cererbras 力大出奇迹的路线还是看点,市场上也已经用钱给他们投票。
目前,这家公司已融资 7.2 亿美元,估值约为 42 亿到 50 亿美元,其中,最大的个人投资者之一是 OpenAI 的首席执行官 Sam Altman。据报道,Sam Altman 参与了 Cerebras 的 8000 万美元 D 轮融资。
毕竟,Sam Altman 曾宣称要花 7 万亿美元造 AI 芯片(虽然后来他澄清这不仅仅是造芯片的费用,而是围绕芯片的房产、数据中心电力、芯片制造等的总体费用)。Sam Altman 多次前往中东,与包括阿联酋政府在内的投资者进行谈判,寻求募资,计划提高世界芯片制造能力。
在 Sam Altman 和他所投资的 Cerebras 芯片公司之间,还与一个中东公司 G42 关系密切。G42 是位于阿联酋首都阿布扎比的科技巨头,开发人工智能技术,同时对外投资。Sam Altman 的中东之旅常常会拜访 G42,OpenAI 也在 2023 年 10 月与 G42 签订了合作協定。
G42 与 Cerebras 一直合作密切。G42 是 Cerebras 的客户、投资者、技术合作者:2023 年 7 月,G42 签约向 Cerebras 投资 9 亿美元,Cerebras 为这家阿联酋公司 G42 在美国建造九台人工智能超级计算机;2023 年 8 月,Cerebras 和 G42 的子公司共同推出了大型语言模型 Jais。
G42 与中国也有渊源。其创始人肖鹏在中国出生,曾在美国接受教育,后来放弃美国国籍,成为阿联酋公民。 G42 的基金在过去两三年投资了很多中国科技公司,包括字节跳动。但今年 2 月,受美国政府施压,G42 撤出此前在华的所有投资。
不过,Sam Altman 的造芯布局远不止于 Cerebras,而是更加宏大。
第一是与芯片大厂合作,特别是英伟达 GPU 之外的大厂——不把鸡蛋放在一个篮子里。去年 12 月,AMD 推出 AI 芯片 MI300X,OpenAI 就下了订单。此外,OpenAI 表示在其一款名为 Triton 的軟體产品中支持 AMD GPU。
对外投资也是重头戏。早在 2018 年,Altman 就个人投资了一家名为 Rain AI 的 AI 芯片初创公司,自掏腰包 100 万美元。Rain AI 采取的 AI 芯片路径是 NPU(神经处理单元或类腦芯片)。 2019 年,OpenAI 签署了一份意向书,斥资 5100 万美元购买 Rain 的芯片。
除了对外投资,Sam Altman 对于 OpenAI 的自研芯片也一手抓。6 月 9 日,消息称,OpenAI 大力从谷歌 TPU 团队挖角人才,来发展自研芯片。OpenAI 计划将目前仅有数人的芯片团队扩展至数十人,且几乎所有新招募的研究人员均为谷歌 TPU 团队的现任或前任成员。
Altman 的造芯野心不仅于此,他甚至想创建一个新的芯片项目「Tigris」——横跨几大洲,联合阿联酋的 G42 和日本软银等公司,拉拢台积电、三星和英特尔等顶级芯片制造商,建成覆盖全球的制造工厂网络。
据报道,早在 Sam Altman 去年 11 月戏剧性地被 OpenAI 解雇之前几周,他就前往中东募资,已与软银集团公司、沙特阿拉伯公共投资基金(PIF)、穆巴达拉投资公司等公司就这些合资企业进行了谈判,寻求数百亿美元的资金。
Cerebras 这家略显小众的技术路线的公司上市,既是对英伟达 GPU 护城河的一个挑战,也是 Sam Altman 在英伟达 GPU 垄断之外建立新的 AI 芯片格局的一步。