今天小编分享的财经经验:计算速度超越英伟达的Groq,凭什么这么惊奇?,欢迎阅读。
图片来源 @视觉中国
文|董指导聊科技
今天国内 AI 科技圈、AI 炒股圈,都被一则消息振奋了," 大模型最快推理芯片的一哥换人了,不再是英伟达了 "。
海外公司 Groq 基于自研芯片推出的推理加速方案,速度比英伟达的 GPU 快了十倍,成本却降低为十分之一,一来一去,百倍提升。难怪大家会兴奋。
由于 Groq 不再采用 HBM,而是利用 SRAM 来加速,于是资本市场也把 SRAM 当了宝贝,相关上市公司股价快速上涨。
那么,Groq 凭什么这么惊奇呢?SRAM 就这么好用?
我翻看了 Groq 发布的论文,凭着仅存一点点的计算机原理,大概理了一点思绪。
1、首先,Groq 的产品设计场景,主要是 " 推理 " 阶段,而英伟达目前产品在大模型训练阶段更好用。因此,Groq 的方案更突出 " 实时 "。
2、其次,这还是一个 " 专用 VS 通用 " 的故事。
在 AI 领網域,为什么 GPU 能打败 CPU 呢?因为 CPU 就像一位教授,懂得多、能写会算做事讲逻辑;而 GPU 呢,就像高中生,虽然懂得不多,但架不住人多、又能并行运行。如果只是解二元方程的话,那一百个高中生、同时计算,肯定比一个教授要高效得多。
于是,GPU 在 AI 领網域,利用并行计算的优势,大获全胜。
但是,GPU 也还算个多面手。从下游客户就能看出来,游戏宅男们希望买到英伟达的显卡,数字货币的矿工们也希望买到英伟达显卡,搞气象科学的、搞 AI 的也都希望买到英伟达的显卡。多需求也必然会带来一些功能设计、计算资源的冗余浪费。
那么,再来一个专门、只用于机器学习的芯片,岂不是更加高效?
这就是谷歌 TPU(Tensor Processing Unit)芯片的思路。Tensor 来自于谷歌 TensorFlow 深度学习框架,突出了 TPU 为深度学习而生。
Groq 的创始人就来自于谷歌,设计并实现了第一代 TPU 芯片的核心元件。他们团队根据 TPU 的经验进行了进一步优化,于是有了 LPU(Language Processing Unit),专为 AI 计算提供高确定性的低延迟和高性能。
我看到他们这个介绍的时候,仿佛面前站着一排人在说:就是要让你牛逼,谁也拦不住。
3、核心问题是,为什么 LPU 会更高效呢?这里就涉及到指令调取等知识了。复杂的我不讲,主要也是已经不懂了。说些大致的原理。
A、计算有两个必不可少的步骤:读取数据 + 执行指令。
而 LPU 就是为机器学习设计的。所以,预先就把机器学习高频需要的指令,进行了定制,有一套适用于机器学习的指令集架构 ISA。
知道客户要什么就准备什么,肯定比什么都准备要高效。
B、其次,把深度学习的数据操作流程,拆解为了更微小的操作,并通过不同的硬體排列,实现了功能交替。
主要功能硬體包括矩阵单元 MXM、用于逐点运算的 vector 单元、用于数据重塑的 SXM 单元、以及存储器单元。而这里的存储用的是 SRAM。
Groq 将这个方式称之为 " 链条化(chaining)"。可以粗暴理解为,GPU 还要解二元方程,LPU 把二次方程进一步拆解,有人专门做合并、有人做计算。或者说,像福特汽车设计了流水线一样,效率大幅提升。
相比而言,英伟达的 GPU 采用的 HBM 技术,也是为了加快读取数据、处理数据的速度。但数据存在 DRAM 里,再调取到 GPU 里,就会产生时延。
C、LPU 采用的 SRAM,比英伟达采用的 DRAM 要快得多。
SRAM 中文是静态随机存取存储器,DRAM 就是动态存储器。SRAM 是用触发器来存储信息,而且不需要对数据进行刷新,也可以同时送 " 行、列 " 地址。而 DRAM 是用电容存储数据,需要刷新来保持数据,不然数据会丢失。行、列地址也是分两次送的。
所以,结果就是,SRAM 运行速度要显著快于 DRAM。
为什么 LPU 采用 SRAM,而英伟达采用 DRAM 呢?我的理解是,还得回到开头的那句话:场景不一样啊。
Groq 面向未来 AI 大爆发后的 " 推理 " 阶段,用户是实时互動的,数据也是实时的,数据进、数据出的,采用高速存储合适。
而英伟达目前是应用于训练,训练必然有大量数据,且对实时要求没那么高。那用成本更低的 DRAM 也是合适的。
D、Groq 强调,友商是通过 "Hardware-defined 硬體定义 " 的方法来实现大规模互联网络,而我们是靠 "Software-defined 軟體定义 " 的思路,基于 tensor streaming processing ( TSP ) 实现大规模互联。通过軟體预先设计,可以使得硬體更高效、可控。
E、所以最终效果就是,Groq 的芯片,相当于多个功能单元组成一个大的计算单元;而友商则是把小型计算单元,复制多次。
还是用造车举例子就是,LPU 就是流水线工厂,100 个员工分几组,每个组、每个人职能明确、配合娴熟;而友商是 100 个员工,每个人都擅长多个环节、都会造一辆车。福特流水线,已经证明了专业、细分、分工的有效性。
因此,LPU 对于 LLM 大语言模型而言,非常适合。
4、LPU 引起的热烈讨论,是不是也反映了一个趋势:简单、专用的,打败复杂、通用的。把一件事情做到极致,就已经完美了。
计算,越来越专业、垂直;但大模型,却又是在往通用、多模态发展。未来如何演绎,应该会非常精彩。希望中国玩家们不缺席、上舞台,也有机会站 C 位。