今天小编分享的科技经验:21岁华裔小哥开发AI加速芯片“Sohu”,2人公司估值3400万美元,欢迎阅读。
像 Pika 一样的神级创业故事又要再次上演了?
两位哈佛退学的年轻人,想要制造一款专用于大语言模型加速的 AI 加速器芯片,将于 2024 年第三季度交付,推理性能达 H100 的 10 倍。
在今年 6 月份,两位创始人 Gavin Uberti 和 Chris Zhu 创立了 Etched.ai,获得了包括 Ebay 前 CEO Devin Wenig 在内一众风投机构的 536 万美元的种子轮投资。
公司估值更是高达 3400 万美元!
根据公司官网上放出的数据,这款芯片将在硬體层面上集成 Transformer 构架,将推理速度相比于英伟达 H100 提升了 8-10 倍!
他们将第一款 LLM 加速芯片命名为「Sohu」,号称可以在毫秒级别的时间里处理数千个单词。
芯片还支持通过树搜索更好地编码,能够并行比较数百个响应。
还支持多重推测解码(Multicast speculative decoding),可以实时生成新的内容。
根据官方公布的具体细节,这款芯片只有一个核心,但是配备了 144GB 的 HBM3e 显存:
1
完全开源的軟體栈,可扩展至 100T 参数型号
2
支持波束搜索(Beam search)和 MCTS 解码
3
支持 MoE 和 Transformer 的各种变体
两个哈佛辍学大學生挑战芯片行业最顶尖业务
两人原本计划从哈佛休学一年,在一家芯片公司找到了一份负责 ApacheTVM 开源编译器和微内核的工作。
但在工作中,他们发现 Arm 的指令集中的一些低效设计使得他们的工作效率很差。
当他们思考如何系统性地解决这个问题时,发现可以利用这个思路来设计一款针对当下爆火的 AI 加速芯片。
在创始人之一的 Uberti 看来,通用设计无法获得他们正在研发的专有加速芯片所能带来的那种性能提升:
「必须在单一架构上下大力气,让芯片处理 AI 任务,目标太大了,必须要针对更具体的任务来设计芯片 ...... 我们认为英伟达最终会这么做。」
在他们两人看来,这个市场机会太大了,一定不能错过。
「如果你回顾四年前的 GPT-2,与 Meta 最近的 Llama 模型相比,只有两个区别——大小和激活函数。训练方式存在差异,但这对于推理来说并不重要。」
Transformer 的基本组件是固定的,虽然存在细微差别,但他们并不担心短期之内就会出现新的构架代替 Transformer。
所以他们决定做一个 Transformer 构架的专用集成电路(ASIC),在未来和英伟达等一系列芯片巨头在大模型推理市场中竞争。
他们认为,Etched.ai 推出的第一款芯片,相比于 H100,部門价格内将获得 140 倍的吞吐量性能!
二到底是什么样的背景,能让两个本科还没有毕业的学生,敢于挑战芯片业目前最炙手可热的赛道呢?
创始人兼公司 CEO Gavin Uberti 自从 2020 进入哈佛之后,就一直在校外兼职,在 2022 年底,成立了 Etched.ai。
在进入大学之前,他参与了美国最著名的青少年科技创新大赛 FIRST Tech Challenge,团队获得了 Top 10 奖项。团队开发的自动驾驶軟體排在 600 个参赛团队第二名。
另一位创始人 Chris Zhu,也是在哈佛就读时就在校外疯狂实习,甚至还没有从哈佛毕业,就已经成为兼职教员。
AMD MI300X 决战 NVIDIA H100
而英伟达和 AMD 这边,最近打得更是热火朝天,甚至连官方都直接下场写博客硬刚。
就在前段时间,AMD 高调发布了自家最强的 AI 芯片 MI300X。
PPT 显示,由 8 块 MI300X 组成的伺服器在大模型推理方面的表现,要比同样规模的 H100 速度最高提升 1.6 倍之多。
对于 AMD 来说,这种直接对标,实属罕见。
对此,英伟达很快就发表了一篇博客文章,驳斥 AMD 的评测不客观。
英伟达表示,如果 H100 GPU 使用了优化过的軟體进行正确的基准测试,它的性能将大大超过 MI300X。
作为回应,英伟达展示了采用 TensorRT-LLM 优化設定后,两款 GPU 在 Llama 2 70B 上的比较结果。
文章地址:https://developer.nvidia.com/blog/achieving-top-inference-performance-with-the-nvidia-h100-tensor-core-gpu-and-nvidia-tensorrt-llm/
可以看到,当批处理大小設定为 1 时,H100 的性能达到了 MI300X 的 2 倍。
甚至,当采用与 AMD 相同的 2.5 秒延迟时,H100 的性能可以达到 MI300X 的 14 倍之多。
英伟达表示,AMD 采用的替代軟體不支持 Hopper 的 Transformer Engine,并且忽略了 TensorRT-LLM 中的关键优化功能。而这些都可以在 GitHub 上免费获取。
AMD 毫不示弱
见状,AMD 也发文表示,既然要用优化,那就大家都用。
而即便是在这种情况下,MI300X 的性能依然比 H100 强了 30%。
文章地址:https://community.amd.com/t5/instinct-accelerators/competitive-performance-claims-and-industry-leading-inference/ba-p/652304
具体来说:
1. 在同样采用 vLLM FP16 的設定时,相比于发布会上展示的 1.4 倍性能,AMD 最新的优化已经让这一优势扩大到了 2.1 倍。
2. 与使用 TensorRT-LLM 优化的 H100 相比,使用 vLLM 的 MI300X 实现了 1.3 倍的延迟改善。
3. 相比于采用低精度 FP8 和 TensorRT-LLM 的 H100,使用 vLLM 和高精度 FP16 的 MI300X 在绝对延迟方面,表现更好。
AMD 指出,英伟达在 H100 上进行基准测试时使用的是自家专有的技术 TensorRT-LLM,而非更广泛使用的 vLLM。
此外,在延迟方面,英伟达只关注吞吐量的性能,却忽视了实际工作中的延迟问题。
最后,AMD 表示,之所以选择使用 FP16,是因为它非常流行,而且目前 vLLM 还不支持 FP8。
GPU 大战进入白热化
在人工智能加速器领網域,一些公司拥有针对特定工作负载的专门架构。
数据中心的专用架构主要集中在 DLRM(深度学习推荐模型),因为 GPU 很难加速这类任务。
Meta 最近宣布已经构建了自己的 DLRM 推理芯片,并且已经得到广泛部署。
而对于 Transformer 构架的加速,英伟达是通过在 H100 GPU 中部署 Transformer Engine 的軟體功能来实现的。
Transformer Engine 使得 LLM 推理无需进一步量化即可进行,大大加速了 GPU 推理 LLM 的效果。
而 Etched.ai 要做的就是更近一步,在硬體层面完成这个设计,从而使得 LLM 的推理速度和能效都更上一层楼。
而投资人之所以愿意给两位本科辍学生投入如此之大的一笔钱,更重要的是迄今为止,所有人都认为现在 LLM 推理的成本过高,其中一定有创新的空间。
除了这样的明星初创公司以外,传统巨头对于大模型推理市场同样抱有很高的期待。
苏妈在各种场合不断表示,未来大模型推理市场的规模将远远大于模型训练市场。所以 AMD 也一直在强调自己的产品已经对这个市场做好了充分地准备。
从英伟达和 AMD 首次公开对比自家产品的性能这件事来看,GPU 领網域的竞争显然正在加剧。
目前,英伟达除了要面对 AMD 的挑战之外,还需要考虑英特尔和 Cerebras 取得的快速进展。
就在 12 月 14 日,首席执行官 Pat Gelsinger 展示了英特尔最新的 AI 芯片——采用 5nm 工艺制程,性能提升了 1.5 倍的 Gaudi 3。
相比于上一代 Gaudi 2,Gaudi 3 的 BFloat16 性能提升了 4 倍,计算能力提升 2 倍,显存容量提升 50% 达到 144GB,并且采用的是 HBM3 或 HBM3e。
同样,英伟达也计划在明年初推出 GH200 超级芯片。
鉴于竞争如此激烈,AMD 可能会被诸如微软、Meta 和甲骨文这些已经宣布将其技术集成到数据中心的公司,视为备选方案。
Gelsinger 预测,到 2027 年,GPU 市场规模将达到惊人的 4000 亿美元,这无疑为激烈的竞争提供了广阔的舞台。
Cerebras Systems 的 CEO Andrew Feldman 更是毫不遮掩自己的野心:「我们正在努力超越英伟达,到明年,我们将构建高达 36 exaflops 的 AI 算力。」