今天小编分享的财经经验:一夜蒸发5600亿,英伟达真的危险了?,欢迎阅读。
英伟达 CEO 黄仁勋(Jensen Huang)
由于 ChatGPT 爆火引发 AI 算力需求热潮,英伟达 AI 芯片供不应求、大规模短缺。如今,英伟达似乎遭遇到了更多挑战。
北京时间 2 月 21 日,据报道,科技巨头微软正在开发一种新的网卡芯片,替代英伟达 ConnectX SmartNIC 智能网卡产品,以确保 AI 模型数据可以在微软云伺服器之间快速传输。
微软方面确认了此消息。该公司在一份声明中表示,作为微软 Azure 基础设施系统方法的一部分,公司经常开发新技术来满足客户的需求,包括网络芯片。
实际上,作为英伟达 GPU(图形处理器)的最大客户之一,微软事件是一个重要 " 信号 "。除了省成本之外,微软还希望新网卡能够提高其英伟达芯片伺服器的性能,将有助于使用微软云的 OpenAI 研发更多 AI 大模型。
不止是微软。
近两天,一家名为 Groq 的美国 AI 公司一夜 " 爆火 ",主要因其自研的 LPU 芯片在 AI 推理技术上,通过优化架构和减少内存瓶颈,实现了高效率和低延迟,在处理大模型时的速度远超英伟达 GPU,每秒生成速度接近 500 tokens,而 GPT-4 仅 40 tokens。
因此,Groq LPU 被誉为 " 史上最快的大模型技术 "。
受上述消息以及外部环境影响,截至 2 月 20 日美股收盘,英伟达单日股价下跌 4.35%,创下去年 10 月以来的最大单日跌幅,一夜之间总市值缩水 780 亿美元(约逾 5600 亿元人民币)。
2 月 20 日,IDC 分析师对钛媒体 App 等表示,随着 Sora 的推出,多模态大模型对 AI 算力的消耗更高,算力的可获取性以及成本将是行业挑战之一。
那么,面对这种新的竞争局势,英伟达真的危险了吗?
Groq 到底是谁?为什么这么强?
据悉,Groq 公司成立于 2016 年,总部位于美国加利福尼亚,创始团队中有很多人都参与过谷歌 TPU 项目。
其中,Groq 创始人兼 CEO 乔纳森 · 罗斯(Jonathan Ross)曾设计并制作出了第一代谷歌 TPU 芯片的核心元件,TPU 20% 的研发项目都由他完成。
公司领导层的 10 人中,有 8 人都有在谷歌、英特尔等科技巨头的工作经历。
Groq 创始人兼 CEO 乔纳森 · 罗斯(Jonathan Ross)
融资方面,截至目前,Groq 共完成了 3 轮融资,总共融资到了 3.67 亿美元。最后一轮融资在 2021 年 4 月完成,融资金额为 3 亿美元,由老虎环球基金(Tiger Global Management)和投资公司 D1 Capital 领投。
Groq 之所以能够在此次 AI 热潮中 " 爆火 ",主要得益于其使用了自研芯片 LPU(Language Processing Units),而不是英伟达的 GPU(图形处理器)芯片,它能实现高速度和低延迟。
据 Groq 在 2024 年 1 月的第一个公开基准测试,由 Groq LPU 驱动的 Meta Llama 2-70B 模型,推理性能比其他顶级云计算供应商快 18 倍。
Groq LPU 的工作原理与英伟达的 GPU 不同,它采用了名为时序指令集计算机(Temporal Instruction Set Computer)架构,使用存储器为静态随机存取存储器(SRAM),其速度比 GPU 所用的高带宽存储器(HBM)快约 20 倍。
从芯片的规格中,SRAM 容量是 230MB,带宽 80TB/s,FP16 的算力是 188TFLOPs。
这一区别造成了 LPU 和 GPU 在生成速度的差别。据 Groq 表示,英伟达 GPU 生成每个 tokens 需要约 10 焦耳(J)到 30 焦耳,而 Groq 仅需 1 焦耳到 3 焦耳。
值得注意的是,虽然 Groq 做到了足够快,但背后成本却非常高昂。
2 月 20 日,前阿里巴巴集团副总裁、Lepton AI 创始人兼 CEO 贾扬清在社交平台上表示,由于每一张 Groq 卡的内存容量仅为 230MB,因此在运行 Llama-2 70B 模型时,需要 305-572 张 Groq 卡才足够,而用 H100 则只需要 8 张卡。
贾扬清认为,如果按未来运行三年的成本算,Groq 的硬體采购成本是 1144 万美元,运营成本至少要 76.2 万美元。从目前的价格来看,这意味着在同等吞吐量下,这几乎是 H100 硬體成本的 40 倍、能耗成本的 10 倍
据腾讯科技,芯片专家姚金鑫(J 叔)表示,Groq 对 Llama2-7B 的 Token 生成速度是 750 Tokens/s。如果从成本的角度,9 台的 Groq 伺服器,也是远远贵过 2 台总共 16 颗的 H100 芯片的伺服器,即使目前价格已经非常高了。
" 英伟达在本次 AI 浪潮中的绝对领先地位,使得全球都翘首以盼挑战者。每次吸引眼球的文章,总会在最初被人相信,除了这个原因之外,还是因为在做对比时的‘套路’,故意忽略其他因素,用单一维度来做比较。" 姚金鑫表示。
不止是成本高昂。SRAM 技术面积大、功耗比较高,早就以 IP 内核形式集成到 SoC(系统级芯片)里面,并非单独用,远不如 HBM 的未来发展潜力。不管是比部門容量价格、还是性能和功耗,英伟达 GPU 所使用的 HBM 技术都优于 SRAM。
虽然 Groq 的芯片成本较高,但其创始人 Jonathan Ross 已表示,随着 GPU 短缺和成本上升,Groq 的 LPU 将有巨大的市场潜力。
不仅是 Groq。
据 The information 2 月 21 日报道,英伟达的重要客户、全球最高市值的科技巨头微软计划设计一款新的网卡芯片,以替代英伟达相关产品。
知情人士称,微软首席执行官萨蒂亚 · 纳德拉 ( Satya Nadella ) 已任命网络设备开发商瞻博网络 ( Juniper Networks ) 联合创始人普拉迪普 · 辛杜 ( Pradeep Sindhu ) 来领导网卡工作。据悉,微软一年前收购了辛杜创立的伺服器芯片初创公司 Fungible。
据悉,网卡是数据中心与伺服器内部的一项重要技术,旨在加速伺服器之间的流量,解决大流量网络数据包处理占用 CPU 的问题。
在此之前,英伟达曾发布 NVIDIA ConnectX SmartNIC 智能网卡,最新的 ConnectX-7 通过加速交换和数据包处理(ASAP2)、高级 RoCE、GPUDirect Storage,以及用于 TLS、IPsec 和 MACsec 加密和解密的内联硬體加速等功能,为敏捷、高性能网络解决数据传输问题。
69 亿美元收购 Mellanox 之后,近两年,英伟达已研发出一种新的 DPU(数据处理器)芯片,最新产品为 BlueField-3 SuperNIC,将 SmartNIC 智能网卡集成内部。
据悉,DPU 是面向基础设施层(IaaS)的专用处理器,具备灵活可编程性。BlueField 利用英伟达 DOCA(集数据中心于芯片的架构)軟體开发包的优势,为开发者提供一个完整、开放的软硬體平台。除了 BlueField,英伟达还有 NVLink、NVSwitch 等多种技术整合,从而增强数据传输能力。
报道引述微软内部人士称,当微软在其数据中心使用英伟达制造的 AI 芯片时,由于 OpenAI 等客户拥有的大量数据传输需求,伺服器可能会过载。目前,微软已发布了首款 Maia AI 伺服器芯片。
The information 称,微软的网卡芯片与 ConnectX-7 卡类似,将其与 GPU 和 AI 芯片 " 捆绑 " 销售。
AI 芯片竞争加剧,英伟达真的危险了吗?
除了微软,亚马逊旗下云计算部门 AWS、Meta 等科技巨头也在自研对标英伟达 A100 的多款 AI 芯片产品。
去年 11 月,AWS 推出全新基于 ARM 架构、自研的高性能计算伺服器 CPU 芯片 Graviton 3E,同时发布第五代 Nitro 网络芯片硬體,借此提升云端虚拟机的计算效率,并支持天气预报、基因测序等场景任务;2 月 5 日 Meta 正式计划今年部署一款新的自研 AI 芯片,即第二代自研 AI 芯片 Artemis,预计将于 2024 年正式投产,以减少对英伟达芯片的依赖。
如今,奥尔特曼和孙正义也加入到了 AI 算力芯片战场。
其中,奥尔特曼已公布通过筹集 8 万亿美元制造 AI 芯片半导体网络,目前正与日本软银集团、阿联酋政府、美国商务部以及其他中东主权财富基金等投资者洽谈,有望扩大 OpenAI 技术能力;软银创始人孙正义被曝正在筹集 1000 亿美元研发 AI 半导体产品。
AWS 高级副总裁彼得 · 德桑蒂斯 ( Peter DeSantis ) 曾表示,AWS 希望客户用新的 Graviton 3E 处理器执行更多任务,从而获得高性能计算能力。他认为,与购买英特尔、英伟达或 AMD 芯片相比,亚马逊自研芯片将为客户提供更具性价比的算力支持。
研究公司 Dell'Oro Group 的数据中心基础设施负责人 Baron Fung 表示,微软和其他云提供商 " 不想受制于英伟达(Nvidia)生态系统 "。
OpenAI CEO 奥尔特曼(Sam Altman)曾私下表示,与谷歌相比,OpenAI 在算力上处于劣势。
那么,面对 AI 芯片竞争加剧局面,英伟达真的危险了吗?
英伟达曾表示,微软的网络组件可能会蚕食其网络设备每年超过 100 亿美元的销售规模。
不过,贾扬清认为,如果运行未来三年的话,Grog 的硬體采购成本是 1144 万美元,运营成本远高于 76.2 万美元,而 8 卡英伟达 H100 的硬體采购成本仅 30 万美元,运营成本大约为 7.2 万美元以内,性价比更高。
整体来看,英伟达 H100 产品在 AI 芯片市场上仍具有很强的竞争能力。
黄仁勋 2 月中旬表示,每个国家都需要拥有自己的 AI 基础设施,以便在保护自己文化的同时利用经济潜力。接下来的 4 到 5 年里,我们将拥有价值 2 万亿美元的数据中心,它将为世界各地的 AI 軟體提供动力,所有 AI 技术都会加速,而英伟达正取代通用计算核心,体系结构的性能将同时得到提高。
对于奥尔特曼的 7 万亿美元计划,黄仁勋称,(7 万亿美元)显然能买下所有 GPU。
" 如果你假设计算机不会变得更快,可能就会得出这样的结论:我们需要 14 颗行星、3 个星系和 4 个太阳来为这一切提供燃料。但计算机架构仍在不断进步。" 黄仁勋表示。
黄仁勋曾坦言,这些云计算厂商自研 AI 芯片是有一定理由的,主要还是服务自家的数据中心,但这不会影响英伟达在全球的 AI 生态系统发展。
北京时间 2 月 22 日凌晨,英伟达预计将发布 2023 年财报,根据该公司对上年最后一个季度的预测,2023 财年总营收将达到近 590 亿美元,是 2022 财年的两倍多。
据标普全球市场数据,苹果公司、微软、亚马逊以及谷歌的母公司和 Facebook 的母公司——都从未像英伟达一样,在一年内从类似的起点上实现如此快的收入增长。按年收入计算,英伟达将超越英特尔,成为全球第二大芯片公司。
资本市场目前猜测,英伟达将预计 4 月当季收入达到 216 亿美元,是去年同期的三倍。
截至发稿前,英伟达市值达到 1.72 亿美元,接近 2 万亿美元。据 FactSet 的数据,按这一市值计算,英伟达股票的远期市盈率约为 38 倍,比其三年平均水平低约 9%。
对于 3 月英伟达 GTC 将发布 B100 AI 芯片,摩根士丹利分析师 Joseph Moore 在一份最新报告中表示,基于早先有关该系统的一些披露,B100 是 " 最先进技术的巨大进步 "。
另外,面对微软、AWS 的 AI 芯片竞争局面,英伟达正推出自己的超算云服务 DGX Cloud,通过在数据中心内运行英伟达产品,实现更大的收入规模,以对抗这些举措。有行业人士向钛媒体 App 表示,英伟达内部对于 DGX Cloud 和英伟达 A100/H100 卡预期营收占比分别为 20%、80%。
"AI 算力似乎无处不在。"Rosenblatt Securities 分析师汉斯 · 莫塞曼(Hans Mosesmann)称。
Meta 公司 CEO 马克 · 扎克伯格曾表示,构建 " 通用人工智能 "(AGI)需要的首要条件是 " 世界级的计算基础设施 "。
支付宝 CTO 陈亮(花名:俊义)近期对钛媒体 App 等表示,目前 AI 大规模应用在实施过程中,依然面临多个 " 瓶颈 ",包括算力成本高、硬體限制等问题。尽管 GPU 卡的效率已经非常高,但如何使其适应不同的技术栈(与不同技术兼容)依然是一项重要难题。
阿尔特曼曾透露,OpenAI 希望保证到 2030 年都有足够的 AI 芯片供应。
彭博在一份最新报告中预估,未来 10 年,生成式 AI 技术有望在硬體、軟體、服务、广告、游戏等领網域创造 1.3 万亿美元收入,占科技领網域总支出的 10%-12%。
其中在硬體领網域,基于大数据、机器学习和神经网络算法的 AI 模型训练将会成为一个巨大市场。到 2032 年,其销售规模有望达到 4740 亿美元,年复合增长率达 30%,加上 AI 推理,整个全球算力规模届时将超过 6000 亿美元。
(本文首发钛媒体 App,作者|任颖文、林志佳,编辑|林志佳)