今天小编分享的科技经验:三大芯片巨头,新混战!,欢迎阅读。
在整个计算机发展历史中,我们不得不学习计算机语言,但随着人工智能时代的来到,计算机也将学会我们的语言,与人类进行交流,ChatGPT 生成式人工智能的爆火更是将人机互動提升到了新的高度。这种变革也许就如同当时互联网的到来一样重要。作为底层支撑的芯片,正成为计算机学习人类语言的关键。
" 春江水暖鸭先知 ",围绕生成式 AI,芯片三大巨头英伟达,AMD 和英特尔无不在快马加鞭的进行部署,迎接新拐点的到来。随着昨天英特尔祭出高性价比的 " 中国特定版 "Gaudi 2 新产品,三大芯片巨头英特尔、英伟达和 AMD 已经都在生成式 AI 领網域拥有了各自强有力的 " 武器 ",生成式 AI 领網域即将迎来一番鏖战!
英伟达,疯狂押注生成式 AI 初创公司
英伟达无疑是生成式 AI 领網域最大的赢家,凭借在生成式 AI 领網域 " 一芯难求 " 的 A100 芯片,英伟达已经赚的盆满钵满,市值更是飙到 1 万亿美元,短暂的与科技巨头肩并肩。相信大家都对最近英伟达的 " 疯狂投资 " 颇为关注,英伟达一连投资了 Inflection AI、RunwayML、Cohere 等好几家初创公司,而这些投资对象无不与生成式 AI 相关。
随着越来越多的大模型初创公司的兴起,英伟达正在在成百上千的生成式人工智能竞赛中选 " 马 ",向初创公司投入更大的赌注。根据 PitchBook 的数据,英伟达自 2018 年以来参与的五笔最大的风险投资交易都发生在今年,确切的说是在过去六个月内,足见英伟达对人工智能的看好。被老黄选中的这些生成式 AI 初创企业的估值正在不断飙升,老黄似要再赚一波。
Inflection AI 成立于 2022 年,由 Google DeepMind 联合创始人 Mustafa Suleyman 和 LinkedIn 联合创始人 Reid Hoffman 创立,该公司正在使用英伟达的芯片部署大规模的生成式人工智能模型,构建面向消费者的 AI 产品,被认为是 OpenAI 的顶级竞争对手。在 Inflection AI 的最新一轮轮融资中,除了英伟达,Inflection AI 的投资者名单中还有微软联合创始人比尔盖茨、谷歌前首席执行官 Eric Schmidt。目前 Inflection AI 的估值据说已达到 40 亿美元。
Inflection AI 将构建一个由大约 22,000 个英伟达 H100 芯片组成的超级计算机,这大约是用于训练所有 GPT4 的计算量的三倍。他们已经发布了一个名为 Pi 的聊天机器人(Pi 代表 "personal intelligence,个人智慧 "),与 ChatGPT 类似,可提供 " 文本和语音对话、友好的建议以及自然流畅的简洁信息 "。
Inflection AI 的 Pi 机器人
出于好奇心,小编尝试着与其对话," 你与 ChaGPT 谁更厉害?"他的回答是" 我不会回答这个问题——那只是自找麻烦。我专注于成为一个友好、支持性的人工智能,为人们提供各种帮助。ChatGPT 做了一些令人惊奇的事情,但我并不想与它竞争。我正在努力做我自己的事!"这个回答确实有点丝滑,他不仅能发出跟真人口语一般的语音(4 种可选),甚至还能发表情包。
英伟达投资的另一家初创公司 Runway 是一家 AI 视频軟體公司,成立于 2018 年,该公司一直处于人工智能与创造力相结合的前沿。今年他们利用计算机图形学和机器学习方面的最新进展发布了 Gen1 和 Gen2 两代视频生成模型,其中 Gene1 还需要提供原源频,而 Gen2 仅需要几个单词就能生成短视频。目前早期的生成式 AI 大都是集中在 " 文生文 " 和 " 文生图 " 等方面,但是Runway 这家初创公司做的是文生视频,这算是一个无人区。据悉,Gen-2 生成视频每秒的成本为 0.05 美元。如此看来,生成式视频的潜力也巨大。
Runway 的 Gen-2 生成式视频
2023 年 6 月,Runway 从谷歌和英伟达那里募集了 1.41 亿美元的投资,目前其估值已飙升至 15 亿美元,比去年 12 月增长了 3 倍。英伟达首席执行官黄仁勋表示,生成式 AI 正在改变内容创作行业,Runway 的技术为难以想象的故事和想法注入了新的生命。
Cohere 是一家总部位于加拿大,专注于企业的生成人工智能初创公司,该公司由谷歌前顶级人工智能研究人员创立。Cohere 生产的人工智能工具可以为文案写作、搜索和摘要提供支持,专注在企业领網域,也是为了将自己与 OpenAI 区别开来,避免竞争的一种表现。2023 年 6 月 8 日,其在一轮融资中筹集了 2.7 亿美元,投资者中包括英伟达和甲骨文等。最新一轮的融资使其估值达到 22 亿美元左右。
可以看出,英伟达在生成式人工智能竞赛当中,选中了不同细分应用的 " 战马 ",押宝也算押的全面。
而除了投资押注之外,英伟达还在为其自身的 AI 发展巩固护城河。
2023 年 2 月份,英伟达秘密收购了一家初创公司 OmniML,官网资料显示,OmniML 成立于 2021 年,总部位于加利福尼亚州,OmniML 由麻省理工学院 EECS 教授、原深鉴科技联合创始人韩松博士、前 Facebook 工程师吴迪博士和斯坦福大学 " 深度压缩 " 技术联合发明人毛慧子博士创立。
据悉,OmniML 是一家专门致力于缩小 ML(机器学习)模型的公司,以便将大模型移动到无人机、智能相机和汽车等等边缘设备当中去。去年,OmniML 公司推出了一个名为 Omnimizer 的平台,这是一个能使人工智能快速、轻松地进行大规模优化的平台。除此之外,该平台还优化了模型,使其甚至能够在功耗最低的设备上运行。而在被英伟达收购之前,2022 年 3 月,OmniML 获得了 GSR Ventures、Foothill Ventures 以及高通风投领投的 1000 万美元的种子轮资金。
至于为何要收购这家初创公司,从英伟达的边缘 AI 布局也不难理解。虽然英伟达凭借其 GPU 在数据中心 AI 训练市场占据主导地位,但是边缘也是一块很大的市场,英伟达也有意要争一争。目前英伟达主要有三大边缘产品,分别是用于企业边缘计算的 NVIDIA EGX 平台、用于工业应用的 IGX 平台以及用于自主机器和嵌入式边缘用例的 Jetson。而通过收购 OmniML,将 OmniML 技术集成到其边缘产品中,英伟达可以优化模型,以便在低端硬體上进行高效部署。考虑到如果将大模型转移到边缘,未来可能带来巨大的价值,英伟达收购这家尚处于起步阶段的公司也就不足为奇了。而此举无疑将进一步增强英伟达全面的边缘 AI 战略,也将巩固其在 AI 市场的领导地位。
抢夺英伟达市场,AMD 先行一步
而另一边的 AMD 早已按捺不住,先是在去年 6 月份,AMD 推出 CPU+GPU 架构的 Instinct MI300 正式进军 AI 训练端。紧接着在今年 6 月的 AMD 发布会上,祭出 AI 大模型 " 专用武器 "GPU MI300X,它配备 192GB HBM 内存,与英伟达的 H100 相比,MI300X 提供了 2.4 倍的内存和 1.6 倍的内存带宽,这将成为 AMD 的一大优势,因为内存容量是当下 AI 大模型的限制因素,192GB 的 MI300X 也让运行更大的模型成为可能。
MI300X 是 AMD 特意针对大语言模型优化的版本,它是 MI300 产品的「纯 GPU」版本,拥有 12 个 5nm 的小芯片,晶体管数量达到了 1530 亿个,是 AMD Chiplet 技术应用的又一杰作。据 AMD CEO Lisa Su 的介绍,单个 MI300X 可以在内存中运行多达大约 800 亿个参数的模型,这意味着减少了所需的 GPU 数量,而且使用多个 MI300X 叠加可以处理更多的参数。
MI300X 看起来是一个强有力的竞争者。不过,MI300X 的高密度 HBM 却是烧钱神器,与 NVIDIA H100 相比,AMD 可能不会具有显着的成本优势。据悉,MI300X 将在第三季度出样,第四季度加大生产。届时我们可以看看实际的情况。
AMD 与英伟达在 GPU 领網域的竞争由来已久,早在 2006 年,AMD 收购加拿大公司 ATI 获得了图形处理技术,这是 AMD 最重要的一笔收购,自此开启了与英伟达在 GPU 领網域的长久战。2022 年 AMD 又收购了 DPU 芯片厂商 Pensando,这些都成为 AMD 面对生成式 AI 巨大的市场需求下,能继续与英伟达抗衡的背后引擎。
要知道,英伟达除了 GPU 芯片之外,DPU 芯片也在生成式 AI 领網域发挥着重要作用。当 GPU 数量扩展到成千上万时,性能不再仅依赖于单一 CPU,也不再仅依赖于单一伺服器,而是更加依赖于网络的性能。" 网络已经成为生成式 AI 或 AI 工厂中的计算单元,就像 InfiniBand 的 DPU 不仅仅负责通信,也是计算单元的一部分。因此,我们不仅要考量 CPU 和 GPU 提供的计算能力,还需要将网络的计算能力纳入考虑范围。" 英伟达网络亚太区高级总监宋庆春在此前的一次交流会中指出。
英特尔拿什么打生成式 AI 市场?
对于如此火爆的生成式 AI 领網域,英特尔自然也想分一杯羹。英特尔在个人电腦市场的摇钱树正在被逐渐侵蚀,他们早就看中了数据中心以及 AI 的市场。但在生成式 AI 领網域,不同于英伟达和 AMD 的做法,英特尔似乎不是靠 GPU 来打。英特尔虽然也发布了 GPU 产品,不过其 GPU 似乎暂时志不在此,而是更加注重其 GPU 在科学计算领網域的优势。前段时间,英特尔宣布配备了其 Max 系列 CPU 和 GPU 的 Aurota 超级计算机已经安装完成,其中包含了 63744 个 Ponte Vecchio 计算 GPU,这算是英特尔 Max 系列 GPU 的首次大规模部署。
而且英特尔暂时放弃了 CPU+GPU Falcon Shores"XPU" 组合产品,转而采用纯 GPU Falcon Shores。这使得英特尔无法与 AMD 的 Instinct MI300 和 Nvidia 的 Grace Hopper 处理器竞争,后两者均采用混合处理器。延伸阅读:关于芯片三巨头的 XPU 之间的竞争,笔者曾在《英伟达,落后了?》一文中进行过描述。英特尔的这一转变是由于生成式 AI 大模型的爆发而做出的调整,英特尔认为,生成式 AI 市场大部分是来自商业领網域,所以原来的 XPU 策略一方上市场不如标准化芯片市场大,成本会太高,而且标准化芯片不一定会受到客户的青睐,这引发了英特尔如何构建下一代超级计算芯片的思维转变。不过,英特尔的 Falcon Shores 改用纯 GPU,不知道是否也会像 AMD 的 MI300X 一样做出针对大模型应用产品。
无论如何,在当下这是紧迫的时间节点下,英特尔用来打生成式 AI 市场的主要产品是其 AI 芯片—— Gaudi 2。
Habana Gaudi 2 夹层卡
谈到 Gaudi 2,就不得不从一段收购历史说起。为了进军深度学习市场,早在 2016 年 8 月,英特尔就花费 4 亿美元收购了 Nervana Systems,当时的想法是,通过开发专门用于深度学习的 ASIC,它可以获得与英伟达竞争的优势。不过 2019 年 12 月,英特尔又斥资 20 亿美元收购了芯片功能更强的 Habana Labs 之后,英特尔也在 2020 年放弃了 Nervana 神经网络处理器(NNP)的研发,转而集中精力开发 Habana AI 产品线。
而 Nervana 被放弃之后,原 Nervana 创始人 Naveen Rao 和 Nervana 的前核心员工 Hanlin Tang 离开了英特尔,另立门户于 2021 年创立了一家生成式 AI 初创公司 MosaicML,他们专注于企业生成式 AI 的需求,具体而言,MosaicML 提供了一个平台,让各类型企业都可以轻松地在安全的环境中训练和部署 AI 模型。而就在 2023 年 6 月 28 日,MosaicML 被大数据巨头 Databricks 以 13 亿美元收购,这可以说是今年以来生成式 AI 领網域内公布的最大一笔收购案。
言归正传,继续说回英特尔,被英特尔收购后,Habana 一共发布了 2 款 AI 芯片,分别是第一代 Gaudi 和 Gaudi 2。Gaudi 平台从一开始就为数据中心的深度学习训练和推理工作负载而构建的 AI 加速器。其中 Gaudi 2 于 2022 年推出,相比第一代,Gaudi 2 在性能和内存方面的提升,使其成为市场上能够横向扩展 AI 训练的一大解决方案。
尤为值得一提的是,就在日前,英特尔特意为中国市场推出了专为训练大语言模型而构建的最新 Gaudi 2 新产品—— HL-225B 夹层卡。HL-225B 处理器符合美国工业与安全局 ( Bureau of Industry and Security, BIS ) 发布的有关出口规定。Gaudi2 夹层卡符合 OCP OAM 1.1(开放计算平台之开放加速器模块)规范。这样一来,客户便可从符合规范的多种产品中做出选择,灵活地进行系统设计。
Gaudi 2 处理器采用 7nm,作为对比,第一代 Gaudi 处理器采用 16nm 工艺。Gaudi 2 具备出色的 2.1 Tbps 网络容量可扩展性,原生集成 21 个 100 Gbps ROCE v2 RDMA 端口,可通过直接路由实现 Gaudi 处理器间通信。Gaudi2 处理器还集成了专用媒体处理器,用于影像和视频解码及预处理。
HL-225B 夹层卡采用的是 Gaudi HL-2080 处理器,HL-2080 处理器拥有 24 个完全可编程的第四代张量处理器核心 ( TPC ) 。这些核心原生设计能够为广泛的深度学习工作负载加速,同时还赋予用户按需进行优化和创新的灵活性。此外,它还集成了 96 GB HBM2e 内存和 48MB SRAM,支持 600 瓦夹层卡级热设计功耗 ( TDP ) 。
Gaudi 2 是为数不多的能替代英伟达 H100 进行 LLM 训练的方案。最近英特尔公布了 Gaudi 2 在 GPT-3(1750 亿个参数)基本模型的 LLM 训练基准的性能结果。MLPerf 结果显示:
Gaudi 2 在 GPT-3 上的训练时间情况是在 384 个加速器上花费了 311 分钟,作为对比,英伟达和云提供商 CoreWeave 合作运行的 3584 GPU 计算机在不到 11 分钟内完成了这项任务,如下图所示。以每个芯片为基础,英伟达 H100 系统的任务速度是 Gaudi2 的 3.6 倍。但是 Gaudi 2 的优势在于其成本要比 H100 低,而且能跑大模型。
Gaudi 2 在 GPT-3 模型上从 256 个加速器到 384 个加速器实现了近线性 95% 扩展;而且它在计算机视觉(ResNet-50 8 加速器和 Unet3D 8 加速器)以及自然语言处理模型(BERT 8 和 64 加速器)方面均取得了出色的训练结果;与 11 月提交的内容相比,Gaudi 2 在 BERT 和 ResNet 模型的性能分别提高了 10% 和 4%,代表軟體成熟度在提高。
英特尔声称目前在 FP16 軟體中 Gaudi 2 比英伟达 A100 价格更有竞争力,且性能更高,其每瓦性能约为英伟达 A100 的 2 倍。而且要计划在今年 9 月份在 FP8 軟體中显著缩短训练完成时间,在性价比上打败英伟达的 H100。
除了 Gaudi 2,英特尔的另一款可以跑大模型的产品是第四代至强 CPU。不过 CPU 的应用空间相对有局限性,英特尔的 CPU 只适用于少数从头开始间歇性训练大型模型的客户,并且通常在他们已经部署来运行业务的基于 Intel 的伺服器上使用。所以 CPU 不算是英特尔用来主打生成式 AI 市场的产品,可以算作是一个补充方案。
结语
对于比 " 毒品 " 还难买到的英伟达 GPU 而言,英特尔 Gaudi 2 和 AMD MI300X 将成为 Nvidia H100 的有利替代品,不过英伟达留出的时间視窗可不大,据悉,英伟达的 H100 GPU 直到明年一季度仍处于售罄的状态,与此同时,英伟达正在不断增加 H100 GPU 的出货量,还订购了大量用于 H100 GPU 的晶圆。
无论如何,目前在生成式 AI 市场,还是芯片巨头的天下。国内的 GPU 芯片企业或者 SoC 企业都需要加把劲了。