今天小编分享的财经经验:AI芯片“一骑绝尘”,英伟达为什么没有对手?,欢迎阅读。
谁是生成式 AI 最大的受益者?至少在芯片产业链,一定是 GPGPU(通用图形处理器)绝对龙头英伟达。在 AI 芯片,在 GPGPU 领網域,天下英雄谁敌手?答案是没有。
在优良业绩的助推下,英伟达一度站上一万亿美元市值。这是芯片行业内其他公司难以企及的高度,其市值也达到芯片巨人英特尔的七倍。
作为英伟达的创始人,黄仁勋究竟有什么魔法把公司带到如此高度。从近日黄仁勋在台大的演讲中,或能窥得一二。
" 学会放弃,是迈向成功的核心关键。" 黄仁勋是这样说的,也是这样做的。十年前的 2013 年,英特尔还在耗费巨资补贴移动端平板厂商;华为凭借 P6 手机,带领海思 K3V2 芯片初露锋芒。而英伟达,却渐渐淡出了彼时风头正盛的移动端 SoC 市场。
" 我们的放弃获得了回报,我们创造了一个新的市场——机器人技术。拥有神经网络处理器和运行 AI 算法的安全架构。" 黄仁勋说道。
但任何人无法仅靠 " 放弃 " 获得成功。放弃之外,黄仁勋更多的是 " 专注 "。芯谋研究总监李国强告诉《每日经济新闻》记者:"(英伟达的成果)源自它的专注,其长期专注于 GPU 领網域,又赶上了 AI 生态的爆发。这两个方面造成英伟达成为全球芯片产业王者。"
图片来源:视觉中国 -VCG31N1237120515
舍得放弃的 " 狂人 "
身着皮夹克的 " 狂人 ",这是业界对黄仁勋的印象,游戏玩家们在各大论坛中也常常亲切地喊他 " 老黄 "。由于英伟达每一阶显卡,在价格和性能上只比次一阶高一些,因此黄仁勋也被称为 " 刀客 ",这种错落有致的各阶显卡布局,也被叫做 " 老黄刀法 "。
在这次演讲中,老黄一改 " 皮衣刀客 " 的狂人形象,穿起了礼服,显得温文儒雅。演讲中,黄仁勋讲了一个有趣的故事。十年前,台大陈教授邀请他来看其物理实验室,只见整个房间都是英伟达的游戏显卡,插在开放式电腦的主机板上,金属架上都是散热用的大风扇。陈教授告诉他:" 黄先生,因为你的关系,我可以完成我的事业。"
陈教授的话深深地感染了黄仁勋,"(陈教授)说的那些话至今仍感动我,完美诠释了我们公司的价值:帮助这个时代的爱因斯坦与達文西完成他们的事业。"
爱因斯坦在创立广义相对论的过程中,曾寻求同时代数学家的帮助。
而在如今这个时代,无论 AI,亦或物理学、生物学的研究,都离不开算力的支持。英伟达,正是 AI 芯片的领军者。
" 放弃 " 与 " 专注 ",可谓黄仁勋成功的关键。十年前,AI 并不兴盛,行业里关注的焦点是移动端。智能手机、平板的大爆发,使得移动端芯片成为各大芯片巨头的 " 兵家必争之地 "。
英伟达在移动端 " 起得早 ",却最终放弃。据英伟达官网,早在 2008 年,英伟达就推出针对移动端的 Tegra 芯片;2011 年 5 月,为了补基带的短板,英伟达又收购了 Icera 公司,后者在针对 3G 和 4G 网络的手机、平板电腦的高性能基带处理器领網域一直是领先的创新者。
当时,黄仁勋宣称:" 这是英伟达在移动计算革命浪潮中成为领先公司的关键一步。通过将 Icera 公司的技术整合到 Tegra 中,我们将开发出一个极佳的平台,用以支持行业中最好的手机和平板电腦。"
只是,在这轮移动计算革命浪潮中,英伟达失败了,胜利属于苹果、高通和联发科。2013 年,英伟达在拉斯维加斯国际消费电子展上发布 Tegra4,这款芯片也成为英伟达在手机芯片领網域的 " 绝唱 "。此后,Tegra 系列芯片主要应用在任天堂 Switch 主机上。
AI 芯片独领风骚
尽管当下手机芯片行业不景气,但这依旧是一个巨大的市场。十年前,要做出放弃手机芯片市场的决定,更是非常艰难。
但黄仁勋选择放弃一个规模巨大的市场,去创造一个未知的市场。在演讲中,黄仁勋感叹:" 从巨大的手机市场撤退,再创造一个不知道市场规模的机器人市场。然而,现在的我们拥有数十亿美元的自动驾驶、机器人技术的事业,也开创一个新的产业。"
在桌面 CPU,英特尔、AMD 双雄并立;在移动端 SoC,苹果小幅领先,高通、联发科、紫光展锐等公司各领风骚。在 AI 芯片领網域,不乏 AMD、英特尔这样的老牌芯片巨头,也有芯片大神 Jim Keller 带领下的初创公司 Tenstorrent。尽管巨头云集,大神汇聚,英伟达依然能够 " 一骑绝尘 "。
为何没有敌手?" 英伟达赢在 CUDA(Compute Unified Device Architecture,英伟达推出的通用并行计算架构),赢在軟體。" 一位前券商分析师如此回复记者。其后,《每日经济新闻》采访了多名行业专家及 GPGPU 行业工程师,CUDA 几乎均被提及。由 CUDA 构建的軟體生态,是英伟达能够独领风骚的关键。
英伟达领先其他 GPGPU 厂商的优势到底有多大?" 院士与高中生的差别。" 芯片工程师林达(化名)告诉记者。那英伟达跟 AMD 呢?" 院士和大学教授吧。" 其回复道。
拉开差距的关键,在于生态。" 生态是第一位,(CUDA)跟安卓系统很像,太成熟、太方便,生态太强了。就像可乐一样,程式员已经习惯(CUDA)这个饮料了。而(CUDA)把门槛搞得很低,就好像你数学差,但是你会用计算器。" 林达向记者解释。
那么其他 AI 芯片公司能否使用类似 CUDA 的工具?比如 AMD 推出的 ROCm(Radeon Open Compute Platform)以及非盈利组织 Khronos Group 推出的 OpenAI。
林达举例回复称:" 跟你买螺丝、扳手一样。你也可以不通用,但是没人陪你玩啊。AMD 也搞了个,但是自己都不用。"
軟體生态无可替代
与非网资深行业分析师张慧娟向记者解释道:" 英伟达 2006 年就推出 CUDA 了。正是 CUDA 的推出,降低了 GPU 的应用门槛。軟體开发者可以通过 CUDA 使用 C/C++ 等语言,来编写 GPU 片上程式,降低了 GPU 的应用门槛。也是从那时开始,GPU 逐渐脱离了影像处理这一单一用途。它不仅仅可以用于影像处理,也可以用于高性能计算。"
简单说,CUDA 降低了 GPU 的门槛,使得 GPU 的应用领網域从影像渲染拓展到方方面面,真正成为通用型处理器,因此也有了 GPGPU(通用图形处理器)的说法。
" 英伟达所有架构都在 CUDA 之上,一直从头走到现在,包含了很多层级在里面,包括编译器、调试器、丰富的库函数、各种軟體工具,是很庞大的资源。假设现在有一个新的硬體平台,但是不兼容 CUDA,那么对开发者来说就意味着大量的軟體移植工作。因此一些平台可能会选择兼容 CUDA,也就是 CUDA 加速的軟體可以跑在他的硬體上,不过实际的效率和性能表现,都有待观察,这也是 CUDA 生态环境的强大之处。" 张慧娟补充表示。
国内头部 GPGPU 厂商工程师刘默(化名)6 月 5 日告诉记者:" 经过多年的建设,英伟达的 CUDA 已经有 400 万开发者,基本形成了垄断态势的生态壁垒,而軟體生态恰恰是下游客户最为重视的产品竞争要素,这是英伟达相对于 AMD、Intel 以及其他初创企业的最大优势。"
既然 CUDA 如此重要,其他厂商可以提供自己的硬體,然后使用 CUDA 生态吗?
在这个问题上,刘默认为:"CUDA 是一个完全封闭的系统,目前可以真正兼容 CUDA,或者说叫使用 CUDA 的企业(除英伟达自身外)就 AMD 一家,AMD 和英伟达之间有相关的 IP 授权,这样英伟达的 MI 系列 GPGPU 可以使用 CUDA。但其他初创企业都不能直接使用 CUDA。目前初创企业有两种思路,第一种往往是 AMD 系出来创业的企业,由于其芯片架构类似 AMD 的产品,因此硬體条件上可以直接使用 CUDA,但由于 IP 的问题,对方会在 CUDA 的基础上微调出自己的軟體栈,这种虽然便于用户从 CUDA 环境迁移过去,但存在 IP 的风险;第二种就是完全原创的軟體栈,这种最大的问题就是客户存在一定的迁移成本,对商业落地产生负面影响。"
电子创新网 CEO 张国斌也对记者表示:" 让 NVIDIA 自己开放 CUDA 硬體,以便其他厂商将 CUDA 集成到自己的芯片中,并运行自己为 CUDA 开发的軟體,这种可能性是没有的,黄仁勋已经彻底否定了,毕竟 CUDA 在这方面是领先对手的,NVIDIA 不可能将自己的优势开放给其他厂商甚至对手。"
跑吧!无论如何都要保持奔跑
在演讲中,黄仁勋寄语学子:" 你们即将进入一个正在经历巨大变革的世界,就像我毕业时遇到个人电腦和芯片革命时一样,你们正处于 AI 的起跑线上。每个行业都将被革命、重生,为新思想做好准备。不论是为了食物而奔跑,或不被他人当做食物而奔跑。你往往无法知道自己正处在哪一种情况,但无论如何,都要保持奔跑。"
李国强表示:" 英伟达很早就开始进入 GPU 的研发,且长期专注于 GPU。在 AI 领網域,需要的是高算力并行计算,最适合的就是 GPU。(英伟达)核心产品还是 GPU,别的东西也有尝试,后来都是慢慢退出。"
此外,英伟达所建立的优势,并不局限于 CUDA 生态,还有硬體架构与制程。张慧娟表示:" 对于所有芯片而言,硬體架构是基础,它就像房子的框架。比如 H100,就采用最新一代 Hopper 架构,该架构针对大模型就有一些跨单元的协同计算,拥有更好的加速能力。其最新推出的 GH200,则属于异构集成架构,它采用英伟达自己的 Grace CPU 和 H100 GPU,在 CPU 和 GPU 中间采取自己的 NVLink 互连技术。这样的架构解决了很多数据传输的瓶颈,把 CPU 与 GPU 之间的带宽大大提高了。"
这两款产品,是英伟达即将推出的新品。目前全球大模型训练,使用最多的仍是英伟达 A100。张慧娟认为:"A100 采用的还是上一代的安倍架构,这个架构也针对 AI 提升了它的计算性能吞吐量,包括更大的内存、更高的带宽,这些对于大规模计算都是必不可少的。我们只是看了最新两代的架构,再往前看,英伟达从面向游戏,到面向高性能计算,一代一代架构演进,这对它来讲是非常重要的。"
来源:每经记者 朱成祥 作图
英特尔曾施行 Tick-Tock(一年更新制程、一年更新)策略,后因制程长期卡在 10 纳米而难以推行。而英伟达,从 2008 年推出特斯拉架构,到 2022 年推出 Hopper 架构,一共推出 9 代架构,甚至不到两年就推出一代架构。此外,由于跟台积电的密切合作,英伟达使用的制程一直是最先进的。
头豹研究院 TMT 行业高级分析师陈文广告诉记者:"H100 采用了台积电 4nm 工艺,集成了 800 亿个晶体管,比上一代 A100 足足多了 260 亿个,是目前全球范围内最大的加速器;其 CUDA 核心数量则飙升到了前所未有的 16896 个,达到 A100 的 2.5 倍。浮点计算和张量核心运算能力也随之翻了至少 3 倍,比如 FP32 就达到了达到 60 万亿次 / 秒。更重要的是,H100 面向 AI 计算,针对 Transformer 搭载了优化引擎,使大模型训练速度直接提升了 6 倍以上。这意味着,无论是训练 1750 亿参数的 GPT-3 ,还是 3950 亿参数的 Transformer 大模型,H100 都能将训练时间从之前的一周缩短到 1 天之内。这些突破性的技术创新帮助英伟达保持在高端芯片市场的绝对领导地位。"
或许,就如同黄仁勋所言,英伟达 " 一直在奔跑 "。其对学子们表示:" 无论是什么,像我们一样全力以赴去追求它,跑吧!不要慢慢走。"
是的,跑吧!不要慢慢走。正是在不断奔跑中,英伟达逐步站上全球芯片之巅。在 GPU 领網域,曾经的王者 3DX、ATI 陆续被收购,唯有英伟达屹立不倒。在 GPU 軟體生态中,也涌现出微软 DirectX、ATI Stream,但在这场长跑中,胜者属于 CUDA。
而专注,或许是英伟达能从长跑中胜出的原因。微软的重心不在 GPU 軟體生态,ATI 被 AMD 收购之后,AMD 也更倾向于 CPU 与 GPU 的异构协同。軟體是这样,硬體同样如此。在李国强看来,英特尔、AMD 都是横跨 CPU、GPU 和 FPGA 的龙头,而英伟达长期专注 GPU。
谁能撼动英伟达?
长期专注、不断奔跑,奠基了英伟达芯片帝国的霸业。而在异构计算大潮下,英伟达也布局多类型芯片。比如前文提及的 GH200,就融合了英伟达基于 ARM 架构的 CPU 和自身 GPU。除此之下,英伟达还通过收购,推出 DPU 产品。
2020 年上半年,英伟达以 69 亿美元对价收购以色列网络芯片公司 Mellanox Technologies,并于同年推出 BlueField-2 DPU,将其定义为继 CPU、GPU 之后的 " 第三颗主力芯片 "。
CPU、GPU 人们已经比较熟悉,DPU 又是做什么的?据英伟达官网,DPU 是一个用于数据中心基础设施的先进计算平台,可大规模提供加速的軟體定义网络、存储、安全和管理服务。
张慧娟向记者解释:" 随着数据量越来越大,使用传统的 CPU 处理已经跟不上数据的爆发。尤其是短视频、视觉类应用,数据量是爆炸式、指数级增长的,DPU 应运而生。此前,一些 FPGA 厂商也在进行这方面的探索,自英伟达收购了这家 DPU 公司之后,DPU 这个市场被迅速带火了,AMD(2022 年斥资 19 亿美元)收购 DPU 芯片厂商 Pensando,国内也涌现出好几家 DPU 创业公司。"
在这轮 " 第三颗主力芯片 " 大潮中,英伟达也在构建自身的軟體生态,其于 2021 年推出 DOCA。
何为 DOCA?英伟达简单直接地解释道:"DOCA 之于 DPU,正如 CUDA 之于 GPU。"
" 如果说 CUDA 是 GPU 的灵魂,那么 DOCA 就是 DPU 的灵魂。因为芯片如果没有好用的軟體配合,就是一个(干巴巴的)硬體。就如同手机,假如没有丰富的 APP,可能就只能打电话。正是因为有了軟體,让开发者开发出各种各样的应用,硬體的应用才如此丰富。" 张慧娟表示。
通过硬體架构和軟體生态,英伟达已经在 GPU 领網域构建强大的壁垒。在 DPU 领網域,英伟达似乎也要如法炮制。
谁能撼动英伟达的地位呢?目前可能还没有。" 除非英伟达自己出现重大失误,但是这样的可能性很小。" 张国斌表示。
刘默认为:"AMD 的 MI300 是目前从硬體水平和軟體生态上最接近 H100 的产品,无论是国外的初创公司例如 Graphcore,还是国内的几家企业,目前还没有能够替代英伟达 H100 的产品。此外,英伟达依靠其巨大的出货量以及在芯片制造上的投入,已经和台积电形成了紧密的合作,而非简单的客户与供货商关系。比如 H100 使用的 4nm 制程,就是英伟达和台积电在公版 5nm 制程的基础上进行优化后的特制版本。"
曾经在桌面 CPU 领網域,英特尔也是一骑绝尘。因为领先太多,还有 "i3 默秒全 " 的说法,即 i3 在默认频率下就能秒 AMD 全系列。然而 AMD 在苏姿丰的带领下,如今已成功与英特尔平分秋色。
AMD 还能在 GPU 领網域上演奇迹吗?李国强认为:" 确实存在这种可能。但英特尔之所以会被 AMD 赶上来,根本性原因在于其在晶圆制造技术上。当时英特尔在 10 纳米节点停滞了,但 AMD 是 Fabless 模式,通过与台积电合作才翻身。而英伟达本身就和台积电密切合作。"
一直在奔跑的英伟达,一直在奔跑的黄仁勋,谁又能颠覆呢?
每日经济新闻