今天小编分享的财经经验:英伟达的“绝世武功”,欢迎阅读。
作 者丨倪雨晴
编 辑丨张伟贤
当大家都在猜测英伟达还有多少增长潜力时,美东时间 7 月 13 日,英伟达股价再度大涨 4.73%,市值达到 11356 亿美元(约合人民币 81071 亿元),再创历史新高。
" 现在公司大部分资源都集中在大模型建设,最近我们采购的一批英伟达 GPU 马上到货,内部早已分配完毕。" 近日,一家 AI 企业员工向 21 世纪经济报道记者描绘了芯片供应的紧张之势。
眼下,算力产业链正面临新一轮 " 缺芯 "。产业链上的企业们要登上超高算力的舞台、要在 AI 江湖中立足,英伟达 GPU 是稀缺的入场券。
当 A100 和 H100 因为美国禁令而停供后,英伟达重新定制的 800 系列在国内被厂商疯抢,100 系列的库存 GPU 价格也一路走高。有产业链人士告诉记者:" 今年 A100 的价格涨了一倍左右,而一台带 NVLink 的八卡伺服器,去年还不到 100 万元,现在可能需要 170 万元。"
更令人焦虑的是,价格高涨之下芯片仍难求,另一位产业链人士向记者表示,英伟达今年的 GPU 芯片需求或是往年的 7、8 倍,火热程度可见一斑。
ChatGPT 彻底引爆人工智能后,AMD、Intel、以及一众 GPU 企业也一同上阵竞赛,但是短期来看英伟达地位不可替代。
在多位 AI 从业者看来,当前大模型的训练需求过于迫切,对性能的要求也很高,而 GPU 的适配和生态转移都需要很长时间,因此目前大家都优先选择英伟达,和其他厂商的测试验证也在进行中。
一场新的算力之战已经拉开帷幕,如果说算力是一个江湖,那么此刻英伟达就是一名绝世高手。它身怀加速计算的绝技,尤其在 AI 战场上一骑绝尘,似乎每一次都能精准地踏在浪潮的节奏上。从游戏 PC 市场、到深度学习的崛起、到云计算的普及、再到生成式 AI 的降临,英伟达的技术所向披靡。
然而,英伟达创始人黄仁勋在 2017 年接受媒体采访时却说道:"15 年来,我讲的都是同一个故事。我几乎都不用修改我的幻灯片。" 他说,他预测不到人工智能何时来临,但无比坚信图形计算的优越性。
回头看,英伟达早已超越了 GPU 本身的概念,AI 成为最大的标签,算力的绝世武功撑起了新的万亿帝国。
起步
1993 年,常年身披黑夹克的黄仁勋不顾分析师的劝阻,毅然决定和伙伴创立英伟达。那一年,黄仁勋刚好 30 岁,他面对的市场环境并不乐观,在九十年代,图形处理器、或者说图形加速卡领網域群雄混战,上百家企业在场上短兵相接。
更重要的是,彼时图形加速卡并未受到重视,聚光灯都投射在 CPU 上。在 1993 年前后,意气风发的 CPU 战场上,算力主角是老牌传奇英特尔和 AMD,双方正在酣战。
1991 年英特尔成为当时全球最大的半导体企业,1993 年英特尔又推出了 80586 芯片,为了与 AMD 芯片进行区别,又将其命名为奔腾;1991 年的 AMD 推出了 Am386 微处理器系列,打破了英特尔的市场垄断,在 1993 年,AMD 又推出 Am486 微处理器。
而在英特尔和 AMD 为代表的 x86 架构的 CPU 之外,苹果和 Arm 也已经联手进入芯片界。1993 年,苹果推出 Newton MessagePad(牛顿机,PAD 鼻祖),就首次搭载了 Arm 架构处理器。与此同时,苹果还和 IBM、摩托罗拉结成联盟,来对抗 "Wintel",三者联合研发出芯片 PowerPC,在 1994 年用于苹果的台式机上。
正如黄仁勋在近期的一场采访中所言:"30 年前,个人电腦革命才刚刚开始,微处理器 CPU 开始起飞,当时大家认为 CPU 是解决计算的最好方式。" 但是,黄仁勋则一直认为需要有加速计算。
后来,大家都逐渐知道影像处理、视频处理、游戏处理、计算处理等等都需要 GPU,不过当时英伟达仍在苦苦寻求技术的应用市场。
幸运的是,英伟达很快找到了计算机影像和电子游戏结合的场景。在研发过程中,一家日本游戏公司世嘉向英伟达投来橄榄枝,愿意提供给 700 万美元的资金。
视频游戏的风口似乎就在眼前,当时 PC 和游戏是最主要的消费电子市场,英伟达赶上了班次。但是好景不长,英伟达在 3D 影像技术上选择了错误的路线,不能兼容微软制定的新主流标准,初代产品 NV1 最终销量惨淡,眼看着为世嘉研发的芯片也要面临着被淘汰的局面。
如果不能完成芯片开发,公司将陷入绝境。黄仁勋在日前的演讲中也提到了创业初期的这次危机,最终他和世嘉说明实情,而世嘉竟然同意支付研发费用,拯救了在倒闭边缘徘徊的英伟达。
经历过此番波折后,黄仁勋在 1997 年提出了业界知名的 " 黄式定律 ",其预测显卡性能每六个月就提升一倍,远超摩尔定律的速度。当年这更像是黄仁勋对外的一次宣言,是为自己定下的标准和目标,而现在这已经变成了现实。这也是黄仁勋在演讲中多次提及的 " 跑得快 ",他说当道路很长时,跑得快是唯一的策略。
时运
很快,英伟达迎来更大的转机。
1997 年,英伟达推出的新款图形加速芯片 RIVA 129 成功逆袭,开售后四个月内出货量就超过 100 万台。1998 年,英伟达又和台积电牵手合作,在图形加速领網域更上一层楼,在竞争无比激烈的 PC 和游戏市场上,英伟达快跑进入了决赛圈。
1999 年,英伟达顺利上市,并率先提出了 GPU 概念,推出全球首款 GPU —— Geforce256。这是一款关键性产品,至此,GPU 已经不仅仅是辅助 CPU 的角色,其出色的并行计算能力将提供更强劲的算力。
2000 年,微软 Xbox 搭载了来自英伟达的 GPU,英伟达还在 2002 年底和索尼达成了合作,为游戏主机 PlayStation3 提供显示芯片。可以说,接下来英伟达在游戏界大杀四方,当然这其中也历经了兼并收购、大鱼吃小鱼,起起落落,最终才杀出重围。
在游戏、PC 市场上登顶的过程中,英伟达也一直在寻找新的场景,也曾在蓬勃的手机市场铩羽而归,也面临着 PC 市场没有那么性感的现实。然而,在 2010 年后,人工智能、云计算的浪潮在慢慢靠近,从自动驾驶到神经网络深度学习,GPU 展现出了强大而专一的加速计算能力。
深度学习崛起的过程中,GPU 提供的卷积运算、并行运算等特性,恰好可以满足 AI 计算的需求;在全球云化的趋势之下,数据中心的计算背后都需要 GPU 提供算力支持。
英伟达又一次在新领網域中崛起,就像是它碰巧有绝世的武功,武林江湖环境变换,它却始终能以独门秘籍开启新路。谁能料想,后来的事实证明,GPU 不仅能用于 AI、还能用于挖矿。要知道,AI 的概念在 AlphaGo 热潮后陷入沉寂,恰逢区块链站上风口,GPU 凭借矿机需求一路走高。
众所周知,此后区块链热度下滑,疯狂的矿机需求回落,英伟达的股价也应声而落,然而到了 2022 年末,人工智能重返科技舞台中心,生成式 AI 成为英伟达市值的新动能,英伟达的产品也是生成式 AI 的主引擎。
潮起潮落间,黄仁勋也从外界眼中的 " 游戏小子 " 成为 "AI 教主 "。一路以来,英伟达抓住了计算设备需求的关键时机,从图形渲染、到人工智能、乃至区块链领網域的计算都表现得十分突出,应用场景也覆盖了 PC、数据中心、汽车等市场。到 2023 财年,英伟达数据中心的营收占比首次超过了游戏,达 55.6%。
谈及数据中心业务,黄仁勋说:" 尽管我们需要更多算力,但是数据中心消费并没有那么快速的增长,因为摩尔定律到现在已经发生变化,已经结束了,如果我们想要更多的算力,所有数据中心都需要加速,区别于 ASIC 芯片用于特定程式,英伟达是通用加速计算平台。"
超越
英伟达最初的标签就是 GPU,但仅仅是影像领網域的应用,并不足以支撑英伟达后来高涨的市值。在练就绝技的过程中,英伟达早已超越了最初 GPU 的概念,进入到更广泛的产业之中。
其中,业内人士提及最多的两大内功是 GPGPU 和 CUDA,它们在为人熟知的芯片之上,为产业制定了一整套软硬體标准,强大的軟體生态也让英伟达当前立于不败之地。
首先,回到 GPU 和 CPU 的区别上,GPU 到底有何特色?为何能从配角成为主角?
GPU 和 CPU 是现代计算机中不可或缺的两个组成部分,但它们在运算方式、功能等方面却存在着明显的差异。简单来说,CPU 主要负责执行指令集中的算术逻辑操作,而 GPU 则更擅长于并行计算。这是因为 GPU 拥有大量的核心,每个核心都可以独立地进行计算任务,从而实现高效的计算。
做个粗糙的比喻,在电腦上绘制一张图时,CPU 的运算方式更加讲究逻辑,需要按照顺序去绘制像素,而 GPU 可以同时去绘制多个像素。而绘制背后主要是 GPU 在进行矩阵运算,就像一个矩阵运算界的顶尖高手。
一开始,GPU 正如其名 "Graphic Processing Unit",专供影像显示。一个重要跨越是在 2007 年,英伟达提出了 GPGPU 架构,即用于通用计算的 GPU,将 GPU 从传统的影像处理器,广泛普及应用到计算训练当中。
GPU 在影像处理、视频编码等领網域表现优秀,而在一些特定的应用场景中,如科学计算、工程仿真等,需要更高的计算能力和更大的内存带宽,这时就需要使用更为强大的 GPGPU 进行更大规模的并行运算。
这是英伟达扩大市场版图的一个重要节点。更为重要的是,英伟达还在 2006 年推出了自己的 CUDA 平台,构建了强大的 AI 算力生态。
CUDA 是英伟达的并行计算平台和编程模型,CUDA 可以通过利用 GPU 的处理能力大幅提升计算性能,让 GPU 拥有解决复杂计算问题的能力。而通过 CUDA 平台,开发者们可以在编程时更方便地调度底层的 GPU 算力。
可以说,CUDA 平台是英伟达建立的并行运算的一整套软硬體生态标准,所有英伟达的 GPU 都兼容 CUDA,并且大多数 AI 芯片均与之匹配兼容,尤其是训练端芯片。因此,尽管 GPU 或者 AI 的创业公司层出不穷,大多都兼容英伟达的 CUDA 平台,要再创建自有生态的壁垒和成本都很高。
有产业链人士向 21 世纪经济报道记者表示,CUDA 拥有 400 多万开发者,軟體生态的护城河非常高,目前要迁移到国内较为成熟的 AI 芯片平台上,可能需要 2、3 年的时间。
当前在全球的 GPU 市场上,主要玩家是英伟达和 AMD,英特尔近年也在发力 GPU 产品线,而英伟达目前仍占据主要市场份额。对标 CUDA 来看,AMD 也在打造开放的 ROCm 平台,ROCm 平台于 2016 年推出,AMD 也在不断优化 ROCm 套件。
亚马逊创始人杰夫 · 贝索斯曾在一次访谈中说道:" 如果产品做得优秀,并且足够幸运,一般会有两年的领先优势,在 AWS 业务上亚马逊领先了七年,七年没有势均力敌的竞争对手。"
再看英伟达和 AMD,CUDA 比 ROCm 整整超前了 10 年,CUDA 十年磨一剑,挑战者们仍在追赶之中。
" 通吃 "
回顾 GPU 和 AI 的发展史,黄仁勋说道:"2012 年,计算机视觉模型 AlexNet 就使用 GeForce GTX 580 进行训练,使用 1400 万张影像训练了 AlexNet ,每秒可处理 262 PetaFLOPS(千万亿次浮点运算)。经过训练的模型以压倒性优势赢得了 ImagNet 挑战赛,并引发了 AI 的大爆炸。"
这时,GPU 和 AI 的相拥就已经深埋种子,十年之后,Transformer 模型面世,OpenAI 基于 Transformer 开发了 GPT-3。
此前的演讲中,黄仁勋谈到,GPT-3 的训练需要 323 ZettaFLOPS 的算力,相当于 AlexNet 的 100 万倍,从而创造了 ChatGPT 这个震惊全世界的 AI。在他看来,崭新的计算平台已经诞生,AI 的 "iPhone 时刻 " 已经来临,加速计算和 AI 技术已经走进现实。
今年的 GTC 大会上,黄仁勋公布了诸多与生成式 AI 相关的进展,随后又在台北国际电腦展 COMPUTEX 上继续放出王炸,他宣布 GH200 Grace Hopper 超级芯片正式投产,并公布由 256 个 GH200 驱动的新型 DGX GH200 AI 超级计算机。
而此前英伟达就已经做足了功课。2022 年,英伟达推出了多款重磅产品,分别是基于全新 Hopper 架构的 H100 GPU、CPU 和 GPU 的合体 Grace Hopper、两个 CPU 组合的 Grace CPU Superchip,CPU 的产品在 2023 年上市。
其中,设计 GPU 新架构 Hopper 时,英伟达增添了一个 Transformer 引擎,专门为 Transformer 算法做了硬體优化,加快 AI 计算的效率。
一位国内芯片从业者向 21 世纪经济报道记者直言:"H100 出来,其实就是一个新时代了,Grace-Hopper 再一个组合,加上高配的互联,完全不给活路,英伟达赢家通吃,AMD、Intel 继续苦追。"
同时他也表示:" 目前国内一些企业还是在盯着 CNN 做优化,英伟达已经有 Transformer 引擎,然后 AIGC 火热,恰好能做支持。这个眼光,只能佩服他们的科学家们对这个领網域深刻的认识。"
一位学术界人士也向 21 世纪经济报道记者分析道:" 从 H100 上,包括专用的 Transformer 引擎以及对 FP8 格式的支持,可以看到计算硬體在向应用定制的方向前进。Grace CPU 说明了整合异构计算系统的重要性。单纯的加速器优化和设计已经不能够满足现在对于计算系统的算力和能效比的要求,需要各个部分的协同优化和设计。"
他还表示,Grace CPU 通过提高通信带宽和在 CPU 和 GPU 之间建立一致(coherent)的内存模型来解决运算中的瓶颈,这也和学界(近存计算,存内计算)与业界(CXL,CCI 等等系统互联協定)一直在关注的方向是一致的。
总而言之,在 GPU 和 CPU 的各种排列组合中,英伟达又将算力提升到了新高度。正如黄仁勋所言:" 我们正在重新发明计算机,加速计算和人工智能标志着计算正在被重新定义。"
黄仁勋在采访中还提到,数据中心需要用的 CPU 越来越少,不再是传统上购买数百万个 CPU,而是转而购买数百万个 GPU。换言之,在他看来,AI 算力江湖已经是 GPU 的主场。
野心
英伟达的布局还不止于此。
一个现实问题是,高性能的算力也意味着高昂的价格。大模型训练成本动辄成千上百万美元,并不是所有公司都能承受。
而英伟达同时提出了云服务的解决方案 NVIDIA AI foundations,黄仁勋表示要做 "AI 界的台积电 "。台积电大大降低了芯片设计公司生产门槛,英伟达也要做代工厂的角色,通过和大模型厂商、云厂商合作提供高性价比的云服务。
前述芯片从业者对记者解析道:" 卖云服务,就是联合大模型方提供 Pre training(预训练)的模型,小企业直接 Fine tuning(微调)就有自己的了。"
在帮助下游企业降低大模型训练成本的同时,英伟达还在逐步参与到上游的产业链更新中。今年,英伟达牵手台积电、ASML、新思,发布了计算光刻库 cuLitho。
前述学术界人士向记者介绍道,计算光刻是在芯片设计和制造领網域的关键步骤,也是最大的计算负载之一。计算光刻库的技术突破就在于,可以通过部署有大量 GPU 的 DGX AI 计算系统对计算光刻进行加速,使其达到原有的基于 CPU 的计算速度的几十倍,同时降低计算过程的总能耗。这将有助于晶圆厂缩短原型周期时间、提高产量、减少碳排放,为 2nm 及更先进的工艺奠定基础,并为曲线掩模、高数值孔径极紫外、亚原子级光刻胶模型等新技术节点所需的新型解决方案和创新技术提供更多可能性。
新思方面向 21 世纪经济报道记者表示,此次研发合作中,cuLitho 集成了新思科技 Proteus 全芯片掩膜合成解决方案和新思科技 Proteus ILT 反向光刻图形技术,并进行了优化,以便在最新一代 NVIDIA Hopper 架构 GPU 上运行。如今,在 cuLitho 平台上运行 Proteus 解决方案只需要 500 个 NVIDIA DGX H100 GPU,替代此前用于计算光刻的 40000 台 CPU 服务。计算光刻过程的所有部分都可以并行运行,将电力能耗需求和运行时间从几周减少到几天。
在多位产业界人士看来,虽然短期内不会影响到下游的应用方面,但是这些上游的研发和更新将长期影响产业的发展,累积形成代际差。
" 英伟达在 GPU 架构的迭代上,一直都有属于自己的发展路径,这几年的发展,也让英伟达跃居 AI 算力芯片领網域的领导者,也因为领先,所以英伟达会思考如何做更多元的布局与行业内的深度合作,这样更能了解行业的需求,比方和台积电等合作便是很好的例子。" 芯片行业专家姚嘉洋向 21 世纪经济报道记者表示。
在 2008 年的电视采访中,黄仁勋说:" 希望有一天大家都认识英伟达,就像大家都认识微软、英特尔一样。" 如今,英伟达几乎是家喻户晓,拥有绝世的武功,比大梦想更加重要。
2023 年,英伟达 30 周年之际,黄仁勋在采访中说:"(公司)直到现在才真正起飞。" 生成式 AI 助力英伟达成为算力的新王。
当然,英特尔和 AMD 都已经吹响反攻的号角。7 月,英特尔面向中国市场推出了 AI 芯片 Habana Gaudi 2;6 月,AMD 推出 AI 芯片 Instinct MI 300X,两者都直接对标英伟达 100 系列。围绕着算力、纳米的权力游戏还将继续。
SFC
本期编辑 江佩佩 实习生 章宝怡
21 君荐读
>