今天小编分享的科技经验:美国商务部长示警黄仁勋“芯片不准卖中国”,英伟达“中国特供”生意将如何延续?,欢迎阅读。
英伟达 CEO 黄仁勋 ( Jensen Huang ) (图片来源:AFP)
中国市场,对于万亿芯片巨头英伟达(NVIDIA)来说至关重要。
2022 年,英伟达公司总收入中,有超过 57 亿美元(占比 25%)来自中国客户,尤其包括阿里、腾讯、字节跳动等互联网科技大厂,他们一直对英伟达的算力产品 A100/H100 处于 " 疯狂买买买 " 状态。
然而,随着 2022 年 10 月、2023 年 10 月,美国商务部工业和安全局(BIS)两次更新对中国的先进半导体和计算设备的出口管制,英伟达中国特供版 GPU 产品 A800、H800 芯片均已经于 11 月 17 日起在中国禁售。与此同时,AMD 发布的性能最强的 MI300X、MI300A、MI250X、MI250 等多款 AI 芯片也不再能出口到中国了。
虽然《隋唐演义》中称 " 穷不与富斗,富不与官斗 ",但黄仁勋却认为,英伟达是一家要赚钱的 " 商业公司 ",希望尽可能和所有人做生意。
因此,英伟达最终和美国政府进行了一场 " 猫鼠游戏 "。
12 月 6 日,在美国商务部长雷蒙多(Gina Raimondo)已公开示警下,英伟达 CEO 黄仁勋却在新加坡的一场会议中表示,英伟达将继续为中国市场提供合规芯片产品,预计 " 特供 " 芯片将包括 HGX H20、L20 PCle、L2 PCle 等。
黄仁勋强调,公司将继续 " 完全遵守 " 美国政府的贸易法规。他直言,芯片产业链依然处于全球化,美国芯片制造商距离供应链独立至少还有 10 年 -20 年时间。
前一天,雷蒙多则对于芯片出口管制的态度依然强硬。她直言," 绝不能让中国芯片技术赶超美国。我们不能让中国得到这些(最尖端)芯片,永远都不能 "。雷蒙多还点名英伟达," 我们的意图是拒绝中国的技术。如果你(英伟达)绕着特定的规定重新设计一款芯片,让他们能够从事人工智能项目,我就会在第二天对它(芯片)进行管制。"
" 从 AI 算力本身来说,美国英伟达禁止向中国销售 H800 算力下,我自己判断,(中国 AI 产业)大概有 2-3 年的落后差距,至少是顶尖大模型算力。如果明年英伟达还会发布新产品的话,可能这个差距还会增加。" 一家大模型公司 CEO 杨迪文(化名)近日在深圳一场活动上表示。
杨迪文坦言," 如今,我们(中国公司)已经拿不到全球最好的 AI 算力芯片了。"
英伟达、AMD、英特尔和国产 AI 芯片性能对比(来源:钛媒体 App 编辑整理)
猫鼠游戏下的英伟达 " 缩水 " 芯片,为何还有人买?
上面这张图提到的 3A090,是今年 11 月 17 日起正式实施的美国商务部 BIS 最新出口管制中的 ECCN 编码物项。
具体来说,3A090 特指特定高性能集成电路,在数据中心应用场景下,当一颗芯片输入输出双向传输速率超过每秒 600GB,或算力超过 4800TOPS 时就属于 3A090a,也就意味着该芯片将禁止向中国出口和销售,而 3A090b 则属于非数据中心芯片的超出其所限制的性能指标。
在 2002 年 10 月版的出口管制措施中,美国政府并未设立上述这种 " 算力 " 标准。新规当时确定的高算力芯片判断依据有两个方面:一是其算力峰值超过或达到 4800 TOPS,二是传输速率超过或达到 600GB/ 秒。那么,一旦芯片产品达到这一性能参数,就会被纳入出口管制的范围内。
" 这两个技术参数之间是‘且’的关系,需要同时达到才会触发出口禁令,英伟达很好地利用了这个政策框架,推出了 A800 芯片。" 一位行业人士表示。
所以,英伟达 A100 芯片的性能参数恰好符合上述要求,也因此受到当时出口管制的影响。随后,英伟达推出 A100、H100 在中国销售的 " 特供版 " 芯片 A800、H800,尽管同架构、同样配备高带宽插槽(SXM)版本,但芯片数据传输速率下降、内存带宽降低。如果企业不买 NVLink 互连技术,H800 性能和传输速率比 H100 要少 60% 以上。
那么,性能暴降、价格节节攀高的英伟达 " 中国特供 " 芯片,为何还有人买?
根据与多位行业人士交流,钛媒体 App 整理了以下三个主要因素:AI 对于高算力需求火爆,GPU 的关键作用,以及国产 AI 芯片生态弱。
首先,即便性能暴降,但 2023 年,以 ChatGPT 为代表的 AI 大模型爆火,面临经济衰退的云厂商全部挤进大模型赛道,AI 训练芯片成为 " 爆品 ",包括阿里、腾讯、百度大抢 A100、H800 芯片,英伟达也因此成为中国 AI 大模型领網域关键 " 军火商 " ——营收超过台积电、英特尔,年内股价暴涨 220%,市值涨到 1 万亿美元,成为全球第二大半导体公司、第七大科技巨头。
具体到案例中,生成式 AI 对算力的具体需求主要体现在搜索、办公和计算机等场景中。例如,如果谷歌采用 GPT 等大模型用于推荐搜索,每天需要处理 35 亿次搜索请求,按照 GPT-4 API 0.14 元 / 次的价格,每年需要支付 1788 亿元人民币的 API 费用。若采用自建算力集群的方案,需要提供每秒约 10 万次的峰值访问能力,一轮 GPT-4 对话涉及 200 多万亿次浮点运算,在计算资源利用率约 60% 的情况下,需要约 10 万块 A100 集群;如果微软 office 使用大模型办公,按每人每天 10 次的访问需求计算,中国的学生与白领人群达到 2.8 亿人,每年具有 1.02 万亿次访问需求,需要 8 万块 A100 的算力支持。如果 12 亿网民都要有一个定制化的 AI 个人助理(大模型原生应用),在每人 10 次的日访问条件下,需要 34 万块 A100 算力支持。
目前,OpenAI 使用 1 万 -3 万颗英伟达 GPU 来训练 GPT-3.5 模型。集邦咨询数据显示,如果以英伟达 A100 显卡的处理能力计算,运行 ChatGPT 将可能需要使用到 3 万块英伟达 GPU 显卡。另外在开源模型方面,Llama 模型则是在 2048 块 80GB A100 上训练,整个训练算力接近 2000P 算力。
百川智能创始人、CEO 王小川表示,OpenAI 团队现在正在尝试把 1000 万颗 GPU 连在一起训练一个大规模的模型。而英伟达一年大概生产 100 万颗 GPU,训练 GPT-4 需要 2.5 万颗 GPU 芯片,GPT-3.5 国内训练需要 4000 颗。
AI 技术严重依赖于高算力,但目前在大模型训练算力方面,只有英伟达才能做到,也能做到最好。
最新财报显示,截至今年 10 月 29 日的第三季度,英伟达实现营收 181.2 亿美元,同比增长 206%;净利实现 92.43 亿美元,同比增长 1259%(12.59 倍);GAAP 摊薄后每股收益为 3.71 美元,同比增长 12.74 倍。
价格层面,目前国内可以买到的 H800、A100/A800 价格都已超过 20 万 / 张。
以 2000P 算力需求为例,H800 GPU 单卡算力 2P,需要 1000 张,预测整个卡价格为 2 亿元;A800 单卡算力约为 0.625P,需要数量为 3200 张,预计整个显卡价格就高达 3.2 亿元。此外,伺服器还要考虑整机配置运算,包括 CPU、存储、NVLink 互连等,以及电力消耗、场地租金和运维成本等因素,价格进一步攀高。
其次,GPU 在 4000 亿美元规模的 AI 加速芯片市场变得越来越关键。
AMD 首席执行官苏姿丰(Lisa Su)公布的一份数据显示,一年前,她认为 2023 年的 AI 加速器市场为 300 亿美元。到 2027 年,全球数据中心 AI 加速器的市场规模将达到 1500 亿美元,这意味着期间的年复合增长率(CAGR)约为 50%。但现在苏姿丰认为,2023 年 AI 加速器的市场规模 450 亿美元,未来几年的 CAGR 将高达 70%,预计推动整个市场到 2027 年增加到 4000 亿美元规模。
英伟达企业计算副总裁曼努维尔 · 达斯(Manuvir Das)给出了另一份数据显示,预计 AI 所在的潜在市场(TAM)规模将增长至 6000 亿美元。其中,芯片和系统可分得 3000 亿美元,生成式 AI 軟體可分得 1500 亿美元,另外 1500 亿美元则由英伟达企业軟體贡献。
很显然,长期来看,芯片对于 AI 算力发展至关重要。
那么 2023 年,谁抢到了最多英伟达 GPU?
研究机构 Omdia 最新报告显示,微软、Facebook 母公司 Meta 两家公司分别从英伟达购买了 15 万块 H100 GPU 芯片,而谷歌、亚马逊和甲骨文等公司各抢到了 5 万块 GPU。同时,中国厂商中,腾讯购买了 5 万块 H800 GPU,百度和阿里巴巴分别购买了 3 万和 2.5 万块 A100 GPU。
目前,英伟达占据全球数据中心 AI 加速市场 82% 的份额,并以 95% 的市场占有率垄断了全球 Al 训练领網域的市场,成为这轮 AI 混战中最大赢家。
" 没有大算力做大模型就是天方夜谭。" 中国工程院院士、鹏城实验室主任高文曾表示,算力已经成为是数字经济发展的一个指标,算力够,你的数字经济就能发展好,不够就发展不好。
最后,在新一轮 AI 算力竞赛中,相比英伟达,国产 AI 算力芯片生态较弱,尤其是在模型训练层面。
钛媒体 App 曾公布过一组数据,目前在大模型推理方面,国内 AI 芯片 910B 仅能达到 A100 的 60%-70% 左右,集群的模型训练难以为继;同时,910B 在算力功耗、发热等方面远高于英伟达 A100/H100 系列产品,且无法兼容 CUDA,很难完全满足长期智算中心的模型训练需求。
王小川曾提到,目前大模型行业算力分训练、推理两部分,合计成本占大模型总成本的 40% 以上。如果中国要想解决好 AI 算力需求问题,推理部分中国需要有国产算力能力,只有英伟达(垄断)是不够的,而训练部分依然需要英伟达,中国大体顶不上,现在有天花板。" 这是整个(行业)都要解决的问题。"
从国内来看,大部分国产 GPU 芯片都是推理类型的,仅有壁仞科技、天数智芯、寒武纪、昇腾等公司曾公布过 AI 训练芯片。然而,这些厂商的軟體生态依然不及英伟达的 CUDA,只能兼容 CUDA 旧的版本。
当然,未来推理芯片依然会成为关键产品。12 月 7 日彭 / 博公布的一段视频中,苏姿丰提到,未来 4000 亿美元规模中,将有 50% 以上的市场来自推理需求。
360 公司董事长兼 CEO 周鸿祎提到,最近硅谷有一种趋势,奥特曼(Sam Altman)、微软、Meta、亚马逊、高通等科技厂商都在做推理芯片。他认为未来一到两年,大模型推理过程将不再需要借助昂贵的 GPU 就可以实现技术迭代,把算力成本降下来。" 我个人觉得,这个成本很快不是问题。"
管制方式带来变数,英伟达在中国市场的未来何去何从?
魔高一尺,道高一丈。
今年 11 月初,市场开始流传,英伟达即将推出三款 " 中国特供版 " 芯片 HGX H20、L20 PCle、L2 PCle,分别针对训练、推理和边缘场景,以及低于美国管制红线的 NVIDIA RTX 4090D 消费级显卡,以合规形式向中国出口销售。
据钛媒体 App 了解,即将发售的 " 中国特供版 "HGX H20 在带宽、计算速度等方面均有所限制,理论上,整体算力要比英伟达 H100 GPU 芯片降 80% 左右,而且增加 HBM 显存和 NVLink 互联模块以提高 " 无效 " 的训练算力成本。预计,HGX H20 最快将于明年一季度(2 月)发布。
" 我们成立公司就是为了做生意,努力与所有可能的人做生意。" 黄仁勋日前表示,英伟达将继续 " 完美 " 遵守贸易法规,并为中国市场提供一套符合美国政府最新规定的新产品。他补充称,英伟达需要寻求市场的建议,这一过程正在进行中。
然而,这种 " 猫鼠游戏 " ——只要美国禁令 " 划出一条线 " 英伟达就总会 " 阉割特供 "。但现在,美国政府似乎意识到这一点。
12 月 2 日在 2023 年里根国防论坛(RNDF 2023)开场圆桌对话上,雷蒙多直言,芯片与人工智能(AI)对于美国的国家安全很重要," 我们不能让中国获得这些芯片。"
她认为,芯片厂商应该理解政府出口管制的实质目的,而不仅仅是满足某几个技术参数。美国公司将需要适应美国的国家安全优先事项,包括对 BIS 半导体出口实施的出口管制。
" 我知道在座有芯片公司 CEO 在对我这样做有点愤怒,因为你正在失去收入," 雷蒙多称," 这就是生活。保护我们的国家安全比短期收入更重要。我们必须与产业界达成一致。"
美国商务部长雷蒙多
雷蒙多的表态被视为美国政府对英伟达策略的公开示警。据了解,美国政府方面正在建立一个超过 100 人的团队,这个团队主要负责半导体方面的工作,以提高美国商务部和 BIS 在人工智能等方面的技术能力。
实际上,美国政府已经开始向英伟达传递压力。2023 年 10 月新出口管制规定实施后,存在 30 天的缓冲期,在缓冲期内,既往订单仍可以交付,市场一度认为英伟达会利用缓冲期抢单向中国客户交付芯片(最多 13 个月),但在新版出口禁令出台之后 6 天,美国政府就撤回了 30 天的许可豁免权限,英伟达发布的公告中称:接到美国政府的通知,对 GPU 产品的出口禁令即刻生效。
如今,无论是降低规格,还是说无法使用英伟达、AMD AI 芯片进行算力训练,美国芯片出口管制已经对 AI 行业产生影响,阿里、腾讯均已经表达担忧情绪。
11 月 15 日,腾讯控股(00700.HK)在财报电话会议上罕见提及芯片限售情况。腾讯总裁刘炽平表示,虽然腾讯目前拥有最多的 AI 芯片库存之一,短期内芯片禁令并不会影响腾讯 AI 能力,但长期看,美国芯片管制确实影响了腾讯将这些 AI 芯片资源作为云服务对外租赁的能力。
" 就目前情况而言,腾讯拥有最大的 AI 芯片库存之一,所以有足够的筹码(库存)支持腾讯混元大模型未来至少几代的更新发展。短期内芯片禁令并不会真正影响腾讯 AI 能力。展望未来,我们认为,芯片管制实际上确实影响了我们将这些 AI 芯片资源作为云服务对外租赁的能力。所以这是一个可能受到影响的领網域。未来我们必须想办法让 AI 芯片的使用更高效。我们会尝试看是否可以将大量的推理负载转到性能较低的芯片上,这样我们就可以保留大部分高性能的 AI 芯片用于训练目的,同时我们也将尝试寻找这些训练芯片的国产替代。" 刘炽平称。
11 月 16 日晚,阿里巴巴集团(NYSE:BABA/09988.HK)在 2024 财年第二季度(即 2023 自然年第三季度)财报公告中指出,因美国扩大先进计算芯片出口管制,给阿里云智能集团前景带来不确定性,因此阿里不再推进云智能集团的完全分拆。
另外,最近一个月,阿里云、滴滴、腾讯视频、钉钉等产品服务出现了长时间的 " 断连 " 情况。有分析认为,这与数据中心芯片减少、伺服器运维停顿等因素有关。
阿里董事长蔡崇信曾表示,中国 80% 的科技企业和超过 50% 的 AI 大模型公司跑在阿里云上。而随着阿里云 " 崩 " 上热搜,促使更多人思考,英伟达 AI 芯片禁售,未来可能将对中国 AI 公司的业务产生长期影响。
当然,虽然美国政府不想让黄仁勋 " 赚钱 ",但中国人也希望将芯片留在国内。
最近在社交媒体上的一则帖子中显示,工人在美国工厂中将英伟达 RTX 4090 显卡拆卸掉,只保留芯片,并把 logo 涂掉,通过海运方式留到国内 AI 公司中做模型训练使用。
国产芯片也在努力。有行业人士告诉钛媒体 App," 最近卖国产 910B 芯片的销售人员,经常拿着机箱到大学和研究机构里面,让教授博士们免费使用,说服更多人应用国产 AI 芯片。"
黄仁勋近期在纽约公开表示," 美国出口管制新规带来了很多意想不到的后果。他已经看到中国至少有多达 50 家公司,正在开发与英伟达竞争的技术 "。
12 月 6 日新加坡交流活动中,黄仁勋再次表示,华为、英特尔以及越来越多的半导体初创公司对英伟达在 AI 加速器市场的主导地位构成了严峻的挑战。其中,华为是英伟达 " 非常强大 " 的竞争对手之一。
很显然,在巨大的规模和市场机遇下,英伟达对于中国市场巨大的商业价值无法割舍。
今年第三季度财报上,英伟达 CFO Colette Kress 披露称,英伟达在中国以及其他更新禁令后出口受限制地区的销售额,约占数据中心总销售额的 20%~25%。其中,英伟达在中国的相关销售额达 20% 左右。此外,英伟达还表示,美国新规实施后,预计今年第四季度其产品在中国的销售额将大幅下降。
" 因此,我们要在算力里面‘两条腿’走路。" 杨迪文表示,一方面大模型企业将仍优先使用英伟达合规芯片,另一方面要购买国产算力,在一些环节中采用国产芯片,或购买国产算力云进行训练,起到一个 " 主心骨 " 角色。不过,国产芯片生态依然需要很长的路要走。
一位云计算服务商向钛媒体 App 坦言,如今的形势已经非常清楚,美国出口管制政策短期内没有松动的可能,发展国产芯片是一种必要的选择。
钛媒体 App 梳理多份研究机构统计,预计接下来五年内,全球、中国的 AI 芯片市场规模的增长速度将翻 10 倍以上,有望成为增速最快的科技领網域。
12 月 7 日,IDC 中国副总裁周震刚表示,在英伟达 A800/H800 禁止对中国供应之后,大模型算力面临 " 无卡可用 " 的问题,与国产芯片的单卡算力差距较大。H20 的计算能力为 148T,而 A800 为 300 多 T,H800 为 700 多 T。因此,未来美国对中国的 AI 芯片出口可能需要申请豁免,当然美国和中国商务部仍在进行谈判。
" 那么,是不是美国芯片禁令会限制中国的 AI 发展,中美 AI 会拉开差距?我认为,单卡算力有意义,但不是决定性能力。实际上 AI 模型训练是万卡级别集中在一起,需要整合系统去发挥效能,而非一张卡。" 周震刚指出,根据 IDC 数据显示,2020 年,智能算力规模(基于 FP16 计算)达到 75 EFlops,预计到 2027 年,这一数字增长至 1117.4 EFlops,8 年增长超 15 倍。
未来,随着美国芯片管制持续收紧,英伟达 " 阉割 " 芯片逐渐将不再是中国客户的唯一选择。届时,中国作为全球增速最高的 AI 芯片市场,英伟达却在这一地区失去 50 亿 -70 亿美金收入。
那黄仁勋收入减少的 " 痛 ",雷蒙多能补偿吗?
(本文首发钛媒体 App,作者|林志佳)