今天小编分享的互联网经验:DeepSeek来了,万卡还是AI入场券吗?,欢迎阅读。
文 | 半导体产业纵横
人工智能的极限就是拼卡的极限。顶级 AI 公司为这场 " 暴力美学 " 竞赛设定了单点集群万卡的门槛。
OpenAI 的单点集群 5 万张卡,谷歌 2.6 万张卡,Meta2.45 万张卡。摩尔线程创始人兼 CEO 张建中曾在发布会上表示,"AI 主战场,万卡是最低标配。"
而随着 DeepSeek 的横空出世,一场关于 AI 规则重写的大戏正在上演。
01 万卡集群还是 AI 入场券吗?
2020 年,微软率先构建了万卡智算中心用来其 AI 布局,随后各大科技巨头竞相投入万卡集群的智算中心建设,例如亚马逊、谷歌、Meta、特斯拉、xAI,国内科技公司字节跳动、百度、蚂蚁、华为、科大讯飞、小米都建设了万卡集群,腾讯、阿里已经卷向十万卡集群。
搭建万卡集群的智算中心需要耗费巨大的财力,单是 GPU 的采购成本就高达几十亿元。尽管造价高昂,但 " 万卡集群 " 智算中心使得训练复杂的大模型成为可能,因此被业界视作 AI 竞赛的 " 入场券 "。
长江证券在其研报中指出," 模型大小和训练数据量大小成为决定模型能力的关键因素。在同等模型参数和数据集下,集群训练时间有望显著缩短。更大、更先进的集群能及时对市场趋势作出反应,快速进行迭代训练。整体上超万卡的集群将有助于压缩大模型训练时间,实现模型能力的快速迭代,并及时对市场趋势作出应对,实现大模型技术上的追赶和领先。"
而 DeepSeek-V3 在训练时仅仅使用了 2048 个 H800 GPU,但是在多个标准测试中却获得了很不错的消息,在数学基准测试 GSM8K 和 MATH、算法类代码 LiveCodeBench 等测试中超越此前的大模型拔得头筹。这不由引发了一个思考,DeepSeek 支持千卡级集群训练,那么万卡智算中心还是 AI 入场券吗?
首先,我们必须要承认万卡集群在大模型训练端仍有必要性,其次,大模型私有化部署已成业内共识,企业私有部署小型数据中心市场将会爆发。
DeepSeek 出现之后,众多公司都在争相接入,做自己的本地部署。企业建设 " 自己的小型智算中心 ",部署 1~10 台伺服器(百卡之内),或 10 来 20 台伺服器(百卡规模),也可以实现高效的 AI 业务。这无疑让 AI 入场券发生了变化," 暴力堆卡 " 不再是唯一进场方式,更多的企业可以通过算法优化参与到这场 AI 热潮中。
以华为和瑞金医院合作发布的临床级多模态互动式病理大模型 RuiPath 为例,仅仅使用了 16 张算力卡,就学习了 300 余本病理诊断书籍,在病理医生整理的常用问题测试中问答准确率可到 90%。
高通技术认为,当前先进的 AI 小模型已具有卓越性能。模型蒸馏和新颖的 AI 网络架构等新技术能够在不影响质量的情况下简化开发流程,让新模型的表现超越一年前推出的仅能在云端运行的更大模型。
除此之外,企业部署小型智算中心也为四大运营商和铁塔公司带来了新的机遇。小型数据中心的部署需要稳定的场地、电力、网络等基础设施,而运营商和铁塔公司的物理机房资源是现成的,以中国铁塔为例,目前拥有 210 万站址资源、能源设施和近百万处机房,并有 22 万 " 通信塔 " 已更新为 " 数字塔 "。另外,小型数据中心靠近数据产生源头,可实现数据的快速处理和分析,对于边缘算力的需求增加,目前中国铁塔算力正从集中式向 " 云边端 " 分布式范式转变,每个数据中心每日新增数据量数十 T,预计 2025 年每数据中心接入约二十万站,未来数据规模将达数十 PB 级别。
根据 Gartner 预测,2025 年 75% 的企业数据将在边缘侧处理,边缘数据中心数量将超过传统数据中心的 3 倍。
02 数据中心芯片变革:训练降速,推理崛起
DeepSeek 采用纯强化学习训练路径,摆脱了对监督学习微调阶段的依赖,同时采用全新的 GRPO 算法让模型群体相互学习,将内存消耗降低至传统 PPO 算法的三分之一,可在更少硬體资源下完成训练;FP8 混合精度训练,内存占用减少 50%,计算吞吐量提升 30%;其数据蒸馏技术,将无效数据比例从行业平均 15% 降至 3% 以下;NVLink+InfiniBand 双通道传输技术使得集群内部的 GPU 通信效率提升了 65%。
DeepSeek 这些创新性的方法降低了训练成本,使得数据中心芯片发生变革,未来训练端的高端 GPU 需求增速可能放缓,而推理端的算力需求将长期呈增长趋势。
对此,各大研究机构的判断不谋而合。其中,Gartner 预测 2025 年推理的集群算力规模将超过训练,IDC 预测到 2025 年用于推理的工作负载的芯片将达到 60.8%。TrendForce 集邦咨询分析师龚明德指出:"DeepSeek 的驱动将促使云服务商更积极投入低成本的自有 ASIC 方案,并从 AI 训练重心转向 AI 推理。预计到 2028 年,推理芯片占比将提升至五成。"
顾名思义,训练芯片是应用在 AI 模型的训练阶段,需要通过大量标记过的数据来训练系统以适应特定功能,因此更强调计算性能和存储能力,而推理芯片在模型训练完成后,负责使用新数据进行预测和推断,更注重部門能耗算力、时延和成本的综合指标。
与英伟达市占率 98% 的训练芯片市场不同,推理芯片市场还未成熟,更加百花齐放。此前在网上掀起一阵热潮的美国人工智能芯片公司 Groq,其成立于 2016 年,到目前为止已经获得了 5 轮融资,2024 年 8 月 Groq 完成 6.4 亿美元的最新一轮融资后,估值达到 28 亿美元。Groq 专为大语言量身定制的新型 AI 加速芯片 LPU,性能表现比常规的 GPU 和 TPU 提升 10 到 100 倍,推理速度达到了英伟达 GPU 的 10 倍。
在国外市场,博通和 Marvell 是主要的推理芯片供应商。其中,博通与谷歌合作设计了六代 TPU,预计将在 2026、2027 年推出的第七代 TPU,同时其与 Meta 在 AI 基础设施方面的合作可能会达到数十亿美元;Marvell 则是与亚马逊、谷歌和微软合作,目前正在生产亚马逊 5nm Tranium 芯片和谷歌 5nm Axion Arm CPU 芯片,同时预计在 2025 年启动亚马逊 Inferentia 芯片项目,2026 年启动微软 Maia 芯片项目。
在国内市场,各大科技公司也在积极布局 AI 推理芯片市场。
达摩院推出的含光 800 AI 芯片,单芯片性能是谷歌 TPU v3 的 8.5 倍、英伟达 T4 的 12 倍。
百度昆仑系列 AI 芯片,率先支持 8bit 推理,百舸 DeepSeek 一体机搭载昆仑芯 P800,推理延迟低,平均 50 毫秒以内,其中昆仑 3A 超越英伟达 A800。
寒武纪的思元 590 智能芯片,几乎支持所有主流模型,单卡算力超过英伟达 A100,集群算力接近 A100 水平,千卡互联的集群会再损失一些性能。
目前,大模型推理阶段面临很多优化挑战,首先就是 KV Cache 管理,推理过程会产生大量中间结果用于降低计算量。如何管理这些数据很关键,例如采用页面式管理,但页面大小是固定还是根据负载特征动态调整,都需要仔细设计。其次是多卡协同:当模型较大时需要多 GPU 配合,例如在 8 个 GPU 上进行大模型推理,如何优化卡间并行也是一大挑战。最重要的就是算法优化:如何从量化等角度进行优化,充分发挥底层算力性能。
03 算法补性能:芯片竞争开始卷 " 软硬协同 "
DeepSeek 之所以能够以 2048 个 H800 芯片惊艳世界,其中的重要原因之一是其对硬體进行了极致工程化改造,通过自定义 CUDA 内核和算子融合技术,将 H800 GPU 的 MFU(模型 FLOP 利用率)提升至 23%,远超行业平均 15% 的水平,在相同硬體条件下可完成更多计算任务,提升训练效率,并且在 GPU 集群上实现了 98.7% 的持续利用率。
这种创新性的用算法补性能方式,被复旦大学复杂体系多尺度研究院院长、上海人工智能实验室领军科学家、国际著名计算生物学家马剑鹏教授称为 " 中国 AI 的换道超车 "。同时,这种方式也将倒逼芯片厂商从 " 拼制程 " 转向 " 算法适配性 " 设计,预留更多接口支持动态算法迭代,如可编程 NPU 架构。
众所周知,AI 用例正在不断演进,要在功能完全固定的硬體上部署这些用例显然是不切实际的。而可编程 NPU 架构提供丰富编程接口和开发工具,支持多种编程语言和框架,开发者可方便地根据新算法需求进行编程和配置。同时,支持根据不同算法需求动态重构计算资源,如计算单元、存储单元等等。
最重要的是,芯片研发成本高,预留接口支持动态算法迭代可使芯片在较长时间内保持竞争力,面对新算法无需重新设计硬體,而是通过軟體更新等方式来适配新算法,再也不惧算法更新迭代。
DeepSeek V3 中使用了相比 CUDA 更底层的 PTX 来优化硬體算法,绕过了 CUDA 的高层 API,直接操作 PTX 指令集进行更细粒度的硬體优化,能在一定程度上摆脱对 CUDA 高层框架的依赖,为开发者提供了不依赖 CUDA 进行 GPU 资源优化的途径。同时,DeepSeek GPU 代码使用了 OpenAI 提出的 Triton 编程语言来编写,而 Triton 的底层可调用 CUDA,也可调用其他 GPU 语言,为适配更多类型的算力芯片奠定了基础。
因而,我们会看到很多报道中都写道,"DeepSeek 突破英伟达 CUDA 技术壁垒 "。事实上,DeepSeek 的这一举动证明芯片竞争从一开始的粗暴卷硬體进入到更新的 " 软硬协同 " 内卷之中。而开源框架与国产芯片结合会是突破口,DeepSeek 既能在英伟达芯片上运行,也能在华为昇腾、AMD 等非主流芯片上高效运行。
更为深远的影响是 AI 芯片领網域不再是英伟达 " 一家独大 ",更多的芯片公司可以参与进来。而处在英伟达上游的存储芯片公司,例如三星电子、SK 海力士等可能也要被迫进行转型。
此前,三星电子、SK 海力士等半导体巨头的发展战略一直是采用以通用存储器为重点的量产模式,其业务也很大程度上依赖于对英特尔、英伟达和 AMD 等主要客户的批量供应,此前美银分析预测 SK 海力士可能获得 2025 年英伟达 Blackwell GPU 的 60% 以上订单。
DeepSeek 发布使得科技公司对英伟达高端芯片需求会减少,但是市场对于 AI 芯片的总需求却不一定会减少。正如经济学家杰文斯所言:技术进步虽然提高了资源的使用效率,但需求的增加常常会导致总消耗量反而增加。
亚马逊首席执行官安迪・贾西曾表示,DeepSeek 技术突破反而会推动人工智能整体需求的增长。人工智能推理等技术成本的下降,并不意味着企业会减少在技术上的投入。相反,成本降低让企业能够开发此前因预算受限而搁置的创新项目,最终反而加大了整体技术支出。
这无疑是三星电子、SK 海力士转型的巨大机会,摆脱对英伟达的依赖,拥抱更广阔的市场。HBM 需求从高端 GPU 转向定制化存储方案,为 AI 服务提供多样化的产品阵容。