今天小编分享的科技经验:科大讯飞联合华为率先实现国产算力大规模跨节点专家并行集群推理,欢迎阅读。
IT 之家 3 月 11 日消息,科大讯飞研究院今日官宣,科大讯飞携手华为在国产算力领網域取得重大进展,双方联合团队率先突破国产算力集群上 MoE 模型的大规模跨节点专家并行集群推理,这是继 DeepSeek 公布其 MoE 模型训练推理方案后,业界首个基于国产算力的全新解决方案。
联合团队通过软硬體的深度协同创新,在多个关键技术层面深挖硬體潜力,完成昇腾集群上的验证和部署。在算子融合方面,团队在 MLA 预处理阶段通过 Vector 与 Cube 异构计算单元并行流水,并将多个小算子融合重构为原子级计算单元,消除小算子下发开销,MLA 前处理时延降低 50%+,实现性能的显著提升。
科大讯飞研究院介绍称,在混合并行策略和通信计算并行优化方面,团队构建了 TP(张量并行)+EP(专家并行)混合范式:对 MLA 计算层采用机内 TP 并行,发挥机内高速互联优势,降低跨机通信损耗;创新 MoE 专家分层调度,64 卡均衡分配专家计算节点,定制 AllToAll 通信協定,专家数据交换效率提升 40%,构建跨机 / 机内双层通信架构,通过分层优化降低跨机流量 60%;同时研发路由专家负载均衡算法,实现卡间负载差异小于 10%,集群吞吐提升 30%。
通过分布式架构创新与算法协同优化,联合团队在国产算力上实现了显著的性能提升。单卡静态内存占用缩减至双机部署的 1/4,效率提升 75%,专家计算密度增加 4 倍,推理吞吐提升 3.2 倍,端到端时延降低 50%。
科大讯飞研究院表示,这一突破性的解决方案也将应用于讯飞星火深度推理模型的训练加速,预期训练时推理效率将提升 200%。同时,基于该方案的推理引擎也实现了国产算力上 DeepSeek V3 和 R1 的高效推理。
IT 之家从科大讯飞公告获悉,科大讯飞深度推理大模型星火 X1 也完成更新,在模型参数量比业界同行少一个数量级的情况下,星火 X1 的数学能力全面对标 DeepSeek R1 和 OpenAI o1,在中文数学各项任务中 " 均实现领先 "。