今天小編分享的科技經驗:科大訊飛聯合華為率先實現國產算力大規模跨節點專家并行集群推理,歡迎閱讀。
IT 之家 3 月 11 日消息,科大訊飛研究院今日官宣,科大訊飛攜手華為在國產算力領網域取得重大進展,雙方聯合團隊率先突破國產算力集群上 MoE 模型的大規模跨節點專家并行集群推理,這是繼 DeepSeek 公布其 MoE 模型訓練推理方案後,業界首個基于國產算力的全新解決方案。
聯合團隊通過軟硬體的深度協同創新,在多個關鍵技術層面深挖硬體潛力,完成昇騰集群上的驗證和部署。在算子融合方面,團隊在 MLA 預處理階段通過 Vector 與 Cube 異構計算單元并行流水,并将多個小算子融合重構為原子級計算單元,消除小算子下發開銷,MLA 前處理時延降低 50%+,實現性能的顯著提升。
科大訊飛研究院介紹稱,在混合并行策略和通信計算并行優化方面,團隊構建了 TP(張量并行)+EP(專家并行)混合範式:對 MLA 計算層采用機内 TP 并行,發揮機内高速互聯優勢,降低跨機通信損耗;創新 MoE 專家分層調度,64 卡均衡分配專家計算節點,定制 AllToAll 通信協定,專家數據交換效率提升 40%,構建跨機 / 機内雙層通信架構,通過分層優化降低跨機流量 60%;同時研發路由專家負載均衡算法,實現卡間負載差異小于 10%,集群吞吐提升 30%。
通過分布式架構創新與算法協同優化,聯合團隊在國產算力上實現了顯著的性能提升。單卡靜态内存占用縮減至雙機部署的 1/4,效率提升 75%,專家計算密度增加 4 倍,推理吞吐提升 3.2 倍,端到端時延降低 50%。
科大訊飛研究院表示,這一突破性的解決方案也将應用于訊飛星火深度推理模型的訓練加速,預期訓練時推理效率将提升 200%。同時,基于該方案的推理引擎也實現了國產算力上 DeepSeek V3 和 R1 的高效推理。
IT 之家從科大訊飛公告獲悉,科大訊飛深度推理大模型星火 X1 也完成更新,在模型參數量比業界同行少一個數量級的情況下,星火 X1 的數學能力全面對标 DeepSeek R1 和 OpenAI o1,在中文數學各項任務中 " 均實現領先 "。