今天小編分享的科技經驗:字節跳動豆包大模型團隊開源MoE架構優化技術,訓練成本節省40%,歡迎閱讀。
IT 之家 3 月 10 日消息,字節跳動豆包大模型團隊官宣開源一項針對 MoE(混合專家模型)架構的關鍵優化技術,可将大模型訓練效率提升 1.7 倍,成本節省 40%。據悉,該技術叫做 COMET,已實際應用于字節的萬卡集群訓練,累計幫助節省了數百萬 GPU 小時訓練算力。
IT 之家注意到,早前豆包團隊發布了新一代稀疏架構 UltraMem,将模型推理成本砍掉 83%,此次,又開源了 COMET,向模型訓練成本出手。
目前,COMET 核心代碼已開源,并計劃兼容 Triton 等編譯生态。
論文鏈接:https://arxiv.org/pdf/2502.19811
開源地址:https://github.com/bytedance/flux