今天小編分享的互聯網經驗:騰訊雲助力MiniMax打造大模型:規模超千卡,可用性達99.9%,歡迎閱讀。
高效靈活的雲上基礎設施,是大模型創業的必要底座。
7 月 20 日,騰訊雲對外披露助力 MiniMax 研發大模型的最新進展。目前,騰訊雲長期支持 MiniMax 的千卡級任務穩定運行在騰訊雲上,可用性達 99.9%。
MiniMax 是一家專注通用大模型研發的獨角獸創業企業,擁有文本、語音、視覺多種模态融合的通用大模型引擎能力。研發過程中,每日億級的調用次數,也帶來了對算力的海量需求。
從 2022 年 6 月起,基于算力集群、雲原生、大數據、安全等產品能力,騰訊雲為 MiniMax 搭建了從資源層、數據層到業務層的雲架構。
在資源層,高性能、高彈性和高穩定的算力需要借助專業的雲服務。騰訊雲協同優化單機算力、網絡架構和存儲性能,為 MiniMax 構建起大規模、分布式的 HCC 高性能計算集群。
借助騰訊自研的星脈網絡,HCC 集群将通信損耗降到更低;CFS Turbo、COS+GooseFS 高性能存儲,使得上千個計算節點能同時高速讀取訓練數據。
同時,利用騰訊雲容器服務 TKE,MiniMax 實現了對不同規格雲伺服器的統一管理和調度,各種類型的應用和服務得以部署在同一套基礎設施上,資源實現了高效整合,資源利用率大幅提升;
基于雲原生的管理方式,支撐 7*24 小時的全局監控視角,支持編排、框架、實例等多層級的指标監控。一旦觸發故障,能夠在 5 分鍾内恢復任務、10 分鍾内恢復基礎設施,無需人工幹預完成,能夠最大化保障任務連續進行。
根據實測數據,在雲底座的支撐下,激增的并發計算量;基于雲原生支撐,MiniMax 整體用雲成本降低 20%。
在數據層,MiniMax 在大數據分析方面也有大量的任務需求。
通過騰訊雲的數據集成 DataInlong、流計算 Oceanus、數據湖計算 DLC 等雲原生大數據產品提供的數據處理能力,對大量數據做實時或離線分析,滿足了 MiniMax 在各個階段的數據分析需求,實現數據的快速靈活部署。以容器化的方式使用大數據組件,使得模型驗證、推理等任務得以按計劃推進。
此外,大模型研發過程中,MiniMax 對雲上資產安全、Web 業務運營風險、DDoS 攻擊防護等高度關注。
通過引入騰訊雲的防火牆、WAF、主機安全、漏洞掃描、數據加密、iOA 零信任安全管理等一系列安全產品,MiniMax 實現了對雲上資產的全方位保護,确保業務的穩定運行和數據的安全性。
業務上雲後,基于海量、彈性的算力支撐和大量改進調優,MiniMax 的大模型研發得以加速。
MiniMax 業務副總裁魏偉表示:" 成熟的雲基礎設施,既滿足了業務彈性與穩定性的需要,又提升了研發效率。MiniMax 将進一步擴大用雲規模, 與騰訊雲加速訓練、推理等更多業務場景的雲上落地,共同打造面向大模型的雲上基礎設施。相信未來,雲計算會為 AIGC 帶來更多可能。"
在算力集群、星脈網絡、向量數據庫之外,騰訊雲還推出了涵蓋模型預訓練、模型精調、智能應用開發的一站式行業大模型解決方案,助力企業快速搭建專屬模型。
未來,騰訊雲将繼續通過軟硬一體的方式,持續加速全社會雲上創新。
雷峰網