今天小編分享的科技經驗:加速國產GPU開發!摩爾線程開源高性能計算庫MUTLASS,歡迎閱讀。
快科技 11 月 12 日消息,摩爾線程宣布,正式開源高性能線性代數模板庫 MUTLASS,以便開發者能夠更高效地針對摩爾線程 GPU MUSA Core、Tensor Core 等單元進行編程,加速基于國產 GPU 的算子開發以及算法創新。
在此之前,摩爾線程已經相繼開源 OpenCV-MUSA 計算機視覺庫、MooER 音頻理解大模型、vLLM-MUSA 大語言模型高速推理框架。
▼ MUTLASS 開源地址:
https://github.com/MooreThreads/mutlass
在數值計算和深度學習領網域,矩陣乘法(GEMM)及其變種,比如 FlashAttention、Convolution,是構建復雜上層應用的基石。
不夠,為了追求更高的算子融合效率,或者更創新的算法,開發者們往往需要超越标準化計算接口的限制,如标準 BLAS 接口以及芯片廠商的計算庫接口,以實現高性能的定制化算子。
MUTLASS(MUSA Templates for Linear Algebra Subroutines)正是為滿足這一需求而設計。
作為摩爾線程專為自研 MUSA 架構優化的高性能計算庫,MUTLASS 是基于開源模板庫 CUTLASS 進行的 MUSA 适配和定制化開發、優化。
針對矩陣乘法及相關變種,MUTLASS 提供了一系列高性能的 C++ 模板組件,并采用了與 muDNN 庫類似的分層分解及數據搬運策略,以确保性能的充分發揮。
在本次開源的版本中,摩爾線程适配了 CuTe 後端庫,為其增加了第三代 MUSA 架構的 MMA 計算原語,支持 TF32/FP16/BF16/INT8 等多種數據精度,并以此為基礎,初步實現了矩陣乘法、默認實例庫、性能測試器及相關工具包的支持。
借助 MUTLASS,開發者們既可以靈活復用不同層級的模板組件,也可以按需修改各種模板組件的實現細節,以較低的開發成本實現定制化的高性能算子,從而在摩爾線程全功能 GPU 上充分釋放性能,并嘗試更多的算法創新。
摩爾線程将持續優化 MUTLASS 的性能,并不斷引入新的功能。