今天小編分享的科學經驗:“源神”DeepSeek!突破H800性能上限,FlashMLA重磅開源,算力成本還能降,歡迎閲讀。
DeepSeek 開源周第一天,降本大法公開——
FlashMLA,直接突破 H800 計算上限。
網友:這怎麼可能??
它是為 Hopper GPU 開發的高效 MLA 解碼内核,專門針對可變長度序列進行了優化,目前已經投入生產。
MLA,正是 DeepSeek 提出的創新注意力架構。從 V2 開始,MLA 使得 DeepSeek 在系列模型中實現成本大幅降低,但是計算、推理性能仍能與頂尖模型持平。
按照官方介紹來説,FlashMLA 使用之後,H800 可以達到 3000GB/s 内存,實現 580TFLOPS 計算性能。
網友們紛紛點贊:向工程團隊致以崇高的敬意,從 Hopper 的張量核中擠出了每一個 FLOP。這就是我們将 LLM 服務推向新前沿的方式!
已經有網友用上了。
開源第一天:FlashMLA
目前 GitHub 頁面已經更新。短短一小時,Star 星數已經超過 1.2k。
此次已經發布:
支持 BF16;
分頁 KV 緩存,塊大小為 64
快速啓動:
環境要求:
Hopper GPU
CUDA 12.3 及以上版本
PyTorch 2.0 及以上版本
在項目的最後,它還表示,這是受到了FlashAttention 2&3和英偉達 CUTLASS 項目的啓發。
FlashAttention 是能實現快速且内存高效的精确注意力,主流大模型都有在用。最新的第三代,可以讓 H100 利用率飙升至 75%。訓練速度提升 1.5-2 倍,FP16 下計算吞吐量高達 740TFLOPs/s,達理論最大吞吐量75%,更充分利用計算資源,此前只能做到 35%。
核心作者是 Tri Dao,普林斯頓大牛,Together AI 的首席科學家。
而英偉達 CUTLASS 是 CUDA C++ 模板抽象的集合,用于在 CUDA 内實現高性能矩陣 - 矩陣乘法 ( GEMM ) 和所有級别和規模的相關計算。
MLA,DeepSeek 基本架構
最後再來説説,MLA,多頭潛在注意力機制,DeepSeek 系列模型的基本架構,旨在優化 Transformer 模型的推理效率與内存使用,同時保持模型性能。
它通過低秩聯合壓縮技術,将多頭注意力中的鍵(Key)和值(Value)矩陣投影到低維潛在空間,從而顯著減少鍵值緩存(KV Cache)的存儲需求。這種方法在長序列處理中尤為重要,因為傳統方法需要存儲完整的 KV 矩陣,而 MLA 通過壓縮僅保留關鍵信息。
V2 版本中,這一創新性架構把顯存占用降到了過去最常用的 MHA 架構的 5%-13%,實現了成本大幅降低。它的推理成本僅為 Llama 370B 的 1/7、GPT-4 Turbo 的 1/70。
而在 V3,這一降本提速就更為明顯,直接讓 DeepSeek 吸引全球目光。
也就在今天,DeepSeek-R1 在 HuggingFace 上獲得了超過 10000 個贊,成為該平台近 150 萬個模型之中最受歡迎的大模型。
HuggingFace CEO 發文公布了這一喜訊。
The whale is making waves!鲸魚正在掀起波浪!
好了期待一下,接下來的四天會發些什麼呢?
GitHub 鏈接:
https://github.com/deepseek-ai/FlashMLA
參考鏈接:
https://x.com/deepseek_ai/status/1893836827574030466