今天小編分享的科學經驗:DeepSeek新注意力機制引熱議!梁文鋒親自提交預印本,目标明确降低計算成本,歡迎閱讀。
DeepSeek 新注意力機制論文一出,再次引爆讨論熱度。
依然是熟悉的畫風,熟悉的味道——
那邊馬斯克瘋狂燒了 20 萬張卡訓出 Grok 3,這廂 DeepSeek 重點關注的依然是壓縮計算和推理成本。
具體來說,新論文提出了一種可原生訓練的稀疏注意力機制,名為NSA(Native Sparse Attention)。
目的很明确:解決大模型上下文建模中,标準注意力機制造成的計算成本高昂的問題。
效果也很明顯:
實驗表明,在解碼 64k 上下文時,基于 softmax 架構的注意力計算占到總延遲的 70%-80%。而在不影響性能的前提下,NSA 在 64k 上下文的解碼、前向傳播和反向傳播中均實現了顯著加速。
其中前向傳播速度最高可提升 9 倍,反向傳播速度最高可提升 6 倍,解碼速度提升可達 11.6 倍。
正如不少網友提到的,NSA 意味着 DeepSeek 找到了優化注意力的方法,可以用更少的算力更加高效地訓練大模型,并且,他們還把這些 " 秘籍 " 公開了出來。
剛剛加入 OpenAI 不久的 ViT 核心作者 Lucas Beyer 也不禁開麥:粉了粉了。
另一點受到關注的是,這篇論文的作者可以說是 DeepSeek 系列大模型原班人馬,梁文鋒本人亦在其列——
論文還是梁文鋒親自傳上 arXiv 的。
來看論文細節。
NSA 的核心方法包括:
動态分層稀疏策略
粗粒度 Token 壓縮
細粒度 Token 選擇
整體框架上,NSA 是用更緊湊的鍵值對替代原始注意力中的鍵值對,通過壓縮、選擇和滑動視窗(sliding window)三種映射策略得到優化注意力輸出,保持高稀疏率。
采取分層設計的好處是:
減少計算量的同時,能有效避免信息丢失,是模型在處理長序列時既高效又精準。
能夠在保證全局上下文感知的同時,精确捕捉局部信息,提升模型的表現。
可根據任務需求和上下文動态調整稀疏程度
具體到算法設計上,粗粒度 Token 壓縮通過将連續的 Token 聚合成塊級表示,可以捕獲全局語義信息,同時減少注意力的計算負擔。
細粒度 Token 選擇從序列中選擇最重要的 Token,保留關鍵的局部信息。
滑動視窗則避免了局部模式的過度優勢——在注意力機制中,局部模式往往會主導學習過程,阻止模型有效地從壓縮和選擇 Token 中學習。
為了實現以上創新,DeepSeek 官方還強調了兩方面的關鍵工作:
硬體對齊系統:針對張量核心利用率和内存訪問優化塊級稀疏注意力,确保均衡的算術強度。
訓練感知設計:通過高效算法和向後運算符實現穩定的端到端訓練。
研究人員用 27B 參數規模的模型進行了實驗,結果顯示,全注意力機制和 NSA 在預訓練損失方面,都表現出了穩定的收斂性,并且 NSA 實現了更低的損失值。
在包含知識、推理和編碼能力的多個通用基準測試中,與全注意力模型相比,NSA 模型性能不降反超,在推理任務 DROP 中提升尤為明顯。
長上下文方面,64k 上下文的 " 大海撈針 " 測試裡,NSA 完美過關。
在需要復雜長下文推理的各項任務中,NSA 的表現也基本超過了包括全注意力模型在内的基線模型。
而在思維鏈推理評估中,通過知識蒸餾和監督微調,在 8k 和 16k 上下文設定下,AIME 任務中 NSA-R 的得分均超過了全注意力模型。
這表明,NSA 預訓練的稀疏注意力模式能有效捕捉長距離邏輯依賴,且其硬體對齊設計可支持不斷增加的推理深度。
效率方面,在 8-GPU A100 系統上,NSA 的訓練加速效果會随上下文長度的增加而增強。在 64k 上下文長度時,前向傳播速度最高可提升 9 倍,反向傳播速度最高可提升 6 倍,解碼速度提升可達 11.6 倍。
有意思的是,在馬斯克推出 Grok 3 炸場之時,不少人感慨:" 大力出奇迹 " 在大模型訓練裡仍然奏效——
在 Grok 3 成為大模型競技場首個突破 1400 分模型的背後,是驚人的 10 萬卡(後來擴展到 20 萬)H100 集群。
但現在,DeepSeek 為代表的效率派們顯然在引發另一種方向上的思考:通往 AGI 的路,可以更高效,更本地化,更人人可用。
論文地址:
https://arxiv.org/abs/2502.11089