今天小編分享的互聯網經驗:中國大模型“卷技術”!DeepSeek前腳發布NSA,Kimi立刻跟進MoBA,歡迎閱讀。
周二,當全球目光聚焦于馬斯克 Grok-3 的龐大 GPU 集群時,中國大模型公司正在技術創新的道路上默默加速。
先是DeepSeek 提出了原生稀疏注意力(Native Sparse Attention, NSA)機制。這項梁文鋒親自參與的研究成果,結合了算法創新和硬體優化,旨在解決長上下文建模中的計算瓶頸。
NSA 不僅能将大語言模型處理 64k 長文本的速度最高提升 11.6 倍,更在通用基準測試中實現了對傳統全注意力模型的性能反超。這一突破表明,通過算法和硬體層面的協同創新,可以在不犧牲模型性能的前提下,顯著提升長文本處理效率。
緊随 DeepSeek 的步伐,Kimi 也迅速推出了自家的稀疏注意力技術—— MoBA(Mixture of Block Attention)。
據這份由月之暗面、清華大學和浙江大學的研究人員共同發布的技術報告《MOBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS》,MoBA 的設計理念是将全上下文劃分為多個塊,每個查詢令牌(query token)學習關注最相關的鍵值(KV)塊,從而實現對長序列的高效處理。
與 DeepSeek 創始人梁文鋒參與著作一樣,月之暗面創始人楊植麟的名字也出現這篇論文的作者欄裡。
據論文介紹,在各種長文本處理任務中,采用 MoBA 技術的模型可以在保持相近性能的同時,将注意力計算的時間和内存消耗顯著降低。在 1M token 的測試中,MoBA 比全注意力快了 6.5 倍,在處理超長文本(如 1000 萬 token)時,MoBA 的優勢更加明顯,可以實現 16 倍以上的加速。
MoBA 已經部署于支持 Kimi 的長上下文請求處理,并在大語言模型的高效注意力計算方面取得了顯著進展。更值得一提的是,MoBA 可以輕松地集成到現有的 LLMs 中,而無需進行大量的訓練。
MoBA:基于塊的稀疏注意力
為了實現人工通用智能(AGI),LLMs 需要能夠處理長文本序列,這對于歷史數據分析、復雜推理和決策等任務至關重要。
而傳統的自注意力機制計算復雜度呈二次增長,限制了 LLMs 處理長文本的能力。現有的解決方案要麼引入了強偏見的結構(如滑動視窗注意力),要麼對注意力機制進行了線性近似,這些方法在復雜推理任務中的表現尚未得到充分驗證。
MOBA 技術的核心思想是将傳統 Transformer 模型中的全局注意力機制改造為基于塊的稀疏注意力。具體來說,MOBA 将輸入序列劃分為多個塊,然後對每個查詢 token 動态選擇最相關的幾個塊進行注意力計算,而不是像傳統方法那樣對所有 token 都進行計算。
這種方法既保留了原始 Transformer 的強大表達能力,又顯著降低了計算復雜度,特别适合處理超長文本輸入。
MoBA 的核心創新點包括:
可訓練的塊稀疏注意力: 全上下文被劃分為多個塊,每個查詢令牌學習關注最相關的 KV 塊,實現長序列的高效處理。
無參數門控機制: 引入了一種新穎的無參數 top-k 門控機制,為每個查詢令牌選擇最相關的塊,确保模型只關注信息量最大的部分。
全注意力和稀疏注意力之間的無縫切換: MoBA 被設計為全注意力的靈活替代品,允許在全注意力和稀疏注意力模式之間無縫切換。
在處理超長文本時,MoBA 可以實現 16 倍以上的加速
在各種長文本處理任務中,采用 MoBA 技術的模型可以在保持相近性能的同時,将注意力計算的時間和内存消耗顯著降低。在 1M token 的測試中,MoBA 比全注意力快了 6.5 倍,在處理超長文本(如 1000 萬 token)時,MoBA 的優勢更加明顯,可以實現 16 倍以上的加速。
Kimi 團隊在多個方面對 MoBA 進行了實驗驗證:
縮放定律實驗(Scaling Law Experiments): 實驗表明,盡管 MoBA 的注意力模式稀疏度高達 81.25%,但其在語言模型損失方面的表現與全注意力相當。
長文本縮放能力(Long Context Scalability): 通過增加序列長度到 32K,MoBA 的稀疏度進一步提高到 95.31%。實驗表明,MoBA 在處理長文本時,其性能與全注意力之間的差距逐漸縮小。
細粒度塊分割消融研究(Ablation Study on Fine-Grained Block Segmentation): 實驗表明,更細粒度的塊分割可以進一步提高 MoBA 的性能。
MoBA 與全注意力的混合訓練(Hybrid of MoBA and Full Attention): 實驗表明,通過混合使用 MoBA 和全注意力進行訓練,可以在訓練效率和模型性能之間取得平衡。
大型語言模型評估(Large Language Modeling Evaluation): 在多個真實世界的下遊任務中,MoBA 的表現與全注意力模型相當,甚至在某些任務上略有優勢。
效率和可擴展性(Efficiency and Scalability): 實驗表明,MoBA 在處理長序列時比全注意力更高效,計算復雜度為亞平方級。在 1M token 的測試中,MoBA 比全注意力快了 6.5 倍,在處理 1000 萬 token 的序列時,MoBA 的注意力計算時間減少了 16 倍。