中国大模型“卷技术”！DeepSeek前脚发布NSA，Kimi立刻跟进MoBA

今天小编分享的互联网经验：中国大模型“卷技术”！DeepSeek前脚发布NSA，Kimi立刻跟进MoBA，欢迎阅读。

周二，当全球目光聚焦于马斯克 Grok-3 的庞大 GPU 集群时，中国大模型公司正在技术创新的道路上默默加速。

先是DeepSeek 提出了原生稀疏注意力（Native Sparse Attention, NSA）机制。这项梁文锋亲自参与的研究成果，结合了算法创新和硬體优化，旨在解决长上下文建模中的计算瓶颈。

NSA 不仅能将大语言模型处理 64k 长文本的速度最高提升 11.6 倍，更在通用基准测试中实现了对传统全注意力模型的性能反超。这一突破表明，通过算法和硬體层面的协同创新，可以在不牺牲模型性能的前提下，显著提升长文本处理效率。

紧随 DeepSeek 的步伐，Kimi 也迅速推出了自家的稀疏注意力技术—— MoBA（Mixture of Block Attention）。

据这份由月之暗面、清华大学和浙江大学的研究人员共同发布的技术报告《MOBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS》，MoBA 的设计理念是将全上下文划分为多个块，每个查询令牌（query token）学习关注最相关的键值（KV）块，从而实现对长序列的高效处理。

与 DeepSeek 创始人梁文锋参与著作一样，月之暗面创始人杨植麟的名字也出现这篇论文的作者栏里。

据论文介绍，在各种长文本处理任务中，采用 MoBA 技术的模型可以在保持相近性能的同时，将注意力计算的时间和内存消耗显著降低。在 1M token 的测试中，MoBA 比全注意力快了 6.5 倍，在处理超长文本（如 1000 万 token）时，MoBA 的优势更加明显，可以实现 16 倍以上的加速。

MoBA 已经部署于支持 Kimi 的长上下文请求处理，并在大语言模型的高效注意力计算方面取得了显著进展。更值得一提的是，MoBA 可以轻松地集成到现有的 LLMs 中，而无需进行大量的训练。

MoBA：基于块的稀疏注意力

为了实现人工通用智能（AGI），LLMs 需要能够处理长文本序列，这对于历史数据分析、复杂推理和决策等任务至关重要。

而传统的自注意力机制计算复杂度呈二次增长，限制了 LLMs 处理长文本的能力。现有的解决方案要么引入了强偏见的结构（如滑动視窗注意力），要么对注意力机制进行了线性近似，这些方法在复杂推理任务中的表现尚未得到充分验证。

MOBA 技术的核心思想是将传统 Transformer 模型中的全局注意力机制改造为基于块的稀疏注意力。具体来说，MOBA 将输入序列划分为多个块，然后对每个查询 token 动态选择最相关的几个块进行注意力计算，而不是像传统方法那样对所有 token 都进行计算。

这种方法既保留了原始 Transformer 的强大表达能力，又显著降低了计算复杂度，特别适合处理超长文本输入。

MoBA 的核心创新点包括：

可训练的块稀疏注意力：全上下文被划分为多个块，每个查询令牌学习关注最相关的 KV 块，实现长序列的高效处理。

无参数门控机制：引入了一种新颖的无参数 top-k 门控机制，为每个查询令牌选择最相关的块，确保模型只关注信息量最大的部分。

全注意力和稀疏注意力之间的无缝切换： MoBA 被设计为全注意力的灵活替代品，允许在全注意力和稀疏注意力模式之间无缝切换。

在处理超长文本时，MoBA 可以实现 16 倍以上的加速

在各种长文本处理任务中，采用 MoBA 技术的模型可以在保持相近性能的同时，将注意力计算的时间和内存消耗显著降低。在 1M token 的测试中，MoBA 比全注意力快了 6.5 倍，在处理超长文本（如 1000 万 token）时，MoBA 的优势更加明显，可以实现 16 倍以上的加速。

Kimi 团队在多个方面对 MoBA 进行了实验验证：

缩放定律实验（Scaling Law Experiments）：实验表明，尽管 MoBA 的注意力模式稀疏度高达 81.25%，但其在语言模型损失方面的表现与全注意力相当。

长文本缩放能力（Long Context Scalability）：通过增加序列长度到 32K，MoBA 的稀疏度进一步提高到 95.31%。实验表明，MoBA 在处理长文本时，其性能与全注意力之间的差距逐渐缩小。

细粒度块分割消融研究（Ablation Study on Fine-Grained Block Segmentation）：实验表明，更细粒度的块分割可以进一步提高 MoBA 的性能。

MoBA 与全注意力的混合训练（Hybrid of MoBA and Full Attention）：实验表明，通过混合使用 MoBA 和全注意力进行训练，可以在训练效率和模型性能之间取得平衡。

大型语言模型评估（Large Language Modeling Evaluation）：在多个真实世界的下游任务中，MoBA 的表现与全注意力模型相当，甚至在某些任务上略有优势。

效率和可扩展性（Efficiency and Scalability）：实验表明，MoBA 在处理长序列时比全注意力更高效，计算复杂度为亚平方级。在 1M token 的测试中，MoBA 比全注意力快了 6.5 倍，在处理 1000 万 token 的序列时，MoBA 的注意力计算时间减少了 16 倍。