在马斯克和奥特曼比谁喊的响的时候，DeepSeek低调发论文，梁文锋亲自参与

今天小编分享的互联网经验：在马斯克和奥特曼比谁喊的响的时候，DeepSeek低调发论文，梁文锋亲自参与，欢迎阅读。

当马斯克高调推出基于 20 万块 GPU 集群的 Grok-3、Sam Altman 在开源策略上反复权衡之际，DeepSeek 悄然发布了一项可能改变游戏规则的技术。

18 日，DeepSeek CEO公布了一项由梁文锋亲自参与的研究论文成果——原生稀疏注意力（Native Sparse Attention, NSA）机制。这是 DeepSeek 团队在稀疏注意力领網域的创新性工作，结合了算法创新和硬體优化，旨在解决长上下文建模中的计算瓶颈。

DeepSeek 论文显示，NSA 不仅将大语言模型处理 64k 长文本的速度最高提升 11.6 倍，更在通用基准测试中实现性能反超传统全注意力模型。在全球 AI 竞赛转向 " 硬核创新 " 的当口，这家低调的中国公司展示了技术破局的新范式。

值得注意的是，NSA 尚未应用于 DeepSeek V3 的训练中。这意味着，如果后续 DeepSeek 将 NSA 整合到模型训练中，其基座模型的能力有望实现显著提升。论文中明确指出：" 使用 NSA 预训练的模型超过了全注意力模型 "。

与 DeepSeek 形成鲜明对比的是，xAI 选择了另一条道路：对工程规模的极致追求。今日马斯克发布的 Grok3 使用了 20 万块 GPU 集群，而未来的 Grok4 更是计划使用百万块 GPU、1.2GW 的集群。这种 " 财大气粗 " 的做法，体现了北美在 AI 领網域一贯的 " 大力出奇迹 " 风格。

稀疏注意力：DeepSeek NSA 的创新之道

"AI 革命 " 狂飙突进，长文本建模在 AI 领網域的重要性日益凸显。OpenAI 的 o-series 模型、DeepSeek-R1 以及 Google Gemini 1.5 Pro 等，都展示了处理超长文本的强大潜力。

然而，传统 Attention 机制的计算复杂度随序列长度呈平方级增长，成为制约大语言模型（LLM）发展的关键瓶颈。

稀疏注意力机制被认为是解决这一难题的希望所在。DeepSeek 今日提出的 NSA 机制，正对去年 5 月 MLA（Multi-Layer Attention）工作的补充。NSA 的核心在于将算法创新与硬體优化相结合，实现了高效的长文本建模。

科技媒体AI 寒武纪表示，NSA 的三大关键创新包括：

动态分层稀疏策略：结合粗粒度 Token 压缩和细粒度 Token 选择，兼顾全局上下文感知和局部信息精确性。

算术强度平衡的设计：针对现代硬體进行优化，显著提升计算速度。

端到端可训练：支持端到端训练，减少预训练计算量，同时保持模型性能。

NSA 的核心组件：三位一体，逐层优化

科技自媒体zartbot分析，NSA 架构采用了分层 Token 建模，通过三个并行的注意力分支处理输入序列：

压缩注意力（Compressed Attention）： 通过压缩 Token 块来捕获全局信息，处理粗粒度的模式。

选择注意力（Selected Attention）： 处理重要的 Token 块，选择性地保留细粒度的信息。

滑动視窗注意力（Sliding Window Attention）： 处理局部上下文信息。

这三个分支的输出通过一个门控机制进行聚合。为了最大化效率，NSA 还专门设计了硬體优化的 Kernel。

具体而言，NSA 在 Token Compression 部分，基于 block 粒度进行压缩计算，并插入位置信息编码。在 Token Selection 部分，则巧妙地借用 Compression 的注意力分数作为 block 的重要性分数，进行 top-N 选择，以保留关键的细粒度信息。Sliding Window 部分则负责处理局部上下文。最后，通过 Gating 函数综合三种注意力的输出。

实验结果：性能与效率的双重飞跃

根据 DeepSeek 发布的实验数据，NSA 技术在多个方面展现出卓越表现。

在通用基准测试、长文本任务和指令推理方面，使用 NSA 预训练的模型性能不仅没有下降，反而超越了 Full Attention 模型。更重要的是，在处理 64k 长度的序列时，NSA 在解码、前向传播和反向传播等各个阶段都实现了显著的速度提升，最高可达 11.6 倍，证明了 NSA 在模型生命周期各个阶段的效率优势。

AI 寒武纪表示：

"DeepSeek 的 NSA 技术为长文本建模带来了新的突破。它不仅在性能上超越了传统的 Full Attention 模型，更在效率方面实现了显著的提升，尤其是在长序列场景下。NSA 的 硬體友好设计 和 训推一体化特性，使其在实际应用中更具优势，有望加速下一代 LLM 在长文本处理领網域的应用落地。"

科技媒体信息平权表示，NSA 论文中隐藏了一个 " 彩蛋 "：

"DeepSeek 此次使用了 Triton，而没有提及英伟达专用库和框架。Triton 底层可以调用 CUDA，也可以调用其他计算平台的框架，如 AMD 的 ROCM，甚至国产计算卡。结合 NSA 降低了浮点算力和内存占用门槛的特性，这或许暗示了 DeepSeek 在模型研发阶段，就已经开始考虑未来适配更多类型计算卡，为更广泛、更普遍的开源做准备。"

xAI 的 Grok3：算力堆砌的 " 极致 "

与 DeepSeek 形成鲜明对比的是，xAI 选择了另一条道路：对工程规模的极致追求。Grok3 使用了 20 万块 GPU 集群，而未来的 Grok4 更是计划使用百万块 GPU、1.2GW 的集群。这种 " 财大气粗 " 的做法，体现了北美在 AI 领網域一贯的 " 大力出奇迹 " 风格。

然而，信息平权的分析指出，尽管 xAI 通过超大集群在短时间内实现了对之前 SOTA（State-of-the-Art）模型的反超，但其投入产出比并不理想。相比 DeepSeek V3，xAI 以 50 倍的成本实现了 30% 的性能提升。这表明，单纯在预训练阶段投入巨额算力，其收益可能并不如预期，将资源投入到 RL（强化学习）后训练阶段可能更为划算。