大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科技

梁文锋亲自挂名,DeepSeek 最新论文丢出注意力新机制,推理速度直线提升 11 倍

2025-02-24 简体 HK SG TW

今天小编分享的科技经验:梁文锋亲自挂名,DeepSeek 最新论文丢出注意力新机制,推理速度直线提升 11 倍,欢迎阅读。

2 月 18 日,马斯克发布 Grok 3 的热度还没过去,梁文锋就作为 co-authors 带着 DeepSeek 研究团队杀了回来。

公布新研究的推文发布不到 3 个小时,就带来了三十多万的浏览量,火爆程度不逊 OpenAI。

而这次 DeepSeek 团队最新的研究论文更是重磅,论文中介绍了一种全新的,可用于超快速的长上下文训练与推理的注意力机制 —— NSA,值得一提的是,NSA 还具有与硬體对齐的特点,十足的硬體友好。

论文中提到的 NSA 核心组成主要包括三点:分别是动态分层稀疏策略、粗粒度的 token 压缩以及细粒度的 token 选择。有了这三点核心技术的加持,就能够在有效降低预训练成本的情况下,同时显著提升推理速度,特别是在解码阶段实现了高达 11.6 倍的提升。

更让人感到眼前一亮的是,DeepSeek 创始人兼 CEO 梁文锋这次也出现在了合著名单之中,不仅亲自上阵,还亲自提交了论文。

看热闹不嫌事大的网友甚至还借此调侃奥特曼:DeepSeek 又发了一篇很强的新论文了哦!

DeepSeek 填补了稀疏注意力机制存在的缺陷

随着 AI 领網域的不断发展,长上下文建模能力的关键性日益凸显,尤其在现实世界的应用中有着广泛需求,比如深度推理、代码库级代码生成和多轮自主代理系统。就比如 DeepSeek 自家的 R1 模型就是突破了这个技术,使其能够处理整个代码库、长篇文档,并保持成千上万 token 的对话连贯性,同时也能在长距离依赖的情境下进行复杂推理。

但序列越来越长,传统的注意力机制就开始因为太过复杂成为了造成运行延迟的最大因素。理论分析显示,使用 softmax 架构的注意力计算在解码 64k 长度的上下文时,几乎占据了总延迟的 70-80%,传统注意力机制存在明显缺陷,提升速度成了一件非常重要的事情。

并且自然的实现高效长上下文建模的方法是利用 softmax 注意力的固有稀疏性,选择性地计算关键的 query-key 对,从而大幅降低计算开销,并保持模型性能。

近年来,相关研究在这一方向取得了进展,提出了如 KV 缓存淘汰、块状 KV 缓存选择,以及基于采样、聚类或哈希的选择方法等策略。尽管这些方法展示了很大的潜力,但现有的稀疏注意力技术在实际部署时种仍未能达到预期效果。并且大部分研究主要集中于推理阶段,缺乏对训练阶段有效支持,因此并不能充分发挥稀疏模式的优势。

为实现更高效的稀疏注意力,DeepSeek 研究团队提出了一种原生可训练的稀疏注意力架构 NSA,这个架构的核心内容是通过动态分层稀疏策略,结合粗粒度的 token 压缩和细粒度的 token 选择,从而保留全局上下文感知能力和局部精确性。

同时 NSA 通过精妙的算法设计和针对现代硬體的优化,实现在计算速度上的显著提升,并支持端到端训练,既提高了推理效率,又减少了预训练计算量,同时保持了模型性能。

除此之外,新研究还通过使用 Triton,开发了与硬體高度兼容的稀疏注意力内核。

DeepSeek 的优化策略则是采用不同的查询分组方法,并通过以下特性实现接近最优的计算强度平衡:

1、组内数据加载:每次内循环加载该组所有头的查询及其共享的稀疏 KV 块索引。

2、共享 KV 加载:内循环中连续加载 KV 块,减少内存加载的开销。

3、网格循环调度:由于内循环长度在不同查询块间几乎相同,将查询 / 输出循环与 Triton 的网格调度器结合,简化并优化了内核的执行。

DeepSeek:NSA 已在多面碾压全注意力

在对 NSA 进行技术评估时,研究人员分别从通用基准性能、长文本基准性能、思维链推理性能三个角度,分别将 NSA 与全注意力基线和 SOTA 稀疏注意力方法进行比较。

测试中 NSA 的预训练损失曲线相比全注意力基线呈现出更加稳定和平滑的下降趋势,且始终优于全注意力模型。

除此之外,为了验证 NSA 在实际训练和推理中的效果,DeepSeek 研究团队采用了当前领先的 LLM 常用实践,选择了一个结合分组查询注意力(GQA)和混合专家(MoE)架构的模型作为样本,该模型的总参数量为 27B,其中 3B 为活跃参数。

在这个基础上,DeepSeek 对 NSA、全注意力和其他注意力机制分别进行了评估。结果显示,尽管 NSA 采用了稀疏性,但其整体性能仍然优于所有基线模型,包括全注意力模型,并且在 9 项评测指标中有 7 项表现最好。

另外,在长上下文任务中, NSA 在 64k 上下文的 " 大海捞针 " 测试中表现出了极高的检索精度。这归功于其分层稀疏注意力设计,通过粗粒度的 token 压缩实现了高效的全局上下文扫描,同时通过细粒度的选择性标记来保留关键的信息,从而有效平衡了全局感知与局部精确度。

同时研究团队还在 LongBench 基准上,也对 NSA 进行了评估。最终 NSA 以最高平均分 0.469,优于其他所有基准。

在思维链推理性能评估方面,研究人员通过从 DeepSeek-R1 进行知识蒸馏,并借助 100 亿条 32k 长度的数学推理轨迹进行了监督微调(SFT)。

最后用 AIME 24 基准来评估所生成的两个模型 Full Attention-R(全注意力基准模型)和 NSA-R(稀疏变体模型)的表现。

在 8k 上下文設定下,NSA-R 的准确率超过了 Full Attention-R,差距为 0.075。即使在 16k 上下文环境中,NSA-R 仍然保持着这一优势,准确率高出 0.054。

NSA 验证清华姚班早期论文

值得一提的是,论文末尾提到的处理复杂数学问题的示例,再次验证了两年前清华大学姚班一篇论文中的结论。

由于 Transformer 架构在注意力机制上的局限,处理复杂数学问题时,tokens 数量过多常常会导致性能下降,特别是在任务复杂度较高时。

DeepSeek 的最新研究通过优化问题理解和答案生成,将所需的 tokens 数量减少至 2275,从而成功得出了正确答案。而与之对比的基线方法,尽管消耗了 9392 个 tokens,最终却得出了错误的答案。这一显著的提升展示了新方法在效率和准确性上的优势。

清华大学姚班的那篇论文探讨了在 Transformer 架构下,模型在计算两个四位数乘法(例如 1234 × 5678 )时的表现。研究发现,GPT-4 在处理三位数乘法时的准确率为 59%,然而当任务变为四位数乘法时,准确率却骤降至 4%。这一现象揭示了在面对更复杂计算时,Transformer 架构的推理能力受到显著限制。

这些研究结果表明,尽管 Transformer 架构在某些任务中表现出色,但在处理复杂推理任务,尤其是需要大量信息处理时,仍然存在瓶颈。

关于 DeepSeek 论文结尾的复杂数学题,雷峰网也用 GPT o3-mini 进行了解读,最终呈现的解题过程比 DeepSeek 论文中给出的解题过程要长出 2 倍之多。

由此可见,大模型的发展就是一个不断推陈出新的过程。

而反观 DeepSeek,未来的研究可能会更加专注于如何优化模型在长文本和代码库分析中的表现,以进一步提升其推理能力和实用性。

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們