大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

90分钟生成10万Token,新框架实现3倍无损加速超长文本生成,支持DeepSeek-R1和QwQ!

2025-03-13 简体 HK SG TW

今天小编分享的科学经验:90分钟生成10万Token,新框架实现3倍无损加速超长文本生成,支持DeepSeek-R1和QwQ!,欢迎阅读。

大语言模型长序列文本生成效率新突破——

生成 10 万 Token 的文本,传统自回归模型需要近 5 个小时,现在仅需 90 分钟!

最新研究提出了一个名为TOKENSWIFT 框架,从模型加载、KV 缓存管理到 Token 生成策略进行了全方位的优化。

实验结果证明,该方法不仅能大幅提升生成效率,更在保证生成质量和多样性上实现了无损加速。

而且支持 R1-Distill,团队发布经过微调的 DeepSeek-R1-Distill-Qwen-32B 模型,同样具备 3 倍加速效果。

来看 demo 展示:

本研究由来自北京通用人工智能研究院的团队完成,以下是更多细节。

TOKENSWIFT 框架长啥样?

随着 LLMs 长上下文視窗能力的不断提升,复杂任务对超长文本生成的需求越来越高。传统的自回归(AR)生成方式虽然在短文本上表现良好,但在长文本生成中存在明显瓶颈,主要体现在以下三个方面:

模型频繁加载问题

由于自回归生成每生成一个 Token 都需要从 GPU 存储中重新加载模型权重,导致 I/O 操作频繁、延迟高。在生成 10 万 Token 时,模型需要重复加载上万次,严重拖慢整体生成速度。

KV 缓存的动态管理

生成超长文本过程中,模型内部的键值对(KV Cache)不断增长,若直接使用全量 KV 缓存,不仅超出内存预算,还会大幅增加计算时间。如何在保证关键信息不丢失的前提下,实现 KV 缓存的高效更新成为一大难题。

重复性生成

长序列生成易出现重复和冗余问题,影响文本的多样性和质量。虽然重复问题并非论文的主要聚焦点,但在超长文本生成中依然需要有效抑制。

为解决上述难题,论文提出了 TOKENSWIFT ——一个全新的框架,旨在实现无损加速超长序列生成,其主要创新点体现在以下几个方面:

1)多 Token 并行生成与 Token 复用

论文借鉴了 Medusa 等方法,通过引入额外的线性层,使模型在一次前向传播中能够同时生成多个草稿 Token。

更重要的是,基于生成文本中的 n-gram 频率信息,系统会自动检索并复用高频短语,从而进一步减少模型重新加载的次数,提升整体效率。

2)动态 KV 缓存更新策略

在 KV 缓存管理上,TOKENSWIFT 采用动态更新策略。系统在生成过程中将初始 KV 缓存保留,同时根据 Token 的重要性对后续缓存进行有序替换。

这种方式不仅有效控制了缓存的规模,还确保了关键信息始终被保存,大幅降低了因缓存加载带来的延迟。

3)基于树结构的多候选 Token 验证

为保证生成结果与目标模型预测的一致性,TOKENSWIFT 引入了树形注意力机制。

通过构建包含多个候选 Token 组合的树形结构,并采用并行验证的方式,从中随机选择最长且有效的 n-gram 作为最终输出,确保生成过程无损且多样性得到提升。

4)上下文惩罚策略

为了进一步抑制重复生成问题,论文设计了一种上下文惩罚方法。该方法在生成过程中为近期生成的 Token 施加惩罚,使得模型在选择下一 Token 时更倾向于多样化输出,从而有效减少重复现象。

TOKENSWIFT 效果如何?

实验部分,论文在多种模型架构(包括 MHA 和 GQA)及不同规模(1.5B、7B、8B、14B)上进行了充分测试。

结果表明,TOKENSWIFT 在生成 10 万 Token 长序列时,相较于传统自回归方法,平均实现了 3 倍以上的加速,且生成结果在准确性和多样性上基本保持无损。

1)加速效果

实验数据显示,在 LLaMA3.1-8B 模型下,传统 AR 生成 10 万 Token 约需 4.9 小时,而使用 TOKENSWIFT 后仅需 90 分钟,大幅节省时间。在 Qwen2.5-14B 时,传统 AR 生成 10 万 Token 更是达到了 7.9 小时,加速后仅需 142 分钟。这一成果对于实际应用中需要实时或高效长文本生成的场景具有重要意义。

2)验证率与接受率

论文设计了多项指标来评估生成质量,包括 Token 接受率和 Distinct-n 指标。结果表明,TOKENSWIFT 不仅在速度上显著领先,还能在保持无损生成的前提下,有效提升文本的多样性。

消融实验与案例分析

在深入理解 TOKENSWIFT 各模块贡献的过程中,论文还进行了全面的消融实验和案例分析,为优化方案提供了充分依据。

消融实验:关键组件的作用

Token 复用消融:实验中将 Token 复用参数设为 0(即不复用),结果显示,接受率和生成速度均显著下降,表明复用机制在减少模型加载次数、提升整体效率方面发挥了关键作用。

KV 缓存更新策略对比:研究对比了全量缓存、一次性更新和动态更新三种方案。结果表明,全量缓存虽然在接受率上略占优势,但其高计算开销使得整体加速效果不理想;而一次性更新则因缓存膨胀导致性能下降。动态更新策略则在保持高接受率的同时,实现了最佳的速度与资源平衡。

上下文惩罚效果:在不同采样方法下,加入上下文惩罚后,生成文本的 Distinct-n 指标明显提高。

例如,在 min-p 采样场景下,Distinct-n 平均得分从 0.12 提升至 0.69,仅带来约 8% 的速度损失,充分验证了该策略在抑制重复生成方面的有效性。

案例分析:真实生成对比

论文还对比了在有无上下文惩罚条件下生成文本的差异,案例分析结果令人印象深刻:

重复现象的抑制:在未使用上下文惩罚时,生成文本在大约 5K Token 处就出现明显重复,且多为逐字重复;而采用上下文惩罚后,重复问题明显延迟至约 60K Token,且重复部分多表现为语义层次上的相似,而非直接复制,整体文本连贯性和可读性大幅改善。

文本质量的提升:案例对比显示,使用完整 TOKENSWIFT 流程的生成结果在逻辑连贯性、表达多样性和创新性方面均优于传统方法,为实际应用提供了更高质量的文本输出。

通过这些消融实验和案例分析,论文不仅证明了各关键技术模块的重要性,也为后续优化指明了方向,充分体现了 TOKENSWIFT 在超长文本生成领網域的先进性和实用性。

Arxiv:https://arxiv.org/abs/2502.18890

Github:https://github.com/bigai-nlco/TokenSwift

Blog:https://bigai-nlco.github.io/TokenSwift/

—  完  —

学术投稿请于工作日发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

一键关注 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們